Solo 拉取 GitHub 仓库和自动备份

本贴最后更新于 187 天前,其中的信息可能已经时移世改

本文是《Solo 从设计到实现》的一个章节,该系列文章将介绍 Solo 这款 Java 博客系统是如何从无到有的,希望大家能通过它对 Solo 从设计到实现有个直观地了解、能为想参与贡献的人介绍清楚项目,也希望能为给重复发明重新定义博客系统的人做个参考 ❤️

  1. 拉取 GitHub 仓库:每 24 小时定时拉取用户 GitHub 账号下的公有仓库,然后生成一篇文章并在加入到导航中,实际效果请参看这里
  2. 自动备份:每 24 小时定时导出用户的公开文章到社区账号下(注意仅包含文章,不包含其他数据)。

拉取并展示仓库

仓库数据是通过社区接口获取的, GitHubs#getGitHubRepos

public static JSONArray getGitHubRepos(final String githubUserId) {
    try {
        final HttpResponse res = HttpRequest.get("https://hacpai.com/github/repos?id=" + githubUserId).trustAllCerts(true).
                connectionTimeout(3000).timeout(7000).header("User-Agent", Solos.USER_AGENT).send();
        if (HttpServletResponse.SC_OK != res.statusCode()) {
            return null;
        }
        res.charset("UTF-8");
        final JSONObject result = new JSONObject(res.bodyText());
        if (0 != result.optInt(Keys.STATUS_CODE)) {
            return null;
        }
        final JSONObject data = result.optJSONObject(Common.DATA);
        final JSONArray ret = data.optJSONArray("githubrepos");

        return ret;
    } catch (final Exception e) {
        LOGGER.log(Level.ERROR, "Gets GitHub repos failed", e);

        return null;
    }
}

社区会定时调用 GitHub Repos API 获取用户仓库数据,然后持久化到数据库中,Solo 请求数据时查库返回。

自动备份

  1. 登录博客后台,在工具 -> 偏好设定 -> 参数设置中勾选 备份所有文章到社区
  2. 程序启动后会进行第一次同步,后续每 24 小时触发一次
  3. 在社区个人设置 - B3 中可下载备份包

请注意

实现流程:

  1. 博客端定时触发同步请求,将所有文章(包括草稿和加密文章)导出 md 打 zip 包
  2. 将包发送至社区服务器,由社区服务器上传到云存储完成备份

代码实现请参考 ExportService#exportHacPai

  • Solo

    Solo 是一款小而美的开源博客系统,专为程序员设计。Solo 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    1270 引用 • 9533 回帖 • 602 关注
  • 设计
    105 引用 • 777 回帖 • 1 关注
  • 文档
    55 引用 • 1251 回帖 • 1 关注
4 操作
88250 在 2020-05-22 12:14:29 更新了该帖
88250 在 2020-05-17 19:53:17 更新了该帖
88250 在 2020-01-14 10:36:20 更新了该帖
88250 在 2019-12-15 11:16:59 更新了该帖

赞助商 我要投放

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • mmzsblog

    使用 Tomcat 部署的项目,但是没有自动同步到 GitHub 社区?是不是因为我设置了多个管理员的原因呢?

    1 回复
  • 88250
    作者

    可以看下日志中是否有报错或者其他信息。

    1 回复
  • mmzsblog

    日志打印了 GitHub repo syncing....这句话;将 GitHub 的公开仓库同步到了博客;但是博客的文章没有同步到 GitHub

    1 回复
  • 88250
    作者

    社区服务器上的日志能找到最近一次同步成功的记录是 8 月 5 号,后面就没有同步请求过来了。我估计是因为 Solo 博客端没有发出同步推送请求,你看下是不是如下几个原因导致没有发送同步请求:

    • 设置中是否勾选“允许同步 GitHub 仓库”
    • server host 不能是 localhost 或者 IP
    • runtime mode 必须是生产模式
    1 回复
  • mmzsblog

    谢谢您,解决了;

    原因是 runtime mode 没有修改成生产模式

    1 回复
  • iwang-peng

    runtime mode 这个是在哪修改呢???

    1 回复
  • 88250
    作者

    docker 部署的话带参数,war 部署的话改 latke.props。

  • happinesslijian

    自动同步到 GitHub 上的这个功能已经废弃了吗?不用了吗?

    1 回复
  • 88250
    作者

    请看这里

  • liu-yanyang

    为什么我现在在 GitHub 上面找不到 war 包了呀?

  • liu-yanyang

    GitHub 上面现在只有 zip 和源码包了,在哪里可以找到 war 包

    1 回复
  • Rainsheep
    捐赠者

    我想问下,拉取 GitHub 功能无法使用了吗,我的很久没有更新过了,设置中勾选了拉取 GitHub 仓库信息

    1 回复
  • 88250
    作者

    https://hacpai.com/settings/account 重新绑定一下 GitHub 账号。

    1 回复
  • Rainsheep
    捐赠者

    还不行,是生产模式的原因?生产模式怎么设置

    1 回复
  • 88250
    作者

    如果你不是自己构建源码部署的话默认就是生产模式了。试下通过 GitHub 重新登录社区看看是否会更新。

    1 回复
  • Rainsheep
    捐赠者

    重新登录 然后重启了 solo 并没有更新。.

    1 回复
  • 88250
    作者

    有出现异常日志么?

    1 回复
  • Rainsheep
    捐赠者

    这个是吗,

    [ERROR]-[2020-02-14 07:15:54]-[org.b3log.latke.http.renderer.StaticFileRenderer:76]: Renders static file failed
    java.io.FileNotFoundException: File '/opt/solo/js/comm.js' does not exist
    	at org.apache.commons.io.FileUtils.openInputStream(FileUtils.java:297) ~[commons-io-2.6.jar:2.6]
    	at org.apache.commons.io.FileUtils.readFileToByteArray(FileUtils.java:1851) ~[commons-io-2.6.jar:2.6]
    	at org.b3log.latke.http.renderer.StaticFileRenderer.render(StaticFileRenderer.java:65) [latke-core-3.2.7.jar:?]
    	at org.b3log.latke.http.Dispatcher.renderResponse(Dispatcher.java:124) [latke-core-3.2.7.jar:?]
    	at org.b3log.latke.http.Dispatcher.handle(Dispatcher.java:96) [latke-core-3.2.7.jar:?]
    	at org.b3log.latke.http.ServerHandler.channelRead0(ServerHandler.java:84) [latke-core-3.2.7.jar:?]
    	at org.b3log.latke.http.ServerHandler.channelRead0(ServerHandler.java:38) [latke-core-3.2.7.jar:?]
    	at io.netty.channel.SimpleChannelInboundHandler.channelRead(SimpleChannelInboundHandler.java:99) [netty-transport-4.1.45.Final.jar:4.1.45.Final]
    
    

    还有这个:

    [ERROR]-[2020-02-13 07:51:06]-[org.b3log.latke.http.Request:230]: Parses request [uri=/otsmobile/app/mgs/mgw.htm, remoteAddr=/127.0.0.1:36250, body=null] failed: invalid hex byte '�t index 255 of '!��A�M��C$�P��g>SJ_�����by�'
    l�9"�O@�zq_��Z��c�p�    ��      �x<��W�ϻ     �|�)���7���FCb��
    "����^yP��,u�Ţ���(�zL"������(=�f������0�J��,Дု��;��.��F'�I?/��Xo�)Q
                                            �i
    "
    S?�I)"�������X�(��oT��h�,6F�ߘ_	��X��~�&�g��'_�&��:�S����@%��d73-����rp'
    
    
    1 回复
  • 88250
    作者

    第一个异常可以忽略,前端请求了一个不存在的文件;第二个异常看上去像是一个攻击请求。这两个请求和拉取仓库信息都不相关。拉取仓库是 Solo 作为客户端请求社区接口的,是个定时任务,重启后大约 30s 会发起第一次请求,以后每隔 24 小时发起一次。

    我刚刚检查了下社区数据库,你的仓库信息才刷新过,数据是正常的。估计还是客户端请求异常导致,你在日志里面 grep 一下这句 Gets GitHub repos failed 看看有没有结果。

    1 回复
  • Rainsheep
    捐赠者
    [root@yuyang ~]# docker logs solo | grep Gets GitHub repos failed
    grep: GitHub: No such file or directory
    grep: repos: No such file or directory
    grep: failed: No such file or directory
    [root@yuyang ~]# docker logs solo | grep GitHub
    [root@yuyang ~]# 
    
    

    并没有结果

    1 回复
  • 88250
    作者

    基础命令要使用对啊,不然不好排查问题。

    docker logs solo | grep 'Gets GitHub repos failed'

    2 回复
  • Rainsheep
    捐赠者
    [root@yuyang ~]# docker logs solo | grep 'Gets GitHub repos failed'
    [root@yuyang ~]# docker logs solo | grep 'Gets GitHub repos failed'
    [root@yuyang ~]# ^C
    

    没有错误

  • Rainsheep
    捐赠者

    我 GitHub 有三个仓库,博客端只有一个,那一个是很久前更新的,以前博客自动备份到 GitHub 上的那个仓库,剩下两个仓库都是自己建的

    1 回复
  • 88250
    作者

    刚刚重头检查了一遍代码,社区端有个 bug 导致了这个问题,感谢你帮忙一起进行排查 ❤️

    麻烦重启一下博客端,数据应该会刷新了。

    1 回复
  • Rainsheep
    捐赠者

    可以了可以了 谢谢 感谢社区提供了这么好的一个博客系统

  • wangdy

    使用的 solo-docker,日志太多,磁盘满了,备份功能不知道咋没生效,导致 MySQL 的 db 文件损坏了,这个能修复吗

    1 回复
  • 88250
    作者

    社区端没有备份文件么?没有的话可能是博客端没有推送上传。恢复数据估计只能从博客端 MySQL 上想想办法了。

    1 回复
  • wangdy

    社区端没看到有备份,db 文件有办法修复吗

    1 回复
  • 88250
    作者

    研究一下 MySQL binlog 恢复,也许有救。

    1 回复
  • wangdy

    已经恢复了,我想问下,pipe 没有备份文章到社区的功能吗?我想用 pipe

    1 回复
  • 88250
    作者

    Pipe 没有这个功能。

  • wangjie-fourth
    捐赠者

    @88250 您好~在备份的时候,能不能考虑把图片也下载下来呀~~

    1 回复
  • 88250
    作者

    暂时不能哦,社区图床比较稳定的,如果不信任的话可以使用其他图床,谢谢支持。

请输入回帖内容 ...