Solo 拉取 GitHub 仓库和自动备份

本贴最后更新于 736 天前,其中的信息可能已经时移世改

本文是《Solo 从设计到实现》的一个章节,该系列文章将介绍 Solo 这款 Java 博客系统是如何从无到有的,希望大家能通过它对 Solo 从设计到实现有个直观地了解、能为想参与贡献的人介绍清楚项目,也希望能为给重复发明重新定义博客系统的人做个参考 ❤️

  1. 拉取 GitHub 仓库:每 24 小时定时拉取用户 GitHub 账号下的公有仓库,然后生成一篇文章并在加入到导航中,实际效果请参看这里
  2. 自动备份:每 24 小时定时导出用户的公开文章到社区账号下(注意仅包含文章,不包含其他数据)。

拉取并展示仓库

仓库数据是通过社区接口获取的, GitHubs#getGitHubRepos

public static JSONArray getGitHubRepos(final String githubUserId) {
    try {
        final HttpResponse res = HttpRequest.get("https://hacpai.com/github/repos?id=" + githubUserId).trustAllCerts(true).
                connectionTimeout(3000).timeout(7000).header("User-Agent", Solos.USER_AGENT).send();
        if (HttpServletResponse.SC_OK != res.statusCode()) {
            return null;
        }
        res.charset("UTF-8");
        final JSONObject result = new JSONObject(res.bodyText());
        if (0 != result.optInt(Keys.STATUS_CODE)) {
            return null;
        }
        final JSONObject data = result.optJSONObject(Common.DATA);
        final JSONArray ret = data.optJSONArray("githubrepos");

        return ret;
    } catch (final Exception e) {
        LOGGER.log(Level.ERROR, "Gets GitHub repos failed", e);

        return null;
    }
}

社区会定时调用 GitHub Repos API 获取用户仓库数据,然后持久化到数据库中,Solo 请求数据时查库返回。

自动备份

  1. 登录博客后台,在工具 -> 偏好设定 -> 参数设置中勾选 备份所有文章到社区
  2. 程序启动后会进行第一次同步,后续每 24 小时触发一次
  3. 在社区个人设置 - B3 中可下载备份包

请注意

  • 如果没有生成备份,请查看日志输出,并确认是否打开备份开关、域名配置是否正确( serverHost 不能用 localhost 或者 IP 地址)以及是否指定为生产环境( runtimeMode=PRODUCTION

实现流程:

  1. 博客端定时触发同步请求,将所有文章(包括草稿和加密文章)导出 md 打 zip 包
  2. 将包发送至社区服务器,由社区服务器上传到云存储完成备份

代码实现请参考 ExportService#exportHacPai

  • Solo

    Solo 是一款小而美的开源博客系统,专为程序员设计。Solo 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    1378 引用 • 9898 回帖 • 515 关注
  • 设计
    106 引用 • 795 回帖 • 1 关注
  • 文档
    55 引用 • 1278 回帖 • 1 关注
4 操作
88250 在 2020-05-22 12:14:29 更新了该帖
88250 在 2020-05-17 19:53:17 更新了该帖
88250 在 2020-01-14 10:36:20 更新了该帖
88250 在 2019-12-15 11:16:59 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • mmzsblog

    使用 tomcat 部署的项目,但是没有自动同步到 github 社区?是不是因为我设置了多个管理员的原因呢?

    1 回复
  • 88250
    订阅者 作者

    可以看下日志中是否有报错或者其他信息。

    1 回复
  • mmzsblog

    日志打印了 Github repo syncing....这句话;将 github 的公开仓库同步到了博客;但是博客的文章没有同步到 github

    1 回复
  • 88250
    订阅者 作者

    社区服务器上的日志能找到最近一次同步成功的记录是 8 月 5 号,后面就没有同步请求过来了。我估计是因为 Solo 博客端没有发出同步推送请求,你看下是不是如下几个原因导致没有发送同步请求:

    • 设置中是否勾选“允许同步 GitHub 仓库”
    • server host 不能是 localhost 或者 IP
    • runtime mode 必须是生产模式
    1 回复
  • mmzsblog

    谢谢您,解决了;

    原因是 runtime mode 没有修改成生产模式

    1 回复
  • iwang-peng

    runtime mode 这个是在哪修改呢???

    1 回复
  • 88250
    订阅者 作者

    docker 部署的话带参数,war 部署的话改 latke.props。

  • happinesslijian

    自动同步到 github 上的这个功能已经废弃了吗?不用了吗?

    1 回复
  • 88250
    订阅者 作者

    请看这里

  • liu-yanyang

    为什么我现在在 GitHub 上面找不到 war 包了呀?

  • liu-yanyang

    GitHub 上面现在只有 zip 和源码包了,在哪里可以找到 war 包

    1 回复
  • Rainsheep
    捐赠者

    我想问下,拉取 GitHub 功能无法使用了吗,我的很久没有更新过了,设置中勾选了拉取 GitHub 仓库信息

    1 回复
  • 88250
    订阅者 作者

    https://hacpai.com/settings/account 重新绑定一下 GitHub 账号。

    1 回复
  • Rainsheep
    捐赠者

    还不行,是生产模式的原因?生产模式怎么设置

    1 回复
  • 88250
    订阅者 作者

    如果你不是自己构建源码部署的话默认就是生产模式了。试下通过 GitHub 重新登录社区看看是否会更新。

    1 回复
  • Rainsheep
    捐赠者

    重新登录 然后重启了 solo 并没有更新。.

    1 回复
  • 88250
    订阅者 作者

    有出现异常日志么?

    1 回复
  • Rainsheep
    捐赠者

    这个是吗,

    [ERROR]-[2020-02-14 07:15:54]-[org.b3log.latke.http.renderer.StaticFileRenderer:76]: Renders static file failed
    java.io.FileNotFoundException: File '/opt/solo/js/comm.js' does not exist
    	at org.apache.commons.io.FileUtils.openInputStream(FileUtils.java:297) ~[commons-io-2.6.jar:2.6]
    	at org.apache.commons.io.FileUtils.readFileToByteArray(FileUtils.java:1851) ~[commons-io-2.6.jar:2.6]
    	at org.b3log.latke.http.renderer.StaticFileRenderer.render(StaticFileRenderer.java:65) [latke-core-3.2.7.jar:?]
    	at org.b3log.latke.http.Dispatcher.renderResponse(Dispatcher.java:124) [latke-core-3.2.7.jar:?]
    	at org.b3log.latke.http.Dispatcher.handle(Dispatcher.java:96) [latke-core-3.2.7.jar:?]
    	at org.b3log.latke.http.ServerHandler.channelRead0(ServerHandler.java:84) [latke-core-3.2.7.jar:?]
    	at org.b3log.latke.http.ServerHandler.channelRead0(ServerHandler.java:38) [latke-core-3.2.7.jar:?]
    	at io.netty.channel.SimpleChannelInboundHandler.channelRead(SimpleChannelInboundHandler.java:99) [netty-transport-4.1.45.Final.jar:4.1.45.Final]
    
    

    还有这个:

    [ERROR]-[2020-02-13 07:51:06]-[org.b3log.latke.http.Request:230]: Parses request [uri=/otsmobile/app/mgs/mgw.htm, remoteAddr=/127.0.0.1:36250, body=null] failed: invalid hex byte '�t index 255 of '!��A�M��C$�P��g>SJ_�����by�'
    l�9"�[email protected]�zq_��Z��c�p�    ��      �x<��W�ϻ     �|�)���7���FCb��
    "����^yP��,u�Ţ���(�zL"������(=�f������0�J��,Дု��;��.��F'�I?/��Xo�)Q
                                            �i
    "
    S?�I)"�������X�(��oT��h�,6F�ߘ_	��X��~�&�g��'_�&��:�S����@%��d73-����rp'
    
    
    1 回复
  • 88250
    订阅者 作者

    第一个异常可以忽略,前端请求了一个不存在的文件;第二个异常看上去像是一个攻击请求。这两个请求和拉取仓库信息都不相关。拉取仓库是 Solo 作为客户端请求社区接口的,是个定时任务,重启后大约 30s 会发起第一次请求,以后每隔 24 小时发起一次。

    我刚刚检查了下社区数据库,你的仓库信息才刷新过,数据是正常的。估计还是客户端请求异常导致,你在日志里面 grep 一下这句 Gets GitHub repos failed 看看有没有结果。

    1 回复
  • Rainsheep
    捐赠者
    [[email protected] ~]# docker logs solo | grep Gets GitHub repos failed
    grep: GitHub: No such file or directory
    grep: repos: No such file or directory
    grep: failed: No such file or directory
    [[email protected] ~]# docker logs solo | grep GitHub
    [[email protected] ~]# 
    
    

    并没有结果

    1 回复
  • 88250
    订阅者 作者

    基础命令要使用对啊,不然不好排查问题。

    docker logs solo | grep 'Gets GitHub repos failed'

    2 回复
  • Rainsheep
    捐赠者
    [[email protected] ~]# docker logs solo | grep 'Gets GitHub repos failed'
    [[email protected] ~]# docker logs solo | grep 'Gets GitHub repos failed'
    [[email protected] ~]# ^C
    

    没有错误

  • Rainsheep
    捐赠者

    我 GitHub 有三个仓库,博客端只有一个,那一个是很久前更新的,以前博客自动备份到 GitHub 上的那个仓库,剩下两个仓库都是自己建的

    1 回复
  • 88250
    订阅者 作者

    刚刚重头检查了一遍代码,社区端有个 bug 导致了这个问题,感谢你帮忙一起进行排查 ❤️

    麻烦重启一下博客端,数据应该会刷新了。

    1 回复
  • Rainsheep
    捐赠者

    可以了可以了 谢谢 感谢社区提供了这么好的一个博客系统

  • wangdy

    使用的 solo-docker,日志太多,磁盘满了,备份功能不知道咋没生效,导致 MySQL 的 db 文件损坏了,这个能修复吗

    1 回复
  • 88250
    订阅者 作者

    社区端没有备份文件么?没有的话可能是博客端没有推送上传。恢复数据估计只能从博客端 MySQL 上想想办法了。

    1 回复
  • wangdy

    社区端没看到有备份,db 文件有办法修复吗

    1 回复
  • 88250
    订阅者 作者

    研究一下 MySQL binlog 恢复,也许有救。

    1 回复
  • wangdy

    已经恢复了,我想问下,pipe 没有备份文章到社区的功能吗?我想用 pipe

    1 回复
  • 88250
    订阅者 作者

    Pipe 没有这个功能。

  • wangjie-fourth
    捐赠者

    @88250 您好~在备份的时候,能不能考虑把图片也下载下来呀~~

    1 回复
  • 88250
    订阅者 作者

    暂时不能哦,社区图床比较稳定的,如果不信任的话可以使用其他图床,谢谢支持。

  • zipfang
    捐赠者

    感谢社区提供了一个这么方便好用的系统

请输入回帖内容 ...

推荐标签 标签

  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    866 引用 • 921 回帖 • 94 关注
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 12 关注
  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 548 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 66 关注
  • 一些有用的避坑指南。

    67 引用 • 94 回帖
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 506 关注
  • 996
    13 引用 • 200 回帖 • 3 关注
  • Shell

    Shell 脚本与 Windows/Dos 下的批处理相似,也就是用各类命令预先放入到一个文件中,方便一次性执行的一个程序文件,主要是方便管理员进行设置或者管理用的。但是它比 Windows 下的批处理更强大,比用其他编程程序编辑的程序效率更高,因为它使用了 Linux/Unix 下的命令。

    118 引用 • 73 回帖 • 342 关注
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    18 引用 • 21 回帖 • 19 关注
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    43 引用 • 83 回帖
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    167 引用 • 386 回帖 • 192 关注
  • Typecho

    Typecho 是一款博客程序,它在 GPLv2 许可证下发行,基于 PHP 构建,可以运行在各种平台上,支持多种数据库(MySQL、PostgreSQL、SQLite)。

    11 引用 • 52 回帖 • 490 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖 • 2 关注
  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 539 关注
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    4 引用 • 7 回帖 • 1 关注
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    192 引用 • 354 回帖 • 296 关注
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    2 引用 • 15 回帖 • 2 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    105 引用 • 272 回帖
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 255 回帖 • 1 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    6 引用 • 23 回帖 • 1 关注
  • Electron

    Electron 基于 Chromium 和 Node.js,让你可以使用 HTML、CSS 和 JavaScript 构建应用。它是一个由 GitHub 及众多贡献者组成的活跃社区共同维护的开源项目,兼容 Mac、Windows 和 Linux,它构建的应用可在这三个操作系统上面运行。

    16 引用 • 140 回帖 • 1 关注
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 686 关注
  • Love2D

    Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。

    14 引用 • 53 回帖 • 458 关注
  • 新人

    让我们欢迎这对新人。哦,不好意思说错了,让我们欢迎这位新人!
    新手上路,请谨慎驾驶!

    48 引用 • 225 回帖
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    86 引用 • 155 回帖
  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    47 引用 • 206 回帖 • 531 关注
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 643 关注