gitea 自建代码仓流量大坑

背景

前端时间租的腾讯云服务器是按照流量计费的,最近一段时间流量走的老快了,并且发现默认 1G 的带宽老是卡。

原因

通过分析 nginx 的日志发现有大量的爬虫在大批量的访问代码仓。导致占用了大量带宽。

解决

nginx 中过滤爬虫

在 nginx 中配置下面信息,过滤掉大量爬虫的请求。

if ($http_user_agent ~ "(meta-externalagent|Amazonbot|ClaudeBot|Baiduspider|SemrushBot|bingbot|Bytespider|AhrefsBot|Linguee)" ) { return 403; } if ($http_user_agent ~ "Swiftbot|YandexBot|jikeSpider|MJ12bot|ZmEu phpmyadmin|EasouSpider|YYSpider|jaunty|oBot|FlightDeckReports" ) { return 403; } if ($http_user_agent ~ "(Googlebot|GoogleOther|Java|feedparser|l9explore)" ) { return 403; }

修改 robots.txt

在 gitea 的 public 目录下面新增 robots.txt,写入下面内容:

User-agent: * Disallow: /
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    5 引用 • 16 回帖 • 2 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
zeekling
应无所住,而生其心。 --《金刚经》 吾生也有涯,而知也无涯。 --《庄子》 西安