小小爬虫

本贴最后更新于 2594 天前,其中的信息可能已经事过景迁

简单爬虫

代码地址 https://github.com/zousiliang/pacon

最近花了一点时间研究一下爬虫,没有使用第三方爬虫框架,当然你也可以使用第三方框架 如:

1.分布式爬虫:Nutch 2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector 3.非JAVA单机爬虫:scrapy、pyspider
废话不多说,先看结果,爬取熊猫 tv 主播数据 并进行降序排列:
rank 1 : Misaya若风lol : 89.7万 rank 2 : 贾克虎丶虎神 : 62.7万 rank 3 : 蓝战非 : 60.2万 rank 4 : 瓦莉拉的小伙伴 : 57.8万 rank 5 : ToveLo : 32.5万 rank 6 : 君克解说 : 24.2万 rank 7 : 风行云 : 21.6万 rank 8 : RNG丶MLXG : 20.9万 rank 9 : QG无敌老飞牛 : 14.8万 rank 10 : 爷大干丶 : 13.4万 rank 11 : 萝莉图阿 : 12.2万 rank 12 : 一阵雨不是一阵奶 : 10.0万 rank 13 : LOL丶摇摆哥 : 7.5万 rank 14 : 真正的村长ALEX : 6.8万 rank 15 : RNG1letme1 : 6.4万 rank 16 : lol稳贱骨炼金 : 6.0万
爬虫文件为:

spider/spider.py

执行代码为:

python3 spider.py
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    556 引用 • 675 回帖
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖

相关帖子

1 回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...