此知乎爬虫可以拿到知乎的用户信息,与其他版本的知乎爬虫相比.该爬虫的主要特性有:
目前知乎的验证码更新提交倒立字的二维坐标,传统的下载验证码图片手段已经不能使用.与此同时,其他知乎爬虫的版本需要用户自行将cookie字段手工写到数据库, 对于一些没有数据库及http协议基础的用户来说较为困难。本项目支持手机扫码一键登录拿cookie,用户友好。
注意! 根据知乎的规定,cookie有效期为30天。也就是说,您30天后需要重新登录到您的服务器,扫码二维码.
本项目使用了redis-scrapy组件,重新设计了中间件。将cookie池放在了redis上,实现了分布式部署。具体的推荐架构如下: 如果使用单机模式,在配置完基本环境后。可运行zhihu爬虫
scrapy crawl zhihu
如果你选择运行在集群模式,项目目前的架构设计如下:
你可以在master中运行get_info将内容写到数据库, 在slave中运行get_request爬虫
# Run in master
scrapy crawl get_info
# Run in slave
scfapy crawl get_request
然而这种架构目前并不完美,根据我的发现目前的性能瓶颈在get_info,后续的版本中可能会将get_request模块放到master中,而把get_info放到slave中运行.
git clone https://github.com/Woooosz/zhihuSpider
cd zhihuSpider
pip install -r requirements.txt
createdatabase zhihu;
use zhihu;
source database.txt;
修改数据库信息以及redis服务器信息
- scrapy
- scrapy-redis
- requests
- redis
- mysql
无
MIT