Skip to content

Woooosz/zhihuSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

21 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

知乎爬虫

此知乎爬虫可以拿到知乎的用户信息,与其他版本的知乎爬虫相比.该爬虫的主要特性有:

支持二维码扫码登录

目前知乎的验证码更新提交倒立字的二维坐标,传统的下载验证码图片手段已经不能使用.与此同时,其他知乎爬虫的版本需要用户自行将cookie字段手工写到数据库, 对于一些没有数据库及http协议基础的用户来说较为困难。本项目支持手机扫码一键登录拿cookie,用户友好。

注意! 根据知乎的规定,cookie有效期为30天。也就是说,您30天后需要重新登录到您的服务器,扫码二维码.

支持分布式

本项目使用了redis-scrapy组件,重新设计了中间件。将cookie池放在了redis上,实现了分布式部署。具体的推荐架构如下: 如果使用单机模式,在配置完基本环境后。可运行zhihu爬虫

scrapy crawl zhihu

如果你选择运行在集群模式,项目目前的架构设计如下:

你可以在master中运行get_info将内容写到数据库, 在slave中运行get_request爬虫

# Run in master
scrapy crawl get_info
# Run in slave
scfapy crawl get_request

然而这种架构目前并不完美,根据我的发现目前的性能瓶颈在get_info,后续的版本中可能会将get_request模块放到master中,而把get_info放到slave中运行.

安装 & 使用

安装环境

git clone https://github.com/Woooosz/zhihuSpider
cd zhihuSpider
pip install -r requirements.txt

导入表信息

createdatabase zhihu;
use zhihu;
source database.txt;

修改settngs信息

修改数据库信息以及redis服务器信息

技术栈

  • scrapy
  • scrapy-redis
  • requests
  • redis
  • mysql

其他

License

MIT

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages