简单百度爬虫、查询个人公司信息的实现

本来对 python 兴趣不大，但是为了期中考，简单记录一下超级无敌简单的爬虫实现的过程

接下来开始大白模式的记录，打发我无聊的时光：

headers:解决 request 反爬虫，就是当我们访问部分网页的时候，会出现无法爬取数据、或者无法访问的时候，这时候采用 headers,将爬虫伪装成浏览器去访问，这样就起到解决反爬虫的作用。
url:需要爬取的网页连接，注意{}的使用，解决了后面自己赋值的问题
requests.get(url),进行服务器访问请求，由 request 内部生成 url 对象（具体可以看一下人家：https://blog.csdn.net/k_koris/article/details/82950654）
url.format 进行之前的{}赋值
headers=headers 设置相应 request header
etree.HTML：采用 XPath 进行资源的解析修正，便于后面截取处理（详情查看其他大佬博客：https://blog.csdn.net/qq_38410428/article/details/82792730）
for 循环：没什么好说的，就是打字浪费一下时间
XPath：进行对元素属性的遍历查找（参照：https://www.cnblogs.com/lei0213/p/7506130.html）
join：字符连接操作，这个不懂么 emmmmm（孩子没救了）

10、同样的，replace、split、format，不会自己百度。。。。。

PS：这里说一下 headers 的获取方法，打开 Edge，按 F12，找到 network，刷新，找到 request headers。如果还不会参照人家大佬的（https://blog.csdn.net/ysblogs/article/details/88530124）

好了，废话不多说，记录下代码，hhhhh，看到的如果小白可以照葫芦画瓢，大佬绕道

import requests
from lxml import etree

headers = {
    'User-Agent':
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
url = "https://www.baidu.com/s?wd={}&rn=20&ie=utf-8&usm=4&rsv_pq=dda16fac00085a59&rsv_t=ca17vQlKisiOERxSWewcnyg/K/0flYw9KAqdtGiqNMpwAXUTAmhv6MG/f5M"
keyword = input('请输入关键词：')
response = requests.get(url.format(keyword), headers=headers)
html = etree.HTML(response.text)

for i in range(1, 21):
    title = html.xpath(
        '/html/body/div/div[3]/div[1]/div[3]/div[{}]/h3/a//text()'.format(i))
    title_ = ''.join(''.join(title).replace(' ', '').split())
    print(title_, '\n')

接下来附上这次期中作业的代码。下面这个企信通查询个人名下的公司基本信息的一个实现

# -*- coding:utf-8 -*-
import requests
import xlwt
from lxml import etree
headers = {
    'User-Agent':
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362',
    'Accept':
    'image/png, image/svg+xml, image/*; q=0.8, */*; q=0.5',
    'Accept-Encoding': 'gzip,deflate,br',
    'Connection':'Keep-Alive',
    'Accept-Language':'zh-Hans-CN,zh-Hans;q = 0.5',
    'Host':'hm.baidu.com',
    'Referer':'https://www.tianyancha.com/?jsid=SEM-BAIDU-PZ2005-SY-000001'
}
url = "https://www.qixintong.cn/qxtsearch/?key={}&typestr=0"
keyword = input("请输入姓名：")
num = int(input("请输入查询次数："))
response = requests.get(url.format(keyword), headers=headers)
html = etree.HTML(response.text)
#print(html)查看请求成功的list

#创建表格
wb = xlwt.Workbook()
sh = wb.add_sheet("test")
#开始解析
index = '/html/body/div[3]/div/div/div/div[2]/ul/li[{}]/'
test =['h2','h2/span','span[1]','span[2]','span[3]','p']

for i in range(int(num)):
    for j in range(6):
        flag = index+test[j]+'//text()'
        name = html.xpath(flag.format(i))
        if j==0 or j==1:
            name_ = ''.join(''.join(name).replace(" "," ").split())
        else:
            name_ = ''.join(''.join(name))
        print(name_, '\n')
        sh.write(i,j,name_)
wb.save("企信通.xls")
print("提取结束，保存退出")

Python 爬虫系列（二）基本库的使用

[图片] urllib 的使用 urlib 是 python 内置的请求库，不需要额外安装 urllib 包含如下 4 个模块： request：最基本的 http 请求模块，模拟请求发送 error：异常处理模块 parse：工具模块 robotparser：用来识别网站的 robots.txt，用的很少 urlop ..

python 爬虫简介

re 模块的使用在 Python 中，我们可以使用内置的 re 模块来使用正则表达式 import re ''' re.findall通过正则表达式筛选出文本中所有符合条件的数据 ''' # info = re.findall('python', 'hello this is python3.8 and python ..

你有多久没有看星星了呢？【爬取 NASA 的科普网站上的所有图片】

1. 前景提要在网上冲浪的时候看到原来 NASA 航天局有科普网站，每天一张科普图片，而且是非常高清的那种，很想下载下来做壁纸。所以打算写一个 Java 爬虫爬取所有的图片，也可以加入一些通知，每天晚上进行检查，当检查到有更新的时候，第二天早上起床推送到手机端。当然这个功能还没有实现。 2. 进行开发 2.1 开发 ..

网站为什么要反爬虫？

互联网有很多业务或者说网页，是不需要用户进行登录的，这些不需要登录的页面，往往会包含大量的聚合信息，比如新闻门户网站、视频门户网站、搜索引擎，这些信息是公开的，是可以被爬虫抓取的。一、网站为什么要反爬虫？ 1、爬虫占总 PV 比例较高，浪费服务器资源通过程序进行 URL 请求去获得数据的成本是很低的，这就造成大量低 ..

某解析 b 站 MP4 视频的逆向获取

直接获取 B 站视频找到的都是分段的合成视频，于是乎在网上看到一个工具他做的视频解析可以解析出 mp4 的地址，遂转而直接研究从解析网站拿到视频地址，分析思路：首先模拟正常的请求，发现网址在这个地方，禁止 js 之后发现这个位置就空白了，很明显这段显示是 js 动态处理了 [图片] 然后，我猜测是不是，有 aja ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

简单百度爬虫、查询个人公司信息的实现

相关帖子

Python 爬虫系列（二）基本库的使用

python 爬虫简介

你有多久没有看星星了呢？【爬取 NASA 的科普网站上的所有图片】

网站为什么要反爬虫？

猿人学（三）Webpack 初体验 - js 调试过程

某解析 b 站 MP4 视频的逆向获取

ajax post

欢迎来到这里！

近期热议

推荐标签标签

最新标签

简单百度爬虫、查询个人公司信息的实现

相关帖子

Python 爬虫系列（二）基本库的使用

python 爬虫简介

你有多久没有看星星了呢？【爬取 NASA 的科普网站上的所有图片】

网站为什么要反爬虫？

猿人学（三）Webpack 初体验 - js 调试过程

某解析 b 站 MP4 视频的逆向获取

ajax post

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签