Python 爬虫系列（二）基本库的使用

urllib 的使用

urlib 是 python 内置的请求库，不需要额外安装

urllib 包含如下 4 个模块：

request：最基本的 http 请求模块，模拟请求发送
error：异常处理模块
parse：工具模块
robotparser：用来识别网站的 robots.txt，用的很少

urlopen 发送请求

使用 urlopen 来发送请求

一个小例子：


import urllib.request

response = urllib.request.urlopen('https://www.python.org')
print(response.read().decode('utf-8'))

response 是一个 HTTPRequest 对象，主要包含 read、readinto、getheader、getheaders、fileno 等方法，以及 msg、version、status、reason、debuglevel、closed 等属性。

urlopen 的 API：

urllib.request.urlopen(url, data=None,[timeout,]*,cafile=None,capath=None,cadeFault=False,context=None)

用法就不写了，写几个小例子吧：


import urllib.request
import urllib.parse

# data参数需要变成字节码
data = bytes(urllib.parse.urlencode({'nanme': 'zhangsan'}), encoding='utf-8')
response = urllib.request.urlopen('https://www.httpbin.org/post', data = data)
print(response.read().decode('utf-8'))

# timeout
response = urllib.request.urlopen('https://www.httpbin.org/get', timeout=0.1)
print(response.read())

Request 发送请求

复杂请求，urlopen 无法满足，比如需要附加 Headers，这时候需要可以用更强大的 Request


# Request的基本使用
request = urllib.request.Request('https://www.python.org')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

# Request多参数
url = 'https://www.httpbin.org/post'
headers = {
    'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
    'Host': 'www.httpbin.org'
}
dict = {'name': 'zhangsan'}
data = bytes(urllib.parse.urlencode(dict), encoding='utf-8')
req = urllib.request.Request(url=url, data=data, headers=headers, method='POST')
response = urllib.request.urlopen(req)
print(response.read().decode('utf-8'))

python 爬虫简介

re 模块的使用在 Python 中，我们可以使用内置的 re 模块来使用正则表达式 import re ''' re.findall通过正则表达式筛选出文本中所有符合条件的数据 ''' # info = re.findall('python', 'hello this is python3.8 and python ..

你有多久没有看星星了呢？【爬取 NASA 的科普网站上的所有图片】

1. 前景提要在网上冲浪的时候看到原来 NASA 航天局有科普网站，每天一张科普图片，而且是非常高清的那种，很想下载下来做壁纸。所以打算写一个 Java 爬虫爬取所有的图片，也可以加入一些通知，每天晚上进行检查，当检查到有更新的时候，第二天早上起床推送到手机端。当然这个功能还没有实现。 2. 进行开发 2.1 开发 ..

网站为什么要反爬虫？

互联网有很多业务或者说网页，是不需要用户进行登录的，这些不需要登录的页面，往往会包含大量的聚合信息，比如新闻门户网站、视频门户网站、搜索引擎，这些信息是公开的，是可以被爬虫抓取的。一、网站为什么要反爬虫？ 1、爬虫占总 PV 比例较高，浪费服务器资源通过程序进行 URL 请求去获得数据的成本是很低的，这就造成大量低 ..

某解析 b 站 MP4 视频的逆向获取

直接获取 B 站视频找到的都是分段的合成视频，于是乎在网上看到一个工具他做的视频解析可以解析出 mp4 的地址，遂转而直接研究从解析网站拿到视频地址，分析思路：首先模拟正常的请求，发现网址在这个地方，禁止 js 之后发现这个位置就空白了，很明显这段显示是 js 动态处理了 [图片] 然后，我猜测是不是，有 aja ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

Python 爬虫系列（二）基本库的使用

urllib 的使用

urlopen 发送请求

Request 发送请求

相关帖子

python 爬虫简介

你有多久没有看星星了呢？【爬取 NASA 的科普网站上的所有图片】

网站为什么要反爬虫？

猿人学（三）Webpack 初体验 - js 调试过程

某解析 b 站 MP4 视频的逆向获取

ajax post

爬虫 --httpClient 学习

欢迎来到这里！