python 爬虫入门，多页面爬取图片（升级版）

#导入相应模块
import requests
from lxml import etree
import urllib.request
#网站主连接，用作后面的拼接
url_main='http://www.tu11.com'
#使用 input，让用户可以自定义爬取页数 6
x=input('请输入页数,注意，爬取的页数要比输入的页数少一页，如要爬取五页，请输入 6 ：')
#循环输出页数
for num in range(1,int(x)):
#拼接完整页面
url = 'http://www.tu11.com/neihantupian/list_40_' + str(num) + '.html'
#请求头，模拟浏览器登录
headers = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3423.2 Mobile Safari/537.36'}
# 使用 requests 访问页面
html = requests.get(url, headers=headers).content
# 使用 lxml 中的 etree.HTML 解析页面
xp_html = etree.HTML(html)
# 使用 xpath 精准定位该页每组图片的链接
imgurls = xp_html.xpath('//*[@id="masonryList"]/li/div/a/@href')
# 循环输出每组图片的连接
for imgurl in imgurls:
# 因该网站爬取的每组连接不带头部，故此处需要拼接成完整的链接
imgurl = url_main + imgurl
# 重复上述步骤，访问页面，解析，精准定位，此处定位的就是每张图片的连接了
img_html = requests.get(imgurl, headers=headers).content
xp_img_html = etree.HTML(img_html)
img_urls = xp_img_html.xpath('//div/p/img/@src')
# 定位一组图片的标题，下载时作为名字
imgtitle = xp_img_html.xpath('/html/body/section/div[5]/p/text()')
# 一组图片标题只有一个，但图片有多张，故定义一个整数变量，循环 +1 输出，跟图片标题拼接为每张图片的名字
num = 0
for img_url in img_urls:
num = num + 1
#拼接图片的名字
name = str(imgtitle) + str(num)
# 下载图片，使用 urllib.request.urlretrieve 下载图片，保存
try:
urllib.request.urlretrieve(img_url, 'F:\Picture\xxoo\%s.jpg' % name)
print(name + '下载成功，地址：' + img_url)
# 若是失败，抛出异常，提示错误
except Exception as e:
print(name + '下载失败，地址：' + img_url)
#全部下载完成之后提示下载完成
print('下载完成')

Python 爬虫系列（二）基本库的使用

[图片] urllib 的使用 urlib 是 python 内置的请求库，不需要额外安装 urllib 包含如下 4 个模块： request：最基本的 http 请求模块，模拟请求发送 error：异常处理模块 parse：工具模块 robotparser：用来识别网站的 robots.txt，用的很少 urlop ..

python 爬虫简介

re 模块的使用在 Python 中，我们可以使用内置的 re 模块来使用正则表达式 import re ''' re.findall通过正则表达式筛选出文本中所有符合条件的数据 ''' # info = re.findall('python', 'hello this is python3.8 and python ..

你有多久没有看星星了呢？【爬取 NASA 的科普网站上的所有图片】

1. 前景提要在网上冲浪的时候看到原来 NASA 航天局有科普网站，每天一张科普图片，而且是非常高清的那种，很想下载下来做壁纸。所以打算写一个 Java 爬虫爬取所有的图片，也可以加入一些通知，每天晚上进行检查，当检查到有更新的时候，第二天早上起床推送到手机端。当然这个功能还没有实现。 2. 进行开发 2.1 开发 ..

网站为什么要反爬虫？

互联网有很多业务或者说网页，是不需要用户进行登录的，这些不需要登录的页面，往往会包含大量的聚合信息，比如新闻门户网站、视频门户网站、搜索引擎，这些信息是公开的，是可以被爬虫抓取的。一、网站为什么要反爬虫？ 1、爬虫占总 PV 比例较高，浪费服务器资源通过程序进行 URL 请求去获得数据的成本是很低的，这就造成大量低 ..

某解析 b 站 MP4 视频的逆向获取

直接获取 B 站视频找到的都是分段的合成视频，于是乎在网上看到一个工具他做的视频解析可以解析出 mp4 的地址，遂转而直接研究从解析网站拿到视频地址，分析思路：首先模拟正常的请求，发现网址在这个地方，禁止 js 之后发现这个位置就空白了，很明显这段显示是 js 动态处理了 [图片] 然后，我猜测是不是，有 aja ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

python 爬虫入门，多页面爬取图片（升级版）

相关帖子

python 爬虫入门，单页面爬取图片

Python 爬虫系列（二）基本库的使用

python 爬虫简介

你有多久没有看星星了呢？【爬取 NASA 的科普网站上的所有图片】

网站为什么要反爬虫？

猿人学（三）Webpack 初体验 - js 调试过程

某解析 b 站 MP4 视频的逆向获取

欢迎来到这里！

近期热议

推荐标签标签

最新标签

python 爬虫入门，多页面爬取图片（升级版）

相关帖子

python 爬虫入门，单页面爬取图片

Python 爬虫系列（二）基本库的使用

python 爬虫简介

你有多久没有看星星了呢？【爬取 NASA 的科普网站上的所有图片】

网站为什么要反爬虫？

猿人学（三）Webpack 初体验 - js 调试过程

某解析 b 站 MP4 视频的逆向获取

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签