导入相应模块
import requests
import urllib.request
from lxml import etree
请求头部,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3423.2 Mobile Safari/537.36'
}
爬取图片的访问地址
url ='http://www.meizitu.com/a/5592.html'
使用 requests 请求(访问)网页
html = requests.get(url,headers=headers).content
使用 etree 解析整个网页
xp_html = etree.HTML(html)
使用 xpath 定位到需要爬取的图片名称以及连接
imgnames = xp_html.xpath('//div/p/img/@alt')
imgurls = xp_html.xpath('//div/p/img/@src')
循环下载连接中的图片并按照名称保存到 D 盘 XX 文件夹下
for (imgname,imgurl) in zip(imgnames,imgurls):
try:
urllib.request.urlretrieve(imgurl,'D:\XX\%s.jpg' % imgname)
except Exception as e:
print(imgname + ':下载出错,地址为:'+ imgurl)
print('下载完成')
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于