python 爬虫入门,单页面爬取图片

本贴最后更新于 2275 天前,其中的信息可能已经斗转星移

导入相应模块

import requests
import urllib.request
from lxml import etree

请求头部,模拟浏览器访问

headers = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3423.2 Mobile Safari/537.36'
}

爬取图片的访问地址

url ='http://www.meizitu.com/a/5592.html'

使用 requests 请求(访问)网页

html = requests.get(url,headers=headers).content

使用 etree 解析整个网页

xp_html = etree.HTML(html)

使用 xpath 定位到需要爬取的图片名称以及连接

imgnames = xp_html.xpath('//div/p/img/@alt')
imgurls = xp_html.xpath('//div/p/img/@src')

循环下载连接中的图片并按照名称保存到 D 盘 XX 文件夹下

for (imgname,imgurl) in zip(imgnames,imgurls):
try:
urllib.request.urlretrieve(imgurl,'D:\XX\%s.jpg' % imgname)
except Exception as e:
print(imgname + ':下载出错,地址为:'+ imgurl)

print('下载完成')

  • 编程技术
    2 引用
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    543 引用 • 672 回帖 • 1 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...