【福利】python3 爬取妹子图

妹子图官方网址：https://www.mzitu.com/

刚接触到 BeautifulSoup，所以拿来试下效果，起伏跌宕出来效果。
具体思路？官网首页链接--> 获取分页面链接--> 通过分页面获取图片链接
看下步骤：

一、分析下页面

1.1 先确保访问正常：

头部信息：

url = "https://www.mzitu.com"  
headers = {  
 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',  
 "Referer": "https://www.mzitu.com/101553"  
}

def load_page(url):
    try:
        res = requests.get(url,headers=headers)
        if res.status_code == 200:
            print('页面请求完毕')
            return res.text
    except:
        print('网络访问错误')

1.2 把当前页面所有 page 的 url 相关信息抓取出来

把如上页面可以抓取到当前页面所有女神合集 page。

def get_page(url):
    html = requests.get(url,headers=headers)
    soup = BeautifulSoup(html.text,'lxml')
    #获取首页所有妹子页面
    all_url = soup.find("ul",{"id":"pins"}).find_all("a")
    # print(all_url)

1.3 获取详细页面 url

    count = 1
    for href in all_url:
        count=count+1
        # print(href)
        if count %2 != 0:
            href1 = href['href']  #查找匹配出分页面中的page链接

因为通过 for 循环得到的 href 链接是一样的，所以只取一个：取奇偶

结果如下：

1.4 得到页面链接后，即可抓页面下图片的 url。创建目录

            for href2 in href:
                res2 = requests.get(href1,headers=headers)
                soup2 = BeautifulSoup(res2.text,'lxml')
                # pict_url = soup2.find("div",{"class":"main-image"}).find("img")['src']  #图片链接
                # print(pict_url)
                next_pic = soup2.find_all("span")[9]
                max_url = next_pic.get_text()
                # print(max_url)
                name = soup2.find("div",{"class":"main-image"}).find("img")['alt'] #分页面名称
                os.mkdir(name)
                os.chdir(name)

通过如下图的当前 page 中图片最后一张对应的 span 标签为第 9 个。

1.5 下载图片

标题获取：

图片的对应链接如下：

图片链接获取如：

                for i in range(1,int(max_url)+1):
                    next_url = href1+'/'+str(i)
                    res3 = requests.get(next_url,headers=headers)
                    soup3 = BeautifulSoup(res3.text,'lxml')
                    pic_address = soup3.find("div",{"class":"main-image"}).find('img')['src']
                    title = soup3.find('h2')
                    name1 = title.get_text()
                    img = requests.get(pic_address,headers=headers)
                    with open(name1+'.jpg','wb') as f:
                        f.write(img.content)

大功告成：

完整代码：

#!/usr/bin/python3
# -*- coding: utf-8 -*-
# @Time  : 2019/8/20 15:39
# @Author : cuijianzhe
# @File  : meizitu.py
# @Software: PyCharm
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import time
import os

url = "https://www.mzitu.com"
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',
    "Referer": "https://www.mzitu.com/101553"
}
def load_page(url):
    try:
        res = requests.get(url,headers=headers)
        if res.status_code == 200:
            print('页面请求完毕')
            return res.text
    except:
        print('网络访问错误')
#获取整个页面
def get_page(url):
    html = requests.get(url,headers=headers)
    soup = BeautifulSoup(html.text,'lxml')
    #获取首页所有妹子页面
    all_url = soup.find("ul",{"id":"pins"}).find_all("a")
    # print(all_url)
    count = 1
    for href in all_url:
        count=count+1
        # print(href)
        if count %2 != 0:
            href1 = href['href']  #查找匹配出分页面中的page链接
            # print(href1)
            for href2 in href:
                res2 = requests.get(href1,headers=headers)
                soup2 = BeautifulSoup(res2.text,'lxml')
                # pict_url = soup2.find("div",{"class":"main-image"}).find("img")['src']  #图片链接
                # print(pict_url)
                next_pic = soup2.find_all("span")[9]
                max_url = next_pic.get_text()
                name = soup2.find("div",{"class":"main-image"}).find("img")['alt']
                os.mkdir(name) #第一张图名称作为目录
                os.chdir(name)
                for i in range(1,int(max_url)+1):
                    next_url = href1+'/'+str(i)
                    res3 = requests.get(next_url,headers=headers)
                    soup3 = BeautifulSoup(res3.text,'lxml')
                    pic_address = soup3.find("div",{"class":"main-image"}).find('img')['src']
                    title = soup3.find('h2')
                    name1 = title.get_text()
                    img = requests.get(pic_address,headers=headers)
                    with open(name1+'.jpg','wb') as f:
                        f.write(img.content)

if __name__ == '__main__':
    load_page(url)
    get_page(url)

参考文档：
BeautifulSoup 中文文档
 Requests 文档

Python 爬虫系列（二）基本库的使用

[图片] urllib 的使用 urlib 是 python 内置的请求库，不需要额外安装 urllib 包含如下 4 个模块： request：最基本的 http 请求模块，模拟请求发送 error：异常处理模块 parse：工具模块 robotparser：用来识别网站的 robots.txt，用的很少 urlop ..

python 爬虫简介

re 模块的使用在 Python 中，我们可以使用内置的 re 模块来使用正则表达式 import re ''' re.findall通过正则表达式筛选出文本中所有符合条件的数据 ''' # info = re.findall('python', 'hello this is python3.8 and python ..

你有多久没有看星星了呢？【爬取 NASA 的科普网站上的所有图片】

1. 前景提要在网上冲浪的时候看到原来 NASA 航天局有科普网站，每天一张科普图片，而且是非常高清的那种，很想下载下来做壁纸。所以打算写一个 Java 爬虫爬取所有的图片，也可以加入一些通知，每天晚上进行检查，当检查到有更新的时候，第二天早上起床推送到手机端。当然这个功能还没有实现。 2. 进行开发 2.1 开发 ..

网站为什么要反爬虫？

互联网有很多业务或者说网页，是不需要用户进行登录的，这些不需要登录的页面，往往会包含大量的聚合信息，比如新闻门户网站、视频门户网站、搜索引擎，这些信息是公开的，是可以被爬虫抓取的。一、网站为什么要反爬虫？ 1、爬虫占总 PV 比例较高，浪费服务器资源通过程序进行 URL 请求去获得数据的成本是很低的，这就造成大量低 ..

某解析 b 站 MP4 视频的逆向获取

直接获取 B 站视频找到的都是分段的合成视频，于是乎在网上看到一个工具他做的视频解析可以解析出 mp4 的地址，遂转而直接研究从解析网站拿到视频地址，分析思路：首先模拟正常的请求，发现网址在这个地方，禁止 js 之后发现这个位置就空白了，很明显这段显示是 js 动态处理了 [图片] 然后，我猜测是不是，有 aja ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于