3.win10 下 python3 爬虫美女图片逐步优化（多线程版本）

# coding: utf-8
import re
import os
import time
import threading
from multiprocessing import Pool, cpu_count
import requests
from bs4 import BeautifulSoup


HEADERS = {
    'X-Requested-With': 'XMLHttpRequest',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '
                  '(KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
    'Referer': 'http://www.mzitu.com'
}
save_path='D:\data\crawl\meizitujk\\'
base_url = 'http://m.772586.com'

lock = threading.Lock()     # 全局资源锁

def urls_crawler_index(url):
    """
    爬虫入口，主要爬取操作
    """
    try:
        html = requests.get(url, headers=HEADERS, timeout=50)
        html.encoding = 'utf-8'
        soup = BeautifulSoup(html.text, "lxml", from_encoding='utf-8')
        tags =soup.find('ul',class_='tag').find_all('li')
        allIndexList = []
        allIndexList.append(base_url+'/meinv/')
        allIndexList.append(base_url+'/mxmn/')
        for tag in tags:
            print tag.find('a')['href']
            allIndexList.append(base_url+tag.find('a')['href'])
        print "========"
        for index_detail_url in allIndexList:
            urls_crawler_index_list(index_detail_url)

    except Exception as e:
        print(e)


def urls_crawler_index_list(index_url):
    """
    爬虫入口，主要爬取操作
    """
    try:
        html = requests.get(index_url, headers=HEADERS, timeout=10)
        html.encoding = 'utf-8'
        soup = BeautifulSoup(html.text, "lxml", from_encoding='utf-8')

        max_page_txt = soup.find('div',class_='page').find('a',class_='allpage').text
        max_page=max_page_txt[max_page_txt.rfind('/')+1:]
        max_page=int(max_page)
        print(max_page)



        for xxx_page in xrange(max_page):
            if 0==xxx_page:
                craw_content_page_url=index_url+'index.html'
            else:
                craw_content_page_url = index_url + 'index_' + str(xxx_page+1) + '.html'

            html_content_page = requests.get(craw_content_page_url, headers=HEADERS, timeout=10)
            html_content_page.encoding = 'utf-8'
            soup_content_page = BeautifulSoup(html_content_page.text, "lxml", from_encoding='utf-8')
            index_page_details =soup_content_page.find('div',id='list').find('ul').find_all('li')
            detail_urls=[]
            for page_url_li in index_page_details:
                detail_crawl_url = base_url + page_url_li.find('a')['href']
                print("detail_crawl_url:" + detail_crawl_url)
                detail_urls.append(detail_crawl_url)
            try:
                pool.map(urls_crawler_page, detail_urls)
            except Exception:
                time.sleep(30)
                pool.map(urls_crawler_page, detail_urls)
    except Exception as e:
        print(e)

def urls_crawler_page(url):
    """
    爬虫入口，主要爬取操作
    """
    try:
        response = requests.get(url, headers=HEADERS, timeout=50)
        response.encoding = 'utf-8'
        r=response.text
        folder_name = BeautifulSoup(r, 'lxml').find(
            'div', class_="contimglist").find('img')['alt'].replace("?", " ")
        print(folder_name)
        with lock:
            # 套图里图片张数
            max_count = BeautifulSoup(r, 'lxml').find(
                'div', class_='page').find_all(
                'span')[0].next_sibling[1:]
            page_urls = []
            for i in range(1, int(max_count) + 1):
                if i==1:
                    page_urls.append(url[0:url.rfind('.html')] +'.html')
                else:
                    page_urls.append(url[0:url.rfind('.html')] +'_'+str(i)+'.html')
            url_detail_crawler(page_urls,folder_name)
    except Exception as e:
        print(e)



def url_detail_crawler(page_urls,folder_name):
    img_urls = []
    for i,page_url in enumerate(page_urls):
        time.sleep(0.25)
        result = requests.get(page_url, headers=HEADERS, timeout=10).text
        img_url = BeautifulSoup(result, 'lxml').find(
            'div', class_="contimglist").find('a').find('img')['src']
        img_urls.append(img_url)

    for cnt, url in enumerate(img_urls):
        save_pic(url, cnt,folder_name)

def save_pic(pic_src, pic_cnt,folder_name):
    """
    保存图片到本地
    """
    try:
        time.sleep(0.10)
        base_path = save_path + folder_name
        if not os.path.isdir(base_path):
            os.mkdir(base_path)
        img = requests.get(pic_src, headers=HEADERS, timeout=10)
        img_name = base_path+"\\"+"pic_cnt_{}.jpg".format(pic_cnt + 1)
        with open(img_name, 'ab') as f:
            f.write(img.content)
            print(img_name)
    except Exception as e:
        print(e)


if __name__ == "__main__":
    # urls = ['http://m.772586.com/qingchun/17454.html']
    # pool = Pool(processes=cpu_count())
    # try:
    #     pool.map(urls_crawler_page, urls)
    # except Exception:
    #     time.sleep(30)
    #     pool.map(urls_crawler_page, urls)
    #测试
    #
    # urls_crawler(url)
    # page_urls=['http://m.772586.com/qingchun/17454_2.html']
    # urls_crawler(page_urls)
    #从首页开始
    pool = Pool(processes=10)
    urls = 'http://m.772586.com/'
    urls_crawler_index(urls)

关于渐进学习的想法 -- 随手记

现在的情况 2024 年 11 月 25 日我现在的学习，注重于学，而缺少了输出，如同文章 Master How To Learn1中所说：从现在开始，我对 “如何学习 ”的关注点将从 “我什么时候应该复习这个 ”转移到 “当我真的复习这个时，我应该怎么做 ”这个 “的重点。它将是关于思维框架和心智模型的;它是关于 ..

supermemo【知识树】【概念】和【链接】的作用和使用

原文地址 [链接] 前两天在 telegram 的 sm 群里受到了 khan 的启发，觉得 SM 的【知识树】【概念】和【链接】应该有比书签和文件夹更抽象一些的设计目的。史蒂芬平克在《风格感觉》一书中提到：「写作之难，在于把网状的思考，用树状的语法结构，转换成线性字符串。」【知识树】的作用知识树的本质是==承接 ..

编程是一项技能，不是一门知识！不要用做笔记的方式去学！

经常看到社区中有人发编程相关的帖子，看了内容后想到了大学的自己所以发个帖子，算是一点提醒，给刚接触编程的同学喜欢折腾笔记软件的人容易犯一种错误，就是把知识和技能混为一谈编程是一项技能，不是一门知识！一定要区分知识和技能，理论和实践学编程，80% 的时间需要把手放在键盘上敲代码，而不是去做笔记。用项目驱动的方式去 ..

0- 学习记录 -Cameralink 协议

　　cameralink 能够支持非标视频传输接收，支持的最小时钟频率是 20MHz，最大时钟频率是 85MHz，有 Base、Medium 和 Full 三种模式。在 Base 模式下可以通过 ABC 三个通道向上位机传输 24bitRGB 图像数据（每个通道传输 8bit）。　　在 Base 模式下可以选择传输 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

相关帖子

关于渐进学习的想法 -- 随手记

supermemo【知识树】【概念】和【链接】的作用和使用

如何做到长时间学习又不会特别累？

PDF 用什么阅读学习和标注比较方便的？

编程是一项技能，不是一门知识！不要用做笔记的方式去学！

0- 学习记录 -Cameralink 协议

如何将外语学到和母语一样流利

欢迎来到这里！

近期热议

推荐标签标签

最新标签

3.win10 下 python3 爬虫美女图片逐步优化（多线程版本）

相关帖子

关于渐进学习的想法 -- 随手记

supermemo【知识树】【概念】和【链接】的作用和使用

如何做到长时间学习又不会特别累？

PDF 用什么阅读学习和标注比较方便的？

编程是一项技能，不是一门知识！不要用做笔记的方式去学！

0- 学习记录 -Cameralink 协议

如何将外语学到和母语一样流利

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签