2.win10 下 python2 爬虫美女图片逐步优化


#coding:utf-8
#完成通用爬虫，抓取一个页面队列中所有图片

import requests
import re
import time
from bs4 import BeautifulSoup
import uuid
import urllib
import os

headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36' }
base_url='http://m.17786.com'
base_img_url='https://wcyouxi.sc601.com/file/p/20190803/21/ordurlsatqe.jpg'
save_path='E:\\360MoveData\Users\Administrator\Pictures\Camera Roll\crawl\meizi\\'

def download_detail_url_soup(url,folerName,num):
    print url,folerName
    html=requests.get(url, headers=headers, timeout=50)
    html.encoding = 'utf-8'
    soup = BeautifulSoup(html.text,"lxml" ,from_encoding='utf-8')
    print soup.title
    try:
        imgs=soup.select('.contimglist')[0].find_all("img", {"src": re.compile(".*\.jpg")})
        for img in imgs:
            # 获取图片下载地址，并下载图片
            # dizhi = li.find('img')['src']
            base_path=save_path + folerName
            if not os.path.isdir(base_path):
                os.mkdir(base_path)
            # 图片保存地址
            bc = base_path +"\\"+str(num)+ str(uuid.uuid4()) + ".jpg"
             # 下载图片并保存
            urllib.urlretrieve(img.get("src"), bc)
    except:
        print "下载失败"
        pass

    return -1

def getDetailPageInfo(url):
    # < div class ="page" >
    # < a  href = "17409_2.html" class ="linkpage shpage" > 上一页 < / a >
    # < a href="17409.html" > 首页 < / a >
    # < a name="allpage" class ="allpage" > < span class ="nowpage" > 3 < / span > / 18 < / a >
    # < a href="/rihan/17409_18.html" > 尾页 < / a >
    # < a href="/rihan/17409_4.html" class ="linkpage" > 下一页 < / a >
    # < / div >
    html = requests.get(url, headers=headers, timeout=50)
    html.encoding = 'utf-8'
    soup = BeautifulSoup(html.text, "lxml", from_encoding='utf-8')
    print soup.title
    print soup.select('.page a')
    pageInfo={}
    for page in soup.select('.page a'):
        if page.text.find("/") != -1:
            pageInfo['total'] = str(page.text)[page.text.find("/")+1:]
    print pageInfo

    url.rfind("/")

    baseUrl=url[0:url.rindex("/")+1]
    base_detail_url=url[url.rindex("/")+1:]
    base_detail_url=base_detail_url[0:base_detail_url.rfind(".")]
    if base_detail_url.rfind("_")>0:
        base_detail_url=base_detail_url[0:base_detail_url.rfind("_")]
    pageInfo['first']=base_detail_url;
    folderName=soup.title
    for num in range(int(pageInfo['total'])):
        if num ==0:
            detail_html_url= baseUrl+pageInfo['first']+".html"
        else:
            detail_html_url= baseUrl+pageInfo['first']+"_"+str(num+1)+".html"
        download_detail_url_soup(detail_html_url,folderName.string,num+1)




def getAllPageInfo(url):
    # < div class ="page" >
    # < a  href = "17409_2.html" class ="linkpage shpage" > 上一页 < / a >
    # < a href="17409.html" > 首页 < / a >
    # < a name="allpage" class ="allpage" > < span class ="nowpage" > 3 < / span > / 18 < / a >
    # < a href="/rihan/17409_18.html" > 尾页 < / a >
    # < a href="/rihan/17409_4.html" class ="linkpage" > 下一页 < / a >
    # < / div >
    html = requests.get(url, headers=headers, timeout=50)
    html.encoding = 'utf-8'
    soup = BeautifulSoup(html.text, "lxml", from_encoding='utf-8')
    print soup.title
    print soup.nav
    print soup.find_all("ul", class_="tag",limit=12)[0]
    allIndexList=[]
    allIndexList.append('/meinv/');
    allIndexList.append('/mxmn/');
    for index in  soup.find_all("ul", class_="tag",limit=12)[0].find_all("li"):
        allIndexList.append(index.find("a").get("href"))

    allDetailPageInfos=[]
    for detailCrawUrl in allIndexList:
        detail_crawl_url=base_url+detailCrawUrl
        print detail_crawl_url
        htmla = requests.get(detail_crawl_url, headers=headers, timeout=50)
        htmla.encoding = 'utf-8'
        soupa = BeautifulSoup(htmla.text, "lxml", from_encoding='utf-8')
        print soupa.title
        for detailPageInfo in soupa.find("div",attrs={'id':'list'}).find_all("li"):
            getDetailPageInfo(base_url+detailPageInfo.find("a").get("href"))

if __name__ == '__main__':
    print "begin"
    # push_redis_list(6952)#开启则加任务队列.其中的值请限制在5400以内。不过是用于计算页码的

    # push_index_all_url_to_redis_list()#//从首页爬取所有url
    # detail_url='http://m.772586.com/mxmn/17313.html'
    # detail_url='http://m.772586.com/rihan/17409_5.html'
    # download_detail_url_soup(detail_url,"test")
    # getDetailPageInfo(detail_url)

    detail_url = 'http://m.772586.com/'
    getAllPageInfo(detail_url);


    #get_big_img_url()#开启则运行爬取任务

我可能真的喜欢上她了

先发一张妹子的照片表示我没有骗人。 [图片] 照片跟本人有点不符，但基本就是这样的。妹子是我司前台，一个多月前离职了，离职我一直念念不忘，经常会想起打电话给她，但是每次拿起手机的时候却不知道跟她说什么。平时虽然有聊天但是不是很多，大部分都是工作上的事情。也许她已经把我忘了吧，毕竟萍水相逢，但是我却一直忘不了她。 ..

Python 爬虫系列（二）基本库的使用

[图片] urllib 的使用 urlib 是 python 内置的请求库，不需要额外安装 urllib 包含如下 4 个模块： request：最基本的 http 请求模块，模拟请求发送 error：异常处理模块 parse：工具模块 robotparser：用来识别网站的 robots.txt，用的很少 urlop ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

2.win10 下 python2 爬虫美女图片逐步优化

相关帖子

来几发古风妹子壁纸

一波小姐姐

找个妹子教我前端

请大家保护好稀有动物，哪怕她的颜值并不高

我可能真的喜欢上她了

喜欢上一个妹子，怎么办

Python 爬虫系列（二）基本库的使用

欢迎来到这里！

近期热议

推荐标签标签

最新标签

2.win10 下 python2 爬虫美女图片逐步优化

相关帖子

来几发古风妹子壁纸

一波小姐姐

找个妹子教我前端

请大家保护好稀有动物，哪怕她的颜值并不高

我可能真的喜欢上她了

喜欢上一个妹子，怎么办

Python 爬虫系列（二）基本库的使用

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签