#coding:utf-8
#完成通用爬虫,抓取一个页面队列中所有图片
import requests
import re
import time
from bs4 import BeautifulSoup
import uuid
import urllib
import os
headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36' }
base_url='http://m.17786.com'
base_img_url='https://wcyouxi.sc601.com/file/p/20190803/21/ordurlsatqe.jpg'
save_path='E:\\360MoveData\Users\Administrator\Pictures\Camera Roll\crawl\meizi\\'
def download_detail_url_soup(url,folerName,num):
print url,folerName
html=requests.get(url, headers=headers, timeout=50)
html.encoding = 'utf-8'
soup = BeautifulSoup(html.text,"lxml" ,from_encoding='utf-8')
print soup.title
try:
imgs=soup.select('.contimglist')[0].find_all("img", {"src": re.compile(".*\.jpg")})
for img in imgs:
# 获取图片下载地址,并下载图片
# dizhi = li.find('img')['src']
base_path=save_path + folerName
if not os.path.isdir(base_path):
os.mkdir(base_path)
# 图片保存地址
bc = base_path +"\\"+str(num)+ str(uuid.uuid4()) + ".jpg"
# 下载图片并保存
urllib.urlretrieve(img.get("src"), bc)
except:
print "下载失败"
pass
return -1
def getDetailPageInfo(url):
# < div class ="page" >
# < a href = "17409_2.html" class ="linkpage shpage" > 上一页 < / a >
# < a href="17409.html" > 首页 < / a >
# < a name="allpage" class ="allpage" > < span class ="nowpage" > 3 < / span > / 18 < / a >
# < a href="/rihan/17409_18.html" > 尾页 < / a >
# < a href="/rihan/17409_4.html" class ="linkpage" > 下一页 < / a >
# < / div >
html = requests.get(url, headers=headers, timeout=50)
html.encoding = 'utf-8'
soup = BeautifulSoup(html.text, "lxml", from_encoding='utf-8')
print soup.title
print soup.select('.page a')
pageInfo={}
for page in soup.select('.page a'):
if page.text.find("/") != -1:
pageInfo['total'] = str(page.text)[page.text.find("/")+1:]
print pageInfo
url.rfind("/")
baseUrl=url[0:url.rindex("/")+1]
base_detail_url=url[url.rindex("/")+1:]
base_detail_url=base_detail_url[0:base_detail_url.rfind(".")]
if base_detail_url.rfind("_")>0:
base_detail_url=base_detail_url[0:base_detail_url.rfind("_")]
pageInfo['first']=base_detail_url;
folderName=soup.title
for num in range(int(pageInfo['total'])):
if num ==0:
detail_html_url= baseUrl+pageInfo['first']+".html"
else:
detail_html_url= baseUrl+pageInfo['first']+"_"+str(num+1)+".html"
download_detail_url_soup(detail_html_url,folderName.string,num+1)
def getAllPageInfo(url):
# < div class ="page" >
# < a href = "17409_2.html" class ="linkpage shpage" > 上一页 < / a >
# < a href="17409.html" > 首页 < / a >
# < a name="allpage" class ="allpage" > < span class ="nowpage" > 3 < / span > / 18 < / a >
# < a href="/rihan/17409_18.html" > 尾页 < / a >
# < a href="/rihan/17409_4.html" class ="linkpage" > 下一页 < / a >
# < / div >
html = requests.get(url, headers=headers, timeout=50)
html.encoding = 'utf-8'
soup = BeautifulSoup(html.text, "lxml", from_encoding='utf-8')
print soup.title
print soup.nav
print soup.find_all("ul", class_="tag",limit=12)[0]
allIndexList=[]
allIndexList.append('/meinv/');
allIndexList.append('/mxmn/');
for index in soup.find_all("ul", class_="tag",limit=12)[0].find_all("li"):
allIndexList.append(index.find("a").get("href"))
allDetailPageInfos=[]
for detailCrawUrl in allIndexList:
detail_crawl_url=base_url+detailCrawUrl
print detail_crawl_url
htmla = requests.get(detail_crawl_url, headers=headers, timeout=50)
htmla.encoding = 'utf-8'
soupa = BeautifulSoup(htmla.text, "lxml", from_encoding='utf-8')
print soupa.title
for detailPageInfo in soupa.find("div",attrs={'id':'list'}).find_all("li"):
getDetailPageInfo(base_url+detailPageInfo.find("a").get("href"))
if __name__ == '__main__':
print "begin"
# push_redis_list(6952)#开启则加任务队列.其中的值请限制在5400以内。不过是用于计算页码的
# push_index_all_url_to_redis_list()#//从首页爬取所有url
# detail_url='http://m.772586.com/mxmn/17313.html'
# detail_url='http://m.772586.com/rihan/17409_5.html'
# download_detail_url_soup(detail_url,"test")
# getDetailPageInfo(detail_url)
detail_url = 'http://m.772586.com/'
getAllPageInfo(detail_url);
#get_big_img_url()#开启则运行爬取任务
近期热议
推荐标签 标签
-
JSON
52 引用 • 190 回帖 • 1 关注
JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。
-
资讯
55 引用 • 85 回帖
资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。
-
Love2D
14 引用 • 53 回帖 • 537 关注
Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。
-
Tomcat
162 引用 • 529 回帖 • 5 关注
Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。
-
Bootstrap
18 引用 • 33 回帖 • 667 关注
Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。
-
倾城之链
23 引用 • 66 回帖 • 138 关注
-
Solidity
3 引用 • 18 回帖 • 401 关注
Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。
-
etcd
5 引用 • 26 回帖 • 528 关注
etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。
-
SSL
70 引用 • 193 回帖 • 419 关注
SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。
-
danl
• 146 关注
-
Sandbox
409 引用 • 1246 回帖 • 587 关注
如果帖子标签含有 Sandbox ,则该帖子会被视为“测试帖”,主要用于测试社区功能,排查 bug 等,该标签下内容不定期进行清理。
-
阿里巴巴
43 引用 • 221 回帖 • 106 关注
阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。
-
WebSocket
48 引用 • 206 回帖 • 319 关注
WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。
-
开源
407 引用 • 3578 回帖
Open Source, Open Mind, Open Sight, Open Future!
-
Spark
74 引用 • 46 回帖 • 559 关注
Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。
-
CSS
196 引用 • 540 回帖 • 1 关注
CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。
-
Telegram
5 引用 • 35 回帖
Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。
-
MyBatis
170 引用 • 414 回帖 • 387 关注
MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。
-
面试
325 引用 • 1395 回帖
面试造航母,上班拧螺丝。多面试,少加班。
-
SQLServer
21 引用 • 31 回帖 • 5 关注
SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。
-
书籍
78 引用 • 391 回帖
宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”
-
jsDelivr
5 引用 • 31 回帖 • 73 关注
jsDelivr 是一个开源的 CDN 服务,可为 npm 包、GitHub 仓库提供免费、快速并且可靠的全球 CDN 加速服务。
-
导航
42 引用 • 175 回帖 • 1 关注
各种网址链接、内容导航。
-
知乎
10 引用 • 66 回帖 • 1 关注
知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。
-
JetBrains
18 引用 • 54 回帖
JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA。
-
房星科技
6 引用 • 141 回帖 • 584 关注
房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。
-
OnlyOffice
4 引用 • 3 关注
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于