Python 爬虫爬取糗事百科段子

环境

Python2.7
正则表达式的基本运用
urllib 和 urllib2 库的基本运用
re 正则表达式库基本运用

# -*- coding:utf-8 -*-

# -*- coding:utf-8 -*-

""" 抓取嗅事百科的段子 """
import urllib
import urllib2
import re

page = 1

url = "https://www.qiushibaike.com/hot/page/" + str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers ={'User-Agent':user_agent}
try:
    request = urllib2.Request(url,headers= headers)
    response = urllib2.urlopen(request)
    content = response.read().decode('utf-8')
    pattern = re.compile('<div.*?class="author.*?>.*?<a.*?</a>.*?<a.*?>.*?<h2>(.*?)</h2>.*?</a>.*?<div.*?class="content">.*?<span>(.*?)</span>.*?.*?<div class="stats.*?class="number">(.*?)</i>',re.S)
    items = re.findall(pattern,content)
    for item in items:
        print item[0].strip()
        print item[1].strip()
        print item[2].strip()
except urllib2.URLError,e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

正则表达式运用的基本解释

.? 表示匹配任意的字符 .*? 表示非贪婪匹配表示往数据集小的方向
（.*?）表示一个分组，获取匹配的内容

Python 的内置函数列表

函数名详细简介 abs [链接] 计算绝对值 aiter [链接] 获取异步可迭代对象的迭代器 all [链接] 判断可迭代对象内容是否全部为真值 anext [链接] 获取异步迭代器的下一数据项 any [链接] 判断可迭代对象内容是否存在真值 ascii [链接] 转换为字符串，非 ASCII 字符将被转义 b ..

微信 / 支付宝账单整理二合一

每周/月手动整理账单比较麻烦，索性用 ai 写一个小工具，懒人党的福音~~ 效果如下： [图片] 使用方法双击账单整理工具.exe 运行程序选择导入微信账单.xlsx 选择导入支付宝账单.csv 提示选择保存的位置一会就生成好了整理后的二合一账单文件 [图片] 【可选项】可以配合 ledger.xlsx 复式记 ..

Dify 插件开发入门指南：在现有插件上改造出一个自己的插件

Dify 插件开发的官方文档非常详细，但对于初学者来说，可能会觉得有些复杂，不知道从何入手。本文将通过一个实战案例，带你一步步了解如何在现有插件仓库的基础上进行修改，开发出属于自己的插件。一、开发包准备首先参考官方文档中《获取 Dify Plugin 开发包》部分，安装好开发包即可。暂时不需要运行，安装到环境里就 ..

Python 包与环境管理简史：从混乱到优雅

Python 诞生三十余年，但在它的生态里，如何优雅地管理依赖和环境始终是一条漫长的探索之路。从 2004 年 easy_install 的横空出世，到今天集大成的 uv，无数开发者在“依赖地狱”与“环境隔离”之间寻找平衡。这篇文章想和你一起回顾过去二十年里 Python 依赖与环境管理工具的迭代，也分享我个人在这 ..

PyPI 包名的命名规则与 pip 的兼容性机制——为什么 pip install sCIKit.-_LEarN 也能成功

前言最近我在使用 pip install 命令安装包时，偶然发现在包名中使用下划线和使用连字符都可以成功安装，而且安装的确实是同一个包。这就激发了我的好奇心，难道 pip install 命令中下划线和连字符是等效的？于是我就去网上搜索了一下，并整理了相关资料写成这篇博文。 PyPI 包名规则 PyPA 编写的 [链 ..

人工智能生成合成内容标识方法解析：文件隐式标识的 Python 实践

前言 2025 年 9 月 1 日起，《人工智能生成合成内容标识办法》正式实行，AI 生成合成内容必须添加标识。与之相应的国家标准《网络安全技术人工智能生成合成内容标识方法》（GB45438—2025）也已经版本，其中说明了不同文件格式应当添加什么标识。具体来说，人工智能生成合成内容标识包含显式标识和隐式标识二种方式 ..

第四章二维数组

创建二维数组一、直接从列表/元组创建使用 np.array() 将嵌套列表或元组转换为二维数组（最基础方式）。 import numpy as np # 嵌套列表 → 二维数组 arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) print(arr) # 输出： # ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

Python 爬虫爬取糗事百科段子

环境

正则表达式运用的基本解释

相关帖子

Python 的内置函数列表

微信 / 支付宝账单整理二合一

Dify 插件开发入门指南：在现有插件上改造出一个自己的插件

Python 包与环境管理简史：从混乱到优雅

PyPI 包名的命名规则与 pip 的兼容性机制——为什么 pip install sCIKit.-_LEarN 也能成功

人工智能生成合成内容标识方法解析：文件隐式标识的 Python 实践

第四章二维数组

欢迎来到这里！

近期热议

推荐标签标签

最新标签

Python 爬虫爬取糗事百科段子

环境

正则表达式运用的基本解释

相关帖子

Python 的内置函数列表

微信 / 支付宝账单整理二合一

Dify 插件开发入门指南：在现有插件上改造出一个自己的插件

Python 包与环境管理简史：从混乱到优雅

PyPI 包名的命名规则与 pip 的兼容性机制——为什么 pip install sCIKit.-_LEarN 也能成功

人工智能生成合成内容标识方法解析：文件隐式标识的 Python 实践

第四章 二维数组

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

第四章二维数组

推荐标签标签