互联网有很多业务或者说网页,是不需要用户进行登录的,这些不需要登录的页面,往往会包含大量的聚合信息,比如新闻门户网站、视频门户网站、搜索引擎,这些信息是公开的,是可以被爬虫抓取的。
一、网站为什么要反爬虫?
1、爬虫占总 PV 比例较高,浪费服务器资源
通过程序进行 URL 请求去获得数据的成本是很低的,这就造成大量低质量网页爬虫在网络横行,对目标网站产生大量的访问,导致目标网站的服务器资源大量消耗,轻则影响正常用户的访问速度,重则导致网站服务不可用。
2、公司可免费查询的资源被批量抓走,丧失竞争力
很多软件的价格可以在非登录状态下直接被查询,如果没有反爬虫,竞争对手就可以批量复制网页信息,抓取到软件的价格、资源等各种信息,时间长了企业的竞争力就会大大减少。
二、我们在反什么样的爬虫?
1.黄牛恶意竞争
黄牛党利用恶意爬虫遍历航空公司的低价票,同时批量发起机器请求进行占座,导致航班座位资源被持续占用产生浪费,最终引发航班空座率高对航空公司造成业务损失,并且损害正常用户的利益。
2.没人去停止的失控爬虫
互联网将近 60% 的访问量都是爬虫带来的,网站已经对这些爬虫程序进行了限制,阻止它们爬取数据,可这些爬虫依然孜孜不倦地运行着,即使抓取不到任何数据。这是因为一些托管在某些服务器上的爬虫,已经是无人认领的状态了,没有人停止。
3、同行竞争对手
企业需要数据来分析用户行为、自己产品的不足之处以及竞争对手的信息等,就会爬取竞争对手的信息,像电商类网站、招聘类网站就会爬取竞争对手的产品信息,为保证自己的产品竞争力,企业往往会针对此类爬虫。
4、网站点击欺诈
投放广告通常是为了触达符合网站定位的潜在消费者,而恶意爬虫造成的点击欺诈使得广告的点击率虚高,使得网站承担了本不应承担的点击费用,给网站造成实实在在的利益损失。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于