一周内从 0 到 1 掌握 Node 爬虫技巧(二)

本贴最后更新于 2623 天前,其中的信息可能已经渤澥桑田

上篇文章介绍了爬虫的基本概念和基本原理,这篇开始我们一起来看看具体如何从网页中爬取自己想要的数据。

在下面爬虫的栗子中,我们使用 nodejs 来作为我们的运行环境(我是前端工程师哦)!

一、准备环境

1、nodejs 环境安装可以点击这里 nodejs 中文网下载安装包哦!

二、创建项目

1、安装好 nodejs 后,运行 cmd 切换到你想要创建的目录;

2、mkdir myspider(创建 myspider 文件夹);

3、cd 到 myspider 目录下;

4、命令行输入 npm init(初始化该小项目):

此时需要填写一些项目信息,你可以根据情况填写,当然也可以一路回车哦。

初始化过程中会产生这些选项

执行完成后会有一个 packge.json 配置文件:

里面包含我们这个项目的一些信息

5、安装第三方包库

这些包库在程序中引入会自动加载的哦。这些包库的使用不仅会大大减少我们的代码量,而且还会使我们的代码更优雅、更好维护哦。

我们的所有第三方库都是依赖于 npm(node package manager)node 包管理器来下载,只需要运行 npm install xxx --save 来安装,了解更多关于 npm 点击这里查看。(我觉得这就是 nodejs 发展异常迅速的原因之一)

1)、express(npm install express --save)

express 库为我们提供了一系列便捷的方法,让我们管理和构建大型项目变的非常简单;小项目就更不必说了。更多关于 express 可以点击这里查看

2)、cheerio(npm install express --save)

cherrio 是为服务器特别定制的,快速、灵活、实施的 jQuery 核心实现。通过 cherrio,我们就可以将抓取到的内容,像使用 jquery 的方式来使用了。可以点击这里查看

简单示例如下:

varcheerio = require('cheerio');

$= cheerio.load('Hello world');

$('h2.title').text('Hello there!');

3)、superagent(npm install superagent --save)

superagent 模块让 http 请求变的更加简单,了解更多点击这里查看。最简单的一个示例如下:

var request = require('superagent');

request.get('http://example.com/search').end(function(res){});

有些模块是 nodejs 中的内置模块不需要使用 npm 来下载的,还有其他第三方模块会在后续文章中陆续介绍。

三、开始你的表演。。。

安装完上面的包,我们就可以开始简单的实践喽!在 myspider 文件加下创建 app.js。如下图 :

var express=require('express');

var cheerio=require('cheerio');

var request=require('superagent');

var app=express();

app.get('/',function(req,res){

console.log('hello man!');

});

app.listen(function(req,res) {

console.log('server is running at port 3000!');

});

然后在命令行运行 node app.js,如图:

运行 node app.js

接着在浏览器地址栏输入 localhost:3000/,回车,如图:

地址栏输入 localhost:3000

这样一个简单的本地服务器模拟就实现了哦!

接下来我们就看看在服务器中使用 request 向我们的目标网站发起 http 请求,将原来代码改为:

app.get('/',function(req,res){

request.get('http://www.dytt8.net').end(function(err,ress) {

if(!err) {

      res.send('请求成功喽!');

 }

});

});

我们这样就可以进入我们要爬取网站了!

我们引入 cheerio 包帮我们实现我们想要爬取的内容,将 app.js 代码改一下:

var express=require('express');

var cheerio=require('cheerio');

var charset=require('superagent-charset');//解决网页编码问题

var request=require('superagent');

var app=express();

charset(request);

app.get('/',function(req,res){

request.get('http://www.dytt8.net').charset('gb2312').end(function(err,ress) {

//错误处理

if(err){

console.log(err);

}else{

var $=cheerio.load(ress.text);//$和jquery中的选择器类似,可以选择网页中所有的元素

var  navText=$('#menu .contain ul li a').text();

res.end(navText);

}

});

});

app.listen(3000,function(req,res) {

console.log('server is running at port 3000!');

});

浏览器运行结果如下:

爬取的结果

到此一个最简单的爬虫程序就基本实践成功了,后续会逐步实现更为复杂的爬虫程序,希望对大家有所帮助。错误难免,敬请斧正!

  • 编程
    53 引用 • 266 回帖 • 3 关注
  • var
    3 引用 • 17 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 职场

    找到自己的位置,萌新烦恼少。

    127 引用 • 1706 回帖
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    170 引用 • 414 回帖 • 387 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 76 关注
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    85 引用 • 165 回帖 • 2 关注
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 161 关注
  • Windows

    Microsoft Windows 是美国微软公司研发的一套操作系统,它问世于 1985 年,起初仅仅是 Microsoft-DOS 模拟环境,后续的系统版本由于微软不断的更新升级,不但易用,也慢慢的成为家家户户人们最喜爱的操作系统。

    223 引用 • 474 回帖
  • Notion

    Notion - The all-in-one workspace for your notes, tasks, wikis, and databases.

    7 引用 • 40 回帖
  • 安装

    你若安好,便是晴天。

    132 引用 • 1184 回帖 • 1 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 604 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    20 引用 • 7 回帖 • 2 关注
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    23003 引用 • 92509 回帖 • 2 关注
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 637 关注
  • Swift

    Swift 是苹果于 2014 年 WWDC(苹果开发者大会)发布的开发语言,可与 Objective-C 共同运行于 Mac OS 和 iOS 平台,用于搭建基于苹果平台的应用程序。

    36 引用 • 37 回帖 • 535 关注
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    8442 引用 • 38442 回帖 • 154 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • 笔记

    好记性不如烂笔头。

    308 引用 • 793 回帖
  • 生活

    生活是指人类生存过程中的各项活动的总和,范畴较广,一般指为幸福的意义而存在。生活实际上是对人生的一种诠释。生活包括人类在社会中与自己息息相关的日常活动和心理影射。

    230 引用 • 1454 回帖
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    162 引用 • 529 回帖 • 5 关注
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 34 关注
  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    5 引用 • 15 回帖 • 102 关注
  • Android

    Android 是一种以 Linux 为基础的开放源码操作系统,主要使用于便携设备。2005 年由 Google 收购注资,并拉拢多家制造商组成开放手机联盟开发改良,逐渐扩展到到平板电脑及其他领域上。

    334 引用 • 323 回帖 • 3 关注
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    325 引用 • 1395 回帖
  • Vditor

    Vditor 是一款浏览器端的 Markdown 编辑器,支持所见即所得、即时渲染(类似 Typora)和分屏预览模式。它使用 TypeScript 实现,支持原生 JavaScript、Vue、React 和 Angular。

    354 引用 • 1823 回帖 • 1 关注
  • 又拍云

    又拍云是国内领先的 CDN 服务提供商,国家工信部认证通过的“可信云”,乌云众测平台认证的“安全云”,为移动时代的创业者提供新一代的 CDN 加速服务。

    21 引用 • 37 回帖 • 548 关注
  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 627 关注
  • 自由行
    4 关注
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 354 关注