一周内从 0 到 1 掌握 Node 爬虫技巧(二)

本贴最后更新于 2384 天前,其中的信息可能已经渤澥桑田

上篇文章介绍了爬虫的基本概念和基本原理,这篇开始我们一起来看看具体如何从网页中爬取自己想要的数据。

在下面爬虫的栗子中,我们使用 nodejs 来作为我们的运行环境(我是前端工程师哦)!

一、准备环境

1、nodejs 环境安装可以点击这里 nodejs 中文网下载安装包哦!

二、创建项目

1、安装好 nodejs 后,运行 cmd 切换到你想要创建的目录;

2、mkdir myspider(创建 myspider 文件夹);

3、cd 到 myspider 目录下;

4、命令行输入 npm init(初始化该小项目):

此时需要填写一些项目信息,你可以根据情况填写,当然也可以一路回车哦。

初始化过程中会产生这些选项

执行完成后会有一个 packge.json 配置文件:

里面包含我们这个项目的一些信息

5、安装第三方包库

这些包库在程序中引入会自动加载的哦。这些包库的使用不仅会大大减少我们的代码量,而且还会使我们的代码更优雅、更好维护哦。

我们的所有第三方库都是依赖于 npm(node package manager)node 包管理器来下载,只需要运行 npm install xxx --save 来安装,了解更多关于 npm 点击这里查看。(我觉得这就是 nodejs 发展异常迅速的原因之一)

1)、express(npm install express --save)

express 库为我们提供了一系列便捷的方法,让我们管理和构建大型项目变的非常简单;小项目就更不必说了。更多关于 express 可以点击这里查看

2)、cheerio(npm install express --save)

cherrio 是为服务器特别定制的,快速、灵活、实施的 jQuery 核心实现。通过 cherrio,我们就可以将抓取到的内容,像使用 jquery 的方式来使用了。可以点击这里查看

简单示例如下:

varcheerio = require('cheerio');

$= cheerio.load('Hello world');

$('h2.title').text('Hello there!');

3)、superagent(npm install superagent --save)

superagent 模块让 http 请求变的更加简单,了解更多点击这里查看。最简单的一个示例如下:

var request = require('superagent');

request.get('http://example.com/search').end(function(res){});

有些模块是 nodejs 中的内置模块不需要使用 npm 来下载的,还有其他第三方模块会在后续文章中陆续介绍。

三、开始你的表演。。。

安装完上面的包,我们就可以开始简单的实践喽!在 myspider 文件加下创建 app.js。如下图 :

var express=require('express');

var cheerio=require('cheerio');

var request=require('superagent');

var app=express();

app.get('/',function(req,res){

console.log('hello man!');

});

app.listen(function(req,res) {

console.log('server is running at port 3000!');

});

然后在命令行运行 node app.js,如图:

运行 node app.js

接着在浏览器地址栏输入 localhost:3000/,回车,如图:

地址栏输入 localhost:3000

这样一个简单的本地服务器模拟就实现了哦!

接下来我们就看看在服务器中使用 request 向我们的目标网站发起 http 请求,将原来代码改为:

app.get('/',function(req,res){

request.get('http://www.dytt8.net').end(function(err,ress) {

if(!err) {

      res.send('请求成功喽!');

 }

});

});

我们这样就可以进入我们要爬取网站了!

我们引入 cheerio 包帮我们实现我们想要爬取的内容,将 app.js 代码改一下:

var express=require('express');

var cheerio=require('cheerio');

var charset=require('superagent-charset');//解决网页编码问题

var request=require('superagent');

var app=express();

charset(request);

app.get('/',function(req,res){

request.get('http://www.dytt8.net').charset('gb2312').end(function(err,ress) {

//错误处理

if(err){

console.log(err);

}else{

var $=cheerio.load(ress.text);//$和jquery中的选择器类似,可以选择网页中所有的元素

var  navText=$('#menu .contain ul li a').text();

res.end(navText);

}

});

});

app.listen(3000,function(req,res) {

console.log('server is running at port 3000!');

});

浏览器运行结果如下:

爬取的结果

到此一个最简单的爬虫程序就基本实践成功了,后续会逐步实现更为复杂的爬虫程序,希望对大家有所帮助。错误难免,敬请斧正!

  • 编程
    50 引用 • 257 回帖 • 3 关注
  • var
    3 引用 • 17 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 链滴

    链滴是一个记录生活的地方。

    记录生活,连接点滴

    131 引用 • 3639 回帖
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    396 引用 • 3416 回帖
  • 导航

    各种网址链接、内容导航。

    37 引用 • 168 回帖 • 1 关注
  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。

    63 引用 • 134 回帖 • 741 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    164 引用 • 407 回帖 • 528 关注
  • Mobi.css

    Mobi.css is a lightweight, flexible CSS framework that focus on mobile.

    1 引用 • 6 回帖 • 697 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 56 关注
  • 30Seconds

    📙 前端知识精选集,包含 HTML、CSS、JavaScript、React、Node、安全等方面,每天仅需 30 秒。

    • 精选常见面试题,帮助您准备下一次面试
    • 精选常见交互,帮助您拥有简洁酷炫的站点
    • 精选有用的 React 片段,帮助你获取最佳实践
    • 精选常见代码集,帮助您提高打码效率
    • 整理前端界的最新资讯,邀您一同探索新世界
    488 引用 • 383 回帖 • 5 关注
  • jsDelivr

    jsDelivr 是一个开源的 CDN 服务,可为 npm 包、GitHub 仓库提供免费、快速并且可靠的全球 CDN 加速服务。

    5 引用 • 31 回帖 • 45 关注
  • gRpc
    10 引用 • 8 回帖 • 54 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖
  • CloudFoundry

    Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。

    5 引用 • 18 回帖 • 153 关注
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • 创业

    你比 99% 的人都优秀么?

    82 引用 • 1398 回帖 • 1 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 604 关注
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 511 关注
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    941 引用 • 1458 回帖 • 151 关注
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖 • 2 关注
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 1 关注
  • FFmpeg

    FFmpeg 是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。

    22 引用 • 31 回帖 • 3 关注
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 319 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 10 关注
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    103 引用 • 294 回帖
  • 周末

    星期六到星期天晚,实行五天工作制后,指每周的最后两天。再过几年可能就是三天了。

    14 引用 • 297 回帖
  • CentOS

    CentOS(Community Enterprise Operating System)是 Linux 发行版之一,它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。

    238 引用 • 224 回帖 • 1 关注
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    205 引用 • 357 回帖
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    11 引用 • 5 回帖 • 565 关注