上篇文章介绍了爬虫的基本概念和基本原理,这篇开始我们一起来看看具体如何从网页中爬取自己想要的数据。
在下面爬虫的栗子中,我们使用 nodejs 来作为我们的运行环境(我是前端工程师哦)!
一、准备环境
1、nodejs 环境安装可以点击这里 nodejs 中文网下载安装包哦!
二、创建项目
1、安装好 nodejs 后,运行 cmd 切换到你想要创建的目录;
2、mkdir myspider(创建 myspider 文件夹);
3、cd 到 myspider 目录下;
4、命令行输入 npm init(初始化该小项目):
此时需要填写一些项目信息,你可以根据情况填写,当然也可以一路回车哦。
初始化过程中会产生这些选项
执行完成后会有一个 packge.json 配置文件:
里面包含我们这个项目的一些信息
5、安装第三方包库
这些包库在程序中引入会自动加载的哦。这些包库的使用不仅会大大减少我们的代码量,而且还会使我们的代码更优雅、更好维护哦。
我们的所有第三方库都是依赖于 npm(node package manager)node 包管理器来下载,只需要运行 npm install xxx --save 来安装,了解更多关于 npm 点击这里查看。(我觉得这就是 nodejs 发展异常迅速的原因之一)
1)、express(npm install express --save)
express 库为我们提供了一系列便捷的方法,让我们管理和构建大型项目变的非常简单;小项目就更不必说了。更多关于 express 可以点击这里查看。
2)、cheerio(npm install express --save)
cherrio 是为服务器特别定制的,快速、灵活、实施的 jQuery 核心实现。通过 cherrio,我们就可以将抓取到的内容,像使用 jquery 的方式来使用了。可以点击这里查看。
简单示例如下:
varcheerio = require('cheerio');
$= cheerio.load('Hello world');
$('h2.title').text('Hello there!');
3)、superagent(npm install superagent --save)
superagent 模块让 http 请求变的更加简单,了解更多点击这里查看。最简单的一个示例如下:
var request = require('superagent');
request.get('http://example.com/search').end(function(res){});
有些模块是 nodejs 中的内置模块不需要使用 npm 来下载的,还有其他第三方模块会在后续文章中陆续介绍。
三、开始你的表演。。。
安装完上面的包,我们就可以开始简单的实践喽!在 myspider 文件加下创建 app.js。如下图 :
var express=require('express');
var cheerio=require('cheerio');
var request=require('superagent');
var app=express();
app.get('/',function(req,res){
console.log('hello man!');
});
app.listen(function(req,res) {
console.log('server is running at port 3000!');
});
然后在命令行运行 node app.js,如图:
运行 node app.js
接着在浏览器地址栏输入 localhost:3000/,回车,如图:
地址栏输入 localhost:3000
这样一个简单的本地服务器模拟就实现了哦!
接下来我们就看看在服务器中使用 request 向我们的目标网站发起 http 请求,将原来代码改为:
app.get('/',function(req,res){
request.get('http://www.dytt8.net').end(function(err,ress) { if(!err) { res.send('请求成功喽!'); } });
});
我们这样就可以进入我们要爬取网站了!
我们引入 cheerio 包帮我们实现我们想要爬取的内容,将 app.js 代码改一下:
var express=require('express');
var cheerio=require('cheerio');
var charset=require('superagent-charset');//解决网页编码问题
var request=require('superagent');
var app=express();
charset(request);
app.get('/',function(req,res){
request.get('http://www.dytt8.net').charset('gb2312').end(function(err,ress) {
//错误处理
if(err){
console.log(err);
}else{
var $=cheerio.load(ress.text);//$和jquery中的选择器类似,可以选择网页中所有的元素 var navText=$('#menu .contain ul li a').text(); res.end(navText);
}
});
});
app.listen(3000,function(req,res) {
console.log('server is running at port 3000!');
});
浏览器运行结果如下:
爬取的结果
到此一个最简单的爬虫程序就基本实践成功了,后续会逐步实现更为复杂的爬虫程序,希望对大家有所帮助。错误难免,敬请斧正!
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于