Ruby 脚本实现数据爬取

本贴最后更新于 3052 天前,其中的信息可能已经时移世异

工作上使用Redis,为了测试其性能,需要大量的测试数据,所以利用周末的时间用ruby写了个脚本,跑了一天,从搜搜问问百度知道爬了大量的数据下来,分成问题和答案,总共有50万条数据,大小也就50M左右;周一去上班,写了一个ruby脚本连接Redis数据库,再循环分别导入问题和答案数据,这样测试数据就有了,由于测试机器内存的限制,导入的测试数据总共100万条,占内存1G。

下面想说说ruby脚本的结构,很简单,还有需要改进的地方,但是脚本就是一次性的工具,如没有通用性可能,有没有必要再改进另当其说。

建立http连接功能使用了内部包含的gem包open-uri,解析获取到的页面对象,并抓取特定的document元素,使用的gem是nokogiri,脚本分几个功能部分,各负其责,分别介绍如下:

  • 递归抓取页面所有超级链接(spider_url.rb)
#!/usr/bin/ruby -w

require 'rubygems'
require 'nokogiri'
require 'open-uri'

load 'spider_document.rb'

class URL
attr_accessor :available_url, :pre_url, :visited_url, :error_url

def initialize
    @available_url = {}	
    @visited_url = {}
    @error_url = {}
    @pre_url = "http://wenwen.soso.com"	
end

# 抓取页面上的所有超链接,形如 'href...'
def crawl_url (target_url)
	puts '获取超级链接页面地址 -> ' + target_url
	temp_available_url = {}

	begin
	   open(target_url) do |uri|	  
	      doc_content = uri.read
	      doc_content.scan(/href=["|'](.+?)["|']/) do |href_item|
	         url = href_item[0]
                     # TODO pattern is not exactely
		 url.match(/.z./) do |m|
					
		 # build hash {url=>real url} 
		 if !@visited_url.has_key?(url) 
		   temp_available_url["#{url}"] = url 
		   @visited_url["#{url}"] = url
		 end
					
		 # puts '新增访问url:' + url
		 end
		 # url=@target_url.match(/(http:\/\/([^\/]+))\//)[1] << url if url =~ /^\//
	      end				
	   end			
	rescue
	   puts $!
	   @error_url["#{target_url}"] = target_url
	   puts 'error' 
	end
	temp_available_url
end


def crawl_content (target_url)
    doc = Document.new
    doc.crawl_content(target_url)				
end			

end

url_spider = URL.new
puts 'url spider begining ...'

url_spider.available_url = url_spider.crawl_url("http://wenwen.soso.com")
while(!url_spider.available_url.empty?)
url_spider.available_url.each do |key,value|
url_spider.crawl_content(url_spider.pre_url + value)
url_spider.available_url = url_spider.available_url.merge url_spider.crawl_url(url_spider.pre_url + value)
url_spider.available_url.delete(key)
puts 'current available_url size : ' + url_spider.available_url.size.to_s
end
end

puts 'Total available_url size : ' + url_spider.available_url.size.to_s
puts 'Total visited_url size : ' + url_spider.visited_url.size.to_s
puts 'Total error_url size : ' + url_spider.error_url.size.to_s

  • 解析页面文档(spider_document.rb)
#!/usr/bin/ruby -w

require 'rubygems'
require 'nokogiri'
require 'open-uri'

class Document
@@quesion_count = 0
@@answer_count = 0

def get_question (page)
   questionArray = page.css('div.qa_title')
   questionArray.each do |question|
   #puts question.text
   File.open("question.txt",'a') { |f|
     f.puts question.text.strip.delete "快速回答".strip
   }
   end

 @@quesion_count = @@quesion_count + questionArray.size
 puts "current question count is : [" + @@quesion_count.to_s + "]"
end

def get_answer (page)
   answerArray = page.css('div.answer_con')
   answerArray.each do |answer|
     #puts answer.text
     File.open("answer.txt",'a') { |f|
       f.puts answer.text.strip.delete "快速回答".strip
     }
   end

   @@answer_count = @@answer_count + answerArray.size
   puts "current answer count is : [" + @@answer_count.to_s + "]"
end

def crawl_content (target_url)
    puts '抓取页面内容地址 -> ' + target_url
    begin
      page = Nokogiri::HTML(open(target_url))
      get_question (page)
      get_answer (page)	
    rescue Exception => e	
          puts $!
    end	
end

end

  • 批量导入Redis(spider_persistence.rb)
#!/usr/bin/ruby -w

require 'rubygems'
require 'nest'
require 'redis'

class Persistence

attr_accessor :redis, :question_count, :answer_count

def initialize
  @redis = Redis.new
  # @redis = Redis.new(:host=>"192.168.1.67",:port=>6379)
  @question_count = 0
  @answer_count = 0
end

# 批量生产账号
def batch_account
  account_namespace = Nest.new("account",@redis)

  File.open("account_email_local.txt") do |f| 
     f.each_line do |line|
             pre_str = line.chomp.split('@')[0]
	 account_namespace[line.chomp].hset("nickName",pre_str)
	 account_namespace[line.chomp].hset("email",pre_str)
         account_namespace[line.chomp].hset("passWordHash","49") # 密码为1
	 account_namespace[line.chomp].hset("answerCount","0")
	 account_namespace[line.chomp].hset("selfDescription","非理性人类一枚")
	 account_namespace[line.chomp].hset("followCount","0")
	 account_namespace[line.chomp].hset("followerCount","0")
	 account_namespace[line.chomp].hset("questionCount","0")

	 puts line.chomp + " is builded."
     end 
  end
end

# 批量生成问题集合
def batch_question
  account_namespace = Nest.new("account",@redis)
      question_namespace = Nest.new("question",@redis)
  pre_email = "rayootech" # 默认的账号 rayootech@163.com

  begin
        File.open("question.txt","r") do |file|
           file.each_line do |line|
	 # 生成随机的20位问题id
	 id = random_id(20)
							
	 if (!line.strip.empty? && line.strip.length>3)
	   puts "#{file.lineno} : #{line}"					
	   question_namespace[id].hset("id",id)
	   question_namespace[id].hset("content",line)
	   question_namespace[id].hset("author",pre_email+"@163.com")
	   question_namespace[id].hset("createTime","2014-01-14")
	   question_namespace[id].hset("followerCount","0")
	   question_namespace[id].hset("browseCount","1")

           # 用户和提出的问题关系集合 account:[id]:question
	   account_namespace["#{pre_email}@163.com"]["questions"].zadd(1401141645,id)
	   @question_count = @question_count + 1
	   File.open("question_id_local.txt", "a") { |f| f.puts id }
          end

       # 生成随机email地址前缀,并保存,后期生成account账号导入redis,一个email账户提500个问题
       if (@question_count%500==0)
	   pre_email = random_id(10)
	   File.open("account_email_local.txt","a"){|file|file.puts "#{pre_email}@163.com"}
       end
      end
    end	
    rescue Exception => e
      puts $!	
    end
    end

# 批量生成回答集合
def batch_answer
	account_namespace = Nest.new("account",@redis)
	qa_relation_ns = Nest.new("question",@redis)
	answer_namespace = Nest.new("answer",@redis)
	question_id = "lzj4ggcgfpmj5uxnhtgx" # 【提问时间】 默认问题id

	begin
          File.open("answer.txt","r") do |file|
                 file.each_line do |line|
	     # 生成随机的20位回答id
	     id = random_id(20)
	     author = random_account_email
                 if (!line.strip.empty?)
                     puts "#{file.lineno} : #{line}"
		 answer_namespace[id].hset("id",id)
		 answer_namespace[id].hset("content",line)
		 answer_namespace[id].hset("author",author)
		 answer_namespace[id].hset("createTime","2014-01-15")
		 answer_namespace[id].hset("approveCount","0")
		 answer_namespace[id].hset("qId",question_id)

		 # 问题和回答关系数据
		 qa_relation_ns[question_id]["answers"].zadd(1401152040,id)
		 # 问题的所有回答者关系数据
		 qa_relation_ns[question_id]["respondents"].sadd(author)
		 # 用户所有的回答数据
		 account_namespace[author]["answers"].zadd(1401159088,id)

		 @answer_count = @answer_count + 1
		 File.open("answer_id_local.txt", "a") { |f| f.puts id }
                   end

	       # 每个问题下有平均100个回答
	       if (@answer_count%100==0)
		 question_id = random_question_id	
	       end

                 end
	end	
	rescue Exception => e
	  puts $!	
	end
end

# 批量生成问题浏览者集合
def batch_question_browser
end

# 随机返回一个问题id
def random_question_id
    question_id_arr = []
    index = 0
    File.open("question_id.txt") do |f| 
      f.each_line do |line| 
	 question_id_arr[index]=line
	 index = index + 1
      end 
    end
    question_id_arr[rand(question_id_arr.size-1)].chomp
end

# 随机返回一个回答id
def random_answer_id
end

# 随机返回一个email
def random_account_email
    account_email_arr = []
    index = 0
    File.open("account_email.txt") do |f| 
      f.each_line do |line| 
	 account_email_arr[index]=line
	 index = index + 1
      end 
    end
    account_email_arr[rand(account_email_arr.size-1)].chomp
end

# 生成随机数
def random_id(len)
	   chars = ("a".."z").to_a + ("a".."z").to_a + ("0".."9").to_a
	   random_id = ""
	   1.upto(len) { |i| random_id << chars[rand(chars.size-1)] }
	   return random_id
end

end

persistence = Persistence.new

1.times

puts "persistence question count : " + persistence.question_count.to_s

persistence.batch_account

1.times {|i| persistence.batch_answer }
puts "persistence answer count : " + persistence.answer_count.to_s

  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 216 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 694 关注
  • IBM

    IBM(国际商业机器公司)或万国商业机器公司,简称 IBM(International Business Machines Corporation),总公司在纽约州阿蒙克市。1911 年托马斯·沃森创立于美国,是全球最大的信息技术和业务解决方案公司,拥有全球雇员 30 多万人,业务遍及 160 多个国家和地区。

    17 引用 • 53 回帖 • 141 关注
  • CongSec

    本标签主要用于分享网络空间安全专业的学习笔记

    1 引用 • 1 回帖 • 17 关注
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 393 关注
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    85 引用 • 165 回帖 • 2 关注
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    178 引用 • 997 回帖
  • Chrome

    Chrome 又称 Google 浏览器,是一个由谷歌公司开发的网页浏览器。该浏览器是基于其他开源软件所编写,包括 WebKit,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。

    62 引用 • 289 回帖
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    117 引用 • 99 回帖 • 210 关注
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    132 引用 • 795 回帖
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    946 引用 • 943 回帖
  • Google

    Google(Google Inc.,NASDAQ:GOOG)是一家美国上市公司(公有股份公司),于 1998 年 9 月 7 日以私有股份公司的形式创立,设计并管理一个互联网搜索引擎。Google 公司的总部称作“Googleplex”,它位于加利福尼亚山景城。Google 目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务。不作恶(Don't be evil)是谷歌公司的一项非正式的公司口号。

    49 引用 • 192 回帖
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 7 关注
  • 招聘

    哪里都缺人,哪里都不缺人。

    190 引用 • 1057 回帖
  • gRpc
    11 引用 • 9 回帖 • 69 关注
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖
  • 博客

    记录并分享人生的经历。

    273 引用 • 2388 回帖
  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    126 引用 • 169 回帖
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3190 引用 • 8214 回帖 • 1 关注
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    574 引用 • 3533 回帖
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    162 引用 • 529 回帖 • 5 关注
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 6 关注
  • Flutter

    Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flutter 可以与现有的代码一起工作,它正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。

    39 引用 • 92 回帖 • 8 关注
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 748 关注
  • 生活

    生活是指人类生存过程中的各项活动的总和,范畴较广,一般指为幸福的意义而存在。生活实际上是对人生的一种诠释。生活包括人类在社会中与自己息息相关的日常活动和心理影射。

    230 引用 • 1454 回帖
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    325 引用 • 1395 回帖
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 76 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    16 引用 • 130 回帖