Ruby 脚本实现数据爬取

本贴最后更新于 3261 天前,其中的信息可能已经时移世异

工作上使用Redis,为了测试其性能,需要大量的测试数据,所以利用周末的时间用ruby写了个脚本,跑了一天,从搜搜问问百度知道爬了大量的数据下来,分成问题和答案,总共有50万条数据,大小也就50M左右;周一去上班,写了一个ruby脚本连接Redis数据库,再循环分别导入问题和答案数据,这样测试数据就有了,由于测试机器内存的限制,导入的测试数据总共100万条,占内存1G。

下面想说说ruby脚本的结构,很简单,还有需要改进的地方,但是脚本就是一次性的工具,如没有通用性可能,有没有必要再改进另当其说。

建立http连接功能使用了内部包含的gem包open-uri,解析获取到的页面对象,并抓取特定的document元素,使用的gem是nokogiri,脚本分几个功能部分,各负其责,分别介绍如下:

  • 递归抓取页面所有超级链接(spider_url.rb)
#!/usr/bin/ruby -w

require 'rubygems'
require 'nokogiri'
require 'open-uri'

load 'spider_document.rb'

class URL
attr_accessor :available_url, :pre_url, :visited_url, :error_url

def initialize
    @available_url = {}	
    @visited_url = {}
    @error_url = {}
    @pre_url = "http://wenwen.soso.com"	
end

# 抓取页面上的所有超链接,形如 'href...'
def crawl_url (target_url)
	puts '获取超级链接页面地址 -> ' + target_url
	temp_available_url = {}

	begin
	   open(target_url) do |uri|	  
	      doc_content = uri.read
	      doc_content.scan(/href=["|'](.+?)["|']/) do |href_item|
	         url = href_item[0]
                     # TODO pattern is not exactely
		 url.match(/.z./) do |m|
					
		 # build hash {url=>real url} 
		 if !@visited_url.has_key?(url) 
		   temp_available_url["#{url}"] = url 
		   @visited_url["#{url}"] = url
		 end
					
		 # puts '新增访问url:' + url
		 end
		 # url=@target_url.match(/(http:\/\/([^\/]+))\//)[1] << url if url =~ /^\//
	      end				
	   end			
	rescue
	   puts $!
	   @error_url["#{target_url}"] = target_url
	   puts 'error' 
	end
	temp_available_url
end


def crawl_content (target_url)
    doc = Document.new
    doc.crawl_content(target_url)				
end			

end

url_spider = URL.new
puts 'url spider begining ...'

url_spider.available_url = url_spider.crawl_url("http://wenwen.soso.com")
while(!url_spider.available_url.empty?)
url_spider.available_url.each do |key,value|
url_spider.crawl_content(url_spider.pre_url + value)
url_spider.available_url = url_spider.available_url.merge url_spider.crawl_url(url_spider.pre_url + value)
url_spider.available_url.delete(key)
puts 'current available_url size : ' + url_spider.available_url.size.to_s
end
end

puts 'Total available_url size : ' + url_spider.available_url.size.to_s
puts 'Total visited_url size : ' + url_spider.visited_url.size.to_s
puts 'Total error_url size : ' + url_spider.error_url.size.to_s

  • 解析页面文档(spider_document.rb)
#!/usr/bin/ruby -w

require 'rubygems'
require 'nokogiri'
require 'open-uri'

class Document
@@quesion_count = 0
@@answer_count = 0

def get_question (page)
   questionArray = page.css('div.qa_title')
   questionArray.each do |question|
   #puts question.text
   File.open("question.txt",'a') { |f|
     f.puts question.text.strip.delete "快速回答".strip
   }
   end

 @@quesion_count = @@quesion_count + questionArray.size
 puts "current question count is : [" + @@quesion_count.to_s + "]"
end

def get_answer (page)
   answerArray = page.css('div.answer_con')
   answerArray.each do |answer|
     #puts answer.text
     File.open("answer.txt",'a') { |f|
       f.puts answer.text.strip.delete "快速回答".strip
     }
   end

   @@answer_count = @@answer_count + answerArray.size
   puts "current answer count is : [" + @@answer_count.to_s + "]"
end

def crawl_content (target_url)
    puts '抓取页面内容地址 -> ' + target_url
    begin
      page = Nokogiri::HTML(open(target_url))
      get_question (page)
      get_answer (page)	
    rescue Exception => e	
          puts $!
    end	
end

end

  • 批量导入Redis(spider_persistence.rb)
#!/usr/bin/ruby -w

require 'rubygems'
require 'nest'
require 'redis'

class Persistence

attr_accessor :redis, :question_count, :answer_count

def initialize
  @redis = Redis.new
  # @redis = Redis.new(:host=>"192.168.1.67",:port=>6379)
  @question_count = 0
  @answer_count = 0
end

# 批量生产账号
def batch_account
  account_namespace = Nest.new("account",@redis)

  File.open("account_email_local.txt") do |f| 
     f.each_line do |line|
             pre_str = line.chomp.split('@')[0]
	 account_namespace[line.chomp].hset("nickName",pre_str)
	 account_namespace[line.chomp].hset("email",pre_str)
         account_namespace[line.chomp].hset("passWordHash","49") # 密码为1
	 account_namespace[line.chomp].hset("answerCount","0")
	 account_namespace[line.chomp].hset("selfDescription","非理性人类一枚")
	 account_namespace[line.chomp].hset("followCount","0")
	 account_namespace[line.chomp].hset("followerCount","0")
	 account_namespace[line.chomp].hset("questionCount","0")

	 puts line.chomp + " is builded."
     end 
  end
end

# 批量生成问题集合
def batch_question
  account_namespace = Nest.new("account",@redis)
      question_namespace = Nest.new("question",@redis)
  pre_email = "rayootech" # 默认的账号 rayootech@163.com

  begin
        File.open("question.txt","r") do |file|
           file.each_line do |line|
	 # 生成随机的20位问题id
	 id = random_id(20)
							
	 if (!line.strip.empty? && line.strip.length>3)
	   puts "#{file.lineno} : #{line}"					
	   question_namespace[id].hset("id",id)
	   question_namespace[id].hset("content",line)
	   question_namespace[id].hset("author",pre_email+"@163.com")
	   question_namespace[id].hset("createTime","2014-01-14")
	   question_namespace[id].hset("followerCount","0")
	   question_namespace[id].hset("browseCount","1")

           # 用户和提出的问题关系集合 account:[id]:question
	   account_namespace["#{pre_email}@163.com"]["questions"].zadd(1401141645,id)
	   @question_count = @question_count + 1
	   File.open("question_id_local.txt", "a") { |f| f.puts id }
          end

       # 生成随机email地址前缀,并保存,后期生成account账号导入redis,一个email账户提500个问题
       if (@question_count%500==0)
	   pre_email = random_id(10)
	   File.open("account_email_local.txt","a"){|file|file.puts "#{pre_email}@163.com"}
       end
      end
    end	
    rescue Exception => e
      puts $!	
    end
    end

# 批量生成回答集合
def batch_answer
	account_namespace = Nest.new("account",@redis)
	qa_relation_ns = Nest.new("question",@redis)
	answer_namespace = Nest.new("answer",@redis)
	question_id = "lzj4ggcgfpmj5uxnhtgx" # 【提问时间】 默认问题id

	begin
          File.open("answer.txt","r") do |file|
                 file.each_line do |line|
	     # 生成随机的20位回答id
	     id = random_id(20)
	     author = random_account_email
                 if (!line.strip.empty?)
                     puts "#{file.lineno} : #{line}"
		 answer_namespace[id].hset("id",id)
		 answer_namespace[id].hset("content",line)
		 answer_namespace[id].hset("author",author)
		 answer_namespace[id].hset("createTime","2014-01-15")
		 answer_namespace[id].hset("approveCount","0")
		 answer_namespace[id].hset("qId",question_id)

		 # 问题和回答关系数据
		 qa_relation_ns[question_id]["answers"].zadd(1401152040,id)
		 # 问题的所有回答者关系数据
		 qa_relation_ns[question_id]["respondents"].sadd(author)
		 # 用户所有的回答数据
		 account_namespace[author]["answers"].zadd(1401159088,id)

		 @answer_count = @answer_count + 1
		 File.open("answer_id_local.txt", "a") { |f| f.puts id }
                   end

	       # 每个问题下有平均100个回答
	       if (@answer_count%100==0)
		 question_id = random_question_id	
	       end

                 end
	end	
	rescue Exception => e
	  puts $!	
	end
end

# 批量生成问题浏览者集合
def batch_question_browser
end

# 随机返回一个问题id
def random_question_id
    question_id_arr = []
    index = 0
    File.open("question_id.txt") do |f| 
      f.each_line do |line| 
	 question_id_arr[index]=line
	 index = index + 1
      end 
    end
    question_id_arr[rand(question_id_arr.size-1)].chomp
end

# 随机返回一个回答id
def random_answer_id
end

# 随机返回一个email
def random_account_email
    account_email_arr = []
    index = 0
    File.open("account_email.txt") do |f| 
      f.each_line do |line| 
	 account_email_arr[index]=line
	 index = index + 1
      end 
    end
    account_email_arr[rand(account_email_arr.size-1)].chomp
end

# 生成随机数
def random_id(len)
	   chars = ("a".."z").to_a + ("a".."z").to_a + ("0".."9").to_a
	   random_id = ""
	   1.upto(len) { |i| random_id << chars[rand(chars.size-1)] }
	   return random_id
end

end

persistence = Persistence.new

1.times

puts "persistence question count : " + persistence.question_count.to_s

persistence.batch_account

1.times {|i| persistence.batch_answer }
puts "persistence answer count : " + persistence.answer_count.to_s

  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 270 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 又拍云

    又拍云是国内领先的 CDN 服务提供商,国家工信部认证通过的“可信云”,乌云众测平台认证的“安全云”,为移动时代的创业者提供新一代的 CDN 加速服务。

    20 引用 • 37 回帖 • 571 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖
  • Love2D

    Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。

    14 引用 • 53 回帖 • 563 关注
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    37 引用 • 157 回帖 • 2 关注
  • CodeMirror
    2 引用 • 17 回帖 • 175 关注
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    415 引用 • 3598 回帖
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    15 引用 • 7 回帖 • 1 关注
  • Sillot

    Insights(注意当前设置 master 为默认分支)

    汐洛彖夲肜矩阵(Sillot T☳Converbenk Matrix),致力于服务智慧新彖乄,具有彖乄驱动、极致优雅、开发者友好的特点。其中汐洛绞架(Sillot-Gibbet)基于自思源笔记(siyuan-note),前身是思源笔记汐洛版(更早是思源笔记汐洛分支),是智慧新录乄终端(多端融合,移动端优先)。

    主仓库地址:Hi-Windom/Sillot

    文档地址:sillot.db.sc.cn

    注意事项:

    1. ⚠️ 汐洛仍在早期开发阶段,尚不稳定
    2. ⚠️ 汐洛并非面向普通用户设计,使用前请了解风险
    3. ⚠️ 汐洛绞架基于思源笔记,开发者尽最大努力与思源笔记保持兼容,但无法实现 100% 兼容
    29 引用 • 25 回帖 • 134 关注
  • 旅游

    希望你我能在旅途中找到人生的下一站。

    100 引用 • 905 回帖
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    77 引用 • 37 回帖
  • sts
    2 引用 • 2 回帖 • 243 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    71 引用 • 535 回帖 • 830 关注
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    151 引用 • 257 回帖
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    6 引用 • 143 回帖
  • V2Ray
    1 引用 • 15 回帖 • 4 关注
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 563 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3202 引用 • 8217 回帖 • 1 关注
  • Anytype
    3 引用 • 31 回帖 • 28 关注
  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 656 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 1 关注
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 180 关注
  • PWL

    组织简介

    用爱发电 (Programming With Love) 是一个以开源精神为核心的民间开源爱好者技术组织,“用爱发电”象征开源与贡献精神,加入组织,代表你将遵守组织的“个人开源爱好者”的各项条款。申请加入:用爱发电组织邀请帖
    用爱发电组织官网:https://programmingwithlove.stackoverflow.wiki/

    用爱发电组织的核心驱动力:

    • 遵守开源守则,体现开源&贡献精神:以分享为目的,拒绝非法牟利。
    • 自我保护:使用适当的 License 保护自己的原创作品。
    • 尊重他人:不以各种理由、各种漏洞进行未经允许的抄袭、散播、洩露;以礼相待,尊重所有对社区做出贡献的开发者;通过他人的分享习得知识,要留下足迹,表示感谢。
    • 热爱编程、热爱学习:加入组织,热爱编程是首当其要的。我们欢迎热爱讨论、分享、提问的朋友,也同样欢迎默默成就的朋友。
    • 倾听:正确并恳切对待、处理问题与建议,及时修复开源项目的 Bug ,及时与反馈者沟通。不抬杠、不无视、不辱骂。
    • 平视:不诋毁、轻视、嘲讽其他开发者,主动提出建议、施以帮助,以和谐为本。只要他人肯努力,你也可能会被昔日小看的人所超越,所以请保持谦虚。
    • 乐观且活跃:你的努力决定了你的高度。不要放弃,多年后回头俯瞰,才会发现自己已经成就往日所仰望的水平。积极地将项目开源,帮助他人学习、改进,自己也会获得相应的提升、成就与成就感。
    1 引用 • 487 回帖 • 2 关注
  • Notion

    Notion - The all-in-one workspace for your notes, tasks, wikis, and databases.

    10 引用 • 77 回帖
  • Solidity

    Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。

    3 引用 • 18 回帖 • 445 关注
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    70 引用 • 193 回帖 • 409 关注
  • 新人

    让我们欢迎这对新人。哦,不好意思说错了,让我们欢迎这位新人!
    新手上路,请谨慎驾驶!

    52 引用 • 228 回帖 • 1 关注
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 120 关注