Jsoup 的简单的使用示例

本贴最后更新于 2910 天前,其中的信息可能已经东海扬尘

利用 Jsoup 中的相关方法实现网页中的数据爬去,本例子爬去的网页为比较流行的 programmableweb 中的 mashup 描述内容,然后为数据库中存在的 mashup 添加相应的描述。

package com.test; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.jsoup.Jsoup; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import com.bean.mashup_tags_apis; import com.daoImpl.MashupDaoImpl; public class JsoupTest { /** * @param args */ public static void main(String[] args) { List<String> mashupName = new ArrayList<String>(); List<String> mashupDescription = new ArrayList<String>(); MashupDaoImpl mashupDaoImpl = new MashupDaoImpl(); List<mashup_tags_apis> mashup_tags_apis = mashupDaoImpl .findAllmashup_tags_apis(); try { // 获取网页内容,从第二页开始,第1页特殊处理 for (int p = 220; p < 365; p++) { System.out.println("正在爬取第" + p + "个页面........"); org.jsoup.nodes.Document doc = Jsoup.connect("http://www.programmableweb.com/mashups/directory/" + p).get(); // 通过ID获得需要的表格 Element content = doc.getElementById("mashups"); // 按照[href*=/mashup/]取得数据 Elements name = content.select("[href*=/mashup/]"); // 踢出版本信息 String RegexMatcher = "[\\d.]+"; // 向mashupName集合中添加名字 for (int i = 0; i < name.size(); i++) { String Name = name.get(i).text(); if (name.get(i).hasText() && !Name.matches(RegexMatcher)) { mashupName.add(Name); } } // 取得描述信息 Elements description = content.getElementsByTag("p"); // 向mashupDescription集合中添加描述信息 for (Element descri : description) { String Comment = descri.text(); if (p == 1) { // 第一页处理方式(名字和描述都为空) if (Comment != null && Comment.length() > 2) { if (Comment != null) { mashupDescription.add(Comment); } } } else { // 从第二页开始处理方式,描述为空用NoDescriptions占位 if (Comment == null) { Comment = "NoDescriptions"; } mashupDescription.add(Comment); } } // 更新数据库 for (int i = 0; i < mashupName.size(); i++) { String Name = mashupName.get(i); for (int j = 0; j < mashup_tags_apis.size(); j++) { if (Name.equals(mashup_tags_apis.get(j).getName())) { String destrcipString = mashupDescription.get(i); if (Name != null && destrcipString != null) { if (!mashupDaoImpl.updateMashup_tags_apis( destrcipString, Name)) { System.out.println("更新失败!"); } } } } } // 清空集合爬取下一个页面 mashupDescription.clear(); mashupName.clear(); System.out.println("第---------" + p + "---------个页面完成!\n"); } } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } // 显示输出查看是否正确 // for (int i = 0; i < mashupName.size(); i++) { // System.out.println((i + 1) + " " + mashupName.get(i)); // } // // for (int j = 0; j < mashupDescription.size(); j++) { // System.out.println((j + 1) + " " + mashupDescription.get(j)); // } System.out.println("恭喜您,描述添加成功!"); } }

这也是我第一次是使用 Jsoup,还是有很多东西等待自己慢慢发现......

  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 490 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3201 引用 • 8216 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    211 引用 • 358 回帖
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 402 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖
  • 音乐

    你听到信仰的声音了么?

    62 引用 • 512 回帖
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 675 关注
  • abitmean

    有点意思就行了

    34 关注
  • 安全

    安全永远都不是一个小问题。

    199 引用 • 818 回帖
  • 强迫症

    强迫症(OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的神经精神疾病,其特点为有意识的强迫和反强迫并存,一些毫无意义、甚至违背自己意愿的想法或冲动反反复复侵入患者的日常生活。

    15 引用 • 161 回帖 • 2 关注
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 182 关注
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 464 关注
  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    4 引用 • 7 回帖 • 5 关注
  • JVM

    JVM(Java Virtual Machine)Java 虚拟机是一个微型操作系统,有自己的硬件构架体系,还有相应的指令系统。能够识别 Java 独特的 .class 文件(字节码),能够将这些文件中的信息读取出来,使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。

    180 引用 • 120 回帖 • 4 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    24 引用 • 242 回帖 • 2 关注
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 605 关注
  • OpenStack

    OpenStack 是一个云操作系统,通过数据中心可控制大型的计算、存储、网络等资源池。所有的管理通过前端界面管理员就可以完成,同样也可以通过 Web 接口让最终用户部署资源。

    10 引用 • 1 关注
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    117 引用 • 99 回帖 • 196 关注
  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    54 引用 • 37 回帖 • 2 关注
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 50 关注
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    5 引用 • 16 回帖 • 1 关注
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    947 引用 • 1460 回帖
  • Swift

    Swift 是苹果于 2014 年 WWDC(苹果开发者大会)发布的开发语言,可与 Objective-C 共同运行于 Mac OS 和 iOS 平台,用于搭建基于苹果平台的应用程序。

    34 引用 • 37 回帖 • 553 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    53 引用 • 190 回帖
  • Vue.js

    Vue.js(读音 /vju ː/,类似于 view)是一个构建数据驱动的 Web 界面库。Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。

    268 引用 • 666 回帖 • 1 关注
  • PWA

    PWA(Progressive Web App)是 Google 在 2015 年提出、2016 年 6 月开始推广的项目。它结合了一系列现代 Web 技术,在网页应用中实现和原生应用相近的用户体验。

    14 引用 • 69 回帖 • 184 关注
  • 又拍云

    又拍云是国内领先的 CDN 服务提供商,国家工信部认证通过的“可信云”,乌云众测平台认证的“安全云”,为移动时代的创业者提供新一代的 CDN 加速服务。

    20 引用 • 37 回帖 • 577 关注
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 645 关注