记一次 PDF/WORD 文档的读取实现

本贴最后更新于 1960 天前,其中的信息可能已经时移世异

引言: 还是发个帖子记录一下吧。

1. POI 读取 MS 的 Office (word/excel)

2.

3. LingPipe 深度剖析 是种解决办法吗?

lingpipe 是 alias 公司开发的一款自然语言处理软件包。提供了文本分类,命名体识别、情感分类、中文分词、词性标注、拼写检查、聚类等一系列的 NLP 算法接口,最近工作也需要用到这个工具,于是深入调研了一把,下面是一些本人的总结。
LingPipe 深度剖析

4. PDFBOX

  • PDF
    29 引用 • 43 回帖 • 1 关注
  • Word
    13 引用 • 40 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
请输入回帖内容 ...