记一次 PDF/WORD 文档的读取实现

本贴最后更新于 1760 天前,其中的信息可能已经时移世异

引言: 还是发个帖子记录一下吧。

1. POI 读取 MS 的 Office (word/excel)

2.

3. LingPipe 深度剖析 是种解决办法吗?

lingpipe 是 alias 公司开发的一款自然语言处理软件包。提供了文本分类,命名体识别、情感分类、中文分词、词性标注、拼写检查、聚类等一系列的 NLP 算法接口,最近工作也需要用到这个工具,于是深入调研了一把,下面是一些本人的总结。
LingPipe 深度剖析

4. PDFBOX

  • PDF
    26 引用 • 36 回帖 • 1 关注
  • Word
    11 引用 • 38 回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • PeterChu
    作者

    LingPipe 诗词情感分类 Demo: https://github.com/Aemerso/LingPipeDemo

  • 其他回帖
  • PeterChu
    作者

    image.png

    image.png

    很棒哦,完美躲过了正确识别啊,666

  • PeterChu
    作者

    😑 小老弟怎么肥四啊,问题还没解决,却已经想好搭建一个工具平台实现变现了啊,接下来是不是可以实现小目标,迎娶白富美了啊

  • PeterChu
    作者

    多关键词匹配

  • 查看全部回帖