安利一个贼强的 pdf 转 markdown 工具 doc2x

本贴最后更新于 181 天前,其中的信息可能已经东海扬尘

安利一个好东西 doc2x,可以把 pdf 直接转成 markdown,扫描的 pdf 也行

流程大概这个样子,doc2xpdf 识别转 markdown 然后导入思源,稍作排版,太舒服了,简单的格式排版之后堪比原书的排版

doc2x 的网址:https://doc2x.com

一个手机号免费转 500 页,如果有邀请码有五天的 pro 会员可以转 1000 页,后面邀请别人可以获得 5 天的 pro 会员时常,就是一天能转 1000 页的。不过这个年头谁还没有几个手机号是吧。。。

下图是一本概率论的 pdf 转 markdown 之后导入思源笔记之后的排版效果

image.png

doc2x 的公式识别贼准,还能识别图片,比如下图这种

image.png

目前发现有几个小缺点:

  1. 有些表格可能会用 html 的表格标记标记出来
  2. 标题的层级容易识别错误,基本所有标题识别出来都是二级标题
  3. 对于排版格式很花哨的标题识别效果不是特别好,比如标题前面有个手指头指着那种。。。。。每次看得眼花缭乱的,咱也不知道这种排版的好处在哪里,咱也不敢问。

不过这两个小问题都很简单

第一个就抽取出来交给 gpt 让他帮你修改一下

第二个就正则匹配一下各级标题给一下各级标题的排版就好,我用的是 vscode,里面支持正则匹配然后替换,这样就不用写代码了 hhhh,没试过其他编辑器不过应该也可以的把。,比如下图的把章节修改为一级标题。

image.png

下面是一段我写的抽取<table></table> 表格然后转化为 markdown 表格的代码,大家有需要的话自己拿去改一改哈。

import re
import asyncio
from tqdm import tqdm
from openai import AsyncOpenAI
import openai

# 确保你有 OpenAI 的 API 密钥
openai.api_key = "sk-xxxxxxxxxxxxx"
openai.base_url = "https://xxxxxxxxxxx"
openai.default_headers = {"x-foo": "true"}

client = AsyncOpenAI(api_key=openai.api_key, base_url=openai.base_url, default_headers=openai.default_headers)

MAX_WORKERS = 60
MAX_RETRIES = 3  # 最大重试次数
bar = tqdm(total=0)

async def get_markdown(data):
    data = data.replace("```markdown", "")
    data = data.replace("```", "")
    return data

async def chat_with_gpt4(semaphore, messages):
    async with semaphore:
        try:
            completion = await client.chat.completions.create(
                model="gpt-4o",
                messages=messages,
                temperature=0.6
            )
            answer = completion.choices[0].message.content
            return answer
        except Exception as e:
            print(f"GLM-4-Air 调用错误: {e}")
            return None

async def process_table_async(semaphore, table_html, retry_count=0):
    prompt = """
    你需要将我所给你的内容转换为markdown表格,只用输出markdown文本,不用做任何解释
    """
    try:
        answer_text = await chat_with_gpt4(
            semaphore,
            [
                {"role": "system", "content": prompt},
                {"role": "user", "content": table_html}
            ]
        )
        markdown_table = await get_markdown(answer_text)

        if not markdown_table and retry_count < MAX_RETRIES:
            return await process_table_async(semaphore, table_html, retry_count + 1)
        bar.update(1)
        return markdown_table
    except Exception as e:
        print(e)
        if retry_count < MAX_RETRIES:
            return await process_table_async(semaphore, table_html, retry_count + 1)
        else:
            return None

def replace_table_contents(markdown_content):
    table_pattern = re.compile(r'(<table.*?>.*?</table>)', re.DOTALL)
    semaphore = asyncio.Semaphore(MAX_WORKERS)

    async def process_all_tables(tables):
        tasks = [process_table_async(semaphore, table) for table in tables]
        return await asyncio.gather(*tasks)

    tables = table_pattern.findall(markdown_content)
    bar.total = len(tables)
    processed_tables = asyncio.run(process_all_tables(tables))
  
    for original, processed in zip(tables, processed_tables):
        if processed:
            markdown_content = markdown_content.replace(original, processed)
  
    return markdown_content

if __name__ == "__main__":
    markdown_file_name = "MD概率论与数理统计 第五版\概率论与数理统计 第五版.md"
    out_put_file_name = "MD概率论与数理统计 第五版\概率论与数理统计 第五版out.md"
    with open(markdown_file_name,"r",encoding="utf-8") as f:
        markdown_content = f.read()
    # 处理 HTML 内容
    processed_content = replace_table_contents(markdown_content)
    with open(out_put_file_name,"w",encoding="utf-8") as f:
        f.write(processed_content)

最后,doc2x 里面还有一个 pdf 翻译的功能,虽然我不咋用得到,但是真的好强呀,比如下面几个图

到处原文和译文的

a03e6ca692036f81e871e7266ffd302.png

直接导出译文的

a676d471a6f0cc1d3858459a02e2bbb.png

8122156cc8e2911b3d8012bbdbc263b.png

1d326adf18423ccf720987748b5d7ae.png

  • doc2x
    2 引用 • 3 回帖
  • 工具

    子曰:“工欲善其事,必先利其器。”

    288 引用 • 735 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • FlowUs

    FlowUs.息流 个人及团队的新一代生产力工具。

    让复杂的信息管理更轻松、自由、充满创意。

    1 引用 • 1 关注
  • FFmpeg

    FFmpeg 是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。

    23 引用 • 32 回帖
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 6 关注
  • GAE

    Google App Engine(GAE)是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月 发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。

    14 引用 • 42 回帖 • 777 关注
  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    138 引用 • 203 回帖
  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    728 引用 • 1275 回帖
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    16 引用 • 130 回帖 • 2 关注
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    22 引用 • 22 回帖
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 752 关注
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 676 关注
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    117 引用 • 99 回帖 • 213 关注
  • abitmean

    有点意思就行了

    32 关注
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    29 引用 • 66 回帖
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 332 关注
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 160 关注
  • Notion

    Notion - The all-in-one workspace for your notes, tasks, wikis, and databases.

    7 引用 • 40 回帖 • 1 关注
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    34 引用 • 150 回帖
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    70 引用 • 193 回帖 • 411 关注
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    85 引用 • 139 回帖
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    247 引用 • 1348 回帖
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 532 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 311 关注
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    132 引用 • 796 回帖
  • 职场

    找到自己的位置,萌新烦恼少。

    127 引用 • 1706 回帖
  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 98 关注
  • 周末

    星期六到星期天晚,实行五天工作制后,指每周的最后两天。再过几年可能就是三天了。

    14 引用 • 297 回帖