长文本处理需求 - 百万字小说

本贴最后更新于 524 天前,其中的信息可能已经时异事殊

嗯,我尝试提一下需求吧,告诉一下各位有这个需求,以及理由,并尝试探讨如何解决。

我发现思源其实按理来说比较适合看书,但是,一直没啥机会用,最近尝试导入 txt 文本看书,然后就发现需求了。

  1. 首先就是章节,我不太可能一个个去设置为一级标题,这样看目录就不太方便。
  2. 其次,有点卡(当然只是导入,以及大幅度翻页的时候会容易卡,但还可以接受。)
  3. 双页阅读,我这人比较喜欢双页,这样更适合大屏,以及眼睛活动,还能减少操作幅度。(不过这样可能就不太适合上下滚动翻页,就比较需要翻页。)
  4. 其实按理说,如果我在各类正版网站看是没问题的,我也经常看,花了不少钱,但是我总觉得,那些书,我看了,仍然不是我的,书籍以本地形式存储更有一种安心的感觉,类似放在家里书房,闲着没事就来看看。
  5. 书页宽度,我知道能改,但难道每次看书我都要改,不看又要改回来吗,这也是我说要双页阅读的原因,这样不管怎么样起码不会看着看着丢行。
  6. 其实按理来说,如果接入开源阅读会是个比较好的选择,可惜那个无 pc 版,而且如果以浏览器访问,效果不太好。
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    25230 引用 • 104049 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 你这些需求不太建议用思源实现,还是看看有没有其他替代品吧

    1 回复
  • 纯 txt 的直接用专门的 APP 看就行了,阅读啥的。如果要导入思源看,就要先在外面预处理一下,这种也很多教程,批量替换啥的,加上标题、分开章节甚至分开文档。

    1 回复
  • 5Z4Uo6oGvKPB7o 2 赞同

    你的需求内容是一款阅读器的功能。思源是笔记软件,可能不太适合。

    可以考虑 txt 导入微信读书,移动端 + 网页端阅读体验都挺好的,而且可以自动同步阅读进度(这一点思源笔记也做不到)。读完后结合思源笔记集市的【微信读书】插件,可以同步划线笔记等内容。

    1 回复
  • 😄 我之前想这样看,结果发现太弱了。后来还是在 word 里面看

    替换格式把带章节的替换成标题格式、也支持双页

    1 回复
  • ebird98 via Linux

    我曾经处理过,用替换功能,将章节名替换为 思源的标题,这样思源的大纲就是书的目录了,然后导出 epub…剩下的就是阅读器的事了。

    1 回复
  • player via Linux

    各个地方下载的 txt 都不太一样,如何识别标题都不一定。我都是看情况改改自己之前的 py 脚本。做成 md,然后决定导入 sy 或者制作为 epub。

    1 回复
  • abbj 1 赞同

    我在 chatgpt 的帮助下写了一个类似的脚本

  • yunlunnnn

    是的,我现在就是使用微信读书,以及起点,其实问题也在这,微信读书不存在 pc 端,网页端也存在使用不太方便的问题(比如只能设置字体大小,起点也是类似,导致我只想在手机看,大屏单页阅读实在过于难受),能用,但不好用的那种,我也尝试过模拟器,但是实在是模拟器启动过慢,并且很臃肿。

    1 回复
  • yunlunnnn

    我用过开源阅读,貌似标题方面每本书都存在不同,所以就存在问题,pc 端有些阅读器貌似识别的很好,但是总有某方面不太尽人意,比如同步等

  • yunlunnnn

    这似乎也是个好方法,但是如果看的时候突然想到什么,应该就会比较难处理,可能就会存在哪一天没打开思源,只能随便找个地方记,然后后期还需要转移笔记的情况,或者需要提前在思源创建该书籍的文档,但是这样可能会在某次忘记创建,然后就想到一些灵感,然后因为创建文档空隙,然后不小心忘记灵感

    1 回复
  • yunlunnnn

    所以只是尝试询问,不太好解决的话其实也不太影响,只是我觉得这是一个可能的思路。

  • yunlunnnn

    是的,的确是,主要是没太找到比较好的 pc 端阅读器,有些比较小众的,pc 和 pe 方面的同步存在一定问题,所以也在找

  • yunlunnnn

    主要是现在网页端的阅读网站都总有一种 pc 与狗不得入内的感觉,不好用。

  • 用微信读书即可

  • 可以试试油猴脚本 微信读书 (greasyfork.org)

    image.png

    1 回复
  • 我是这样使用的,思源作为一个笔记整理结果的汇集地,其他零散的记录在别的地方,比如浏览器剪藏、备忘录、word、pdf 等等。

    这种长文本的我个人习惯是在 word 中处理,可以加背景、调顺序、变颜色、写批注(这个批注用来记疑惑、灵感等),整个常文本都读完之后再根据标记的这些内容读一遍,然后没啥问题了往思源整理,这个时候疑惑、灵感都有了回答

    1 回复
  • calibre + koreader. 这套组合的唯一缺点是没有覆盖 ios

    1 回复
  • yunlunnnn

    好的,感谢

  • yunlunnnn 1 赞同

    主要是觉得分散在各个软件处理太多麻烦,不太喜欢做太多无意义的事,并且很多时候会存在很大局限性,所以宁愿接受一点功能降级,也想尝试一站式解决问题,现在看来确实要求有些高了,不过我觉得未来会有的。

    1 回复
  • yunlunnnn

    好的,我会尝试一下的。

  • 看到思源集市这个插件预览图,好像可以实现双页浏览,可以试试。

    关于 txt 内容章节设置标题,我的方法是在 sublime 中使用正则表达式批量替换的。比如有的书籍是“第一章”“第一节”,那就替换成“# 第一章”“## 第一节”,另存为 md 格式,导入思源笔记就可以。

    image.png

    这是以前替换标题时常用的几组正则表达式

    image.png

  • 一站式很难,而且即便出来了一站式的软件 成本上 普通用户也接受不了,属于富人不愿意买 穷人买不起的情况。这样还不如自己开发

  • sky2023

    看书建议用看书软件

请输入回帖内容 ...

推荐标签 标签

  • Facebook

    Facebook 是一个联系朋友的社交工具。大家可以通过它和朋友、同事、同学以及周围的人保持互动交流,分享无限上传的图片,发布链接和视频,更可以增进对朋友的了解。

    4 引用 • 15 回帖 • 440 关注
  • Excel
    31 引用 • 28 回帖 • 3 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖 • 2 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖 • 1 关注
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 643 关注
  • IPFS

    IPFS(InterPlanetary File System,星际文件系统)是永久的、去中心化保存和共享文件的方法,这是一种内容可寻址、版本化、点对点超媒体的分布式协议。请浏览 IPFS 入门笔记了解更多细节。

    21 引用 • 245 回帖 • 227 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖 • 1 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    180 引用 • 408 回帖 • 489 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 75 关注
  • 生活

    生活是指人类生存过程中的各项活动的总和,范畴较广,一般指为幸福的意义而存在。生活实际上是对人生的一种诠释。生活包括人类在社会中与自己息息相关的日常活动和心理影射。

    230 引用 • 1454 回帖
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    199 引用 • 542 回帖 • 1 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    245 引用 • 1338 回帖
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 3 关注
  • 30Seconds

    📙 前端知识精选集,包含 HTML、CSS、JavaScript、React、Node、安全等方面,每天仅需 30 秒。

    • 精选常见面试题,帮助您准备下一次面试
    • 精选常见交互,帮助您拥有简洁酷炫的站点
    • 精选有用的 React 片段,帮助你获取最佳实践
    • 精选常见代码集,帮助您提高打码效率
    • 整理前端界的最新资讯,邀您一同探索新世界
    488 引用 • 384 回帖 • 10 关注
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    6 引用 • 141 回帖 • 1 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    58 引用 • 25 回帖
  • 996
    13 引用 • 200 回帖 • 2 关注
  • OnlyOffice
    4 引用 • 20 关注
  • 架构

    我们平时所说的“架构”主要是指软件架构,这是有关软件整体结构与组件的抽象描述,用于指导软件系统各个方面的设计。另外还有“业务架构”、“网络架构”、“硬件架构”等细分领域。

    143 引用 • 442 回帖 • 2 关注
  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    35 引用 • 200 回帖 • 31 关注
  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 668 关注
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    90 引用 • 59 回帖 • 5 关注
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    25230 引用 • 104046 回帖
  • Mobi.css

    Mobi.css is a lightweight, flexible CSS framework that focus on mobile.

    1 引用 • 6 回帖 • 759 关注
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖 • 1 关注
  • ZeroNet

    ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。

    1 引用 • 21 回帖 • 647 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    498 引用 • 1395 回帖 • 249 关注