我又不少资料在思源里面,我打算用它做个 cursor 的知识库,类似的案例是 obsidian+cursor。
现在存在一个问题,ob 的数据他是.md 明文存储的,直接可读,思源的加密了。
这个选择自己的文件不加密吗?
或者有办法让 cursor 获取吗?
我又不少资料在思源里面,我打算用它做个 cursor 的知识库,类似的案例是 obsidian+cursor。
现在存在一个问题,ob 的数据他是.md 明文存储的,直接可读,思源的加密了。
这个选择自己的文件不加密吗?
或者有办法让 cursor 获取吗?
这也是我所担忧的,未来与开放式的 AI 交互肯定是基于 md 格式的。
思源有没有什么比较好的办法?比如提供一个孪生 md 库,实时或者定时更新。
这种孪生关系应是单向的,也就是对 json 的修改会改变 md,但对 md 的修改不会改变 json,md 始终向 json 看齐。
至于要用 AI 对 md 润色,怎么作用到 json 上?最简单的方式就是直接全文覆盖,由此带来的块 id 的改变,双链的丢失由用户自己负责。毕竟 AI 本来就是用来处理纯 md,就不应该有什么双链、块 id 之类的东西。
或者针对 AI 润色这样来考虑。保证 AI 润色后,段落数量保持不变,这样就能让新旧段落一对一替换而不改变块 id。但 AI 有幻觉现象,这样做还是要谨慎。谨慎一点的话,还是让用户一段一段地确认。
我这里有个办法,也是我最近在做的,cursor 里面有个 Docs 功能,可以添加网址,它会自动去抓网站里的页面进行索引,类似 Algolia 的爬虫,操作如下,试了下
网站我是直接用 vuepress2-reco 搭的直接在 github 上自动发布,本来也是打算按之前几位说的,从思源导出 markdown 然后扔到 github 上,但是这样的话就有两份数据,而且我还打算在网站上对数据进行二次更新,所以数据同步这块是一个问题
不过想了想其实是可以直接写个组件对接思源的 API,下午写了个简单页面,如下图,左边菜单右边文章内容,每篇文档提供单独一个 url,这样 cursor 就能爬取思源的全量数据,笔记还是在思源里维护,搭了个外链分享平台,让第三方抓取,数据有更新直接让 cursor 重新抓取就可以了,不存在多份数据不同步的问题
不过 cursor 这个基于 Docs 检索的功能,刚刚检索的时候居然说还要排队,要充值 Pro 提速,本来只是想开发一个外链平台把数据喂给 IMA 的,现在这个也算是多一个选择吧
不过它这里有个问题是不会关联出处,差点意思
思源自带的那个 web 端肯定是不行,没有给每个文档搞一个 url,抓不到,一般那种爬虫是从根目录找页面里内容和链接,一层一层的抓,你看下 Algolia 的配置就明白了,思源没有这个
我之前用 IMA 的时候,它本身是基于浏览器开发的,所以可以在里面直接打开思源的地址,然后可以直接一键把当前页加入到它的知识库,不过因为思源没有独立的 url,所以就很蛋疼了,而且有些 ai 助手的一键总结也会因为这个问题导致无法正常使用,所以想还是要自己搭个平台,把思源当成一个数据库,直接对接思源的 api 就行了
而且,如果像 cusor 这样是按站点爬取的方式,其实后续可以单独写个页面,从思源查询最近更新过的文档列表,这样让 cusor 只抓这个页面里的数据做增量更新即可
是的,不过前提是自己提交的内容要高质量一点,像那种直接扔一本书什么的,不太行,还是需要一定的加工
尤其是一些还没有形成体系化的总结心得之类的,像以往基本上隔个一两天就忘了,如果说自己重头再去翻笔记效率很差,直接在知识库里语义搜索基本可以原封不动把当时思考的东西重载回来,这个是任何传统笔记都做不到的,非常适合爱思考的懒人
Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。
MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。
Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。
C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。
Shell 脚本与 Windows/Dos 下的批处理相似,也就是用各类命令预先放入到一个文件中,方便一次性执行的一个程序文件,主要是方便管理员进行设置或者管理用的。但是它比 Windows 下的批处理更强大,比用其他编程程序编辑的程序效率更高,因为它使用了 Linux/Unix 下的命令。
记录并分享人生的经历。
互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。
Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。
域名(Domain Name),简称域名、网域,是由一串用点分隔的名字组成的 Internet 上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。
etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。
NetBeans 是一个始于 1997 年的 Xelfi 计划,本身是捷克布拉格查理大学的数学及物理学院的学生计划。此计划延伸而成立了一家公司进而发展这个商用版本的 NetBeans IDE,直到 1999 年 Sun 买下此公司。Sun 于次年(2000 年)六月将 NetBeans IDE 开源,直到现在 NetBeans 的社群依然持续增长。
Communication channel for makers and users.
Office 现已更名为 Microsoft 365. Microsoft 365 将高级 Office 应用(如 Word、Excel 和 PowerPoint)与 1 TB 的 OneDrive 云存储空间、高级安全性等结合在一起,可帮助你在任何设备上完成操作。
Laravel 是一套简洁、优雅的 PHP Web 开发框架。它采用 MVC 设计,是一款崇尚开发效率的全栈框架。
Notion - The all-in-one workspace for your notes, tasks, wikis, and databases.
JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。
发布对别人有帮助的原创内容是最好的 SEO 方式。
愿逝者安息!
IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。
GitLab 是利用 Ruby 一个开源的版本管理系统,实现一个自托管的 Git 项目仓库,可通过 Web 界面操作公开或私有项目。
Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。
WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。
昆明尊园房地产经纪有限公司,即:Kunming Zunyuan Property Agency Company Limited(简称“尊园地产”)于 2007 年 6 月开始筹备,2007 年 8 月 18 日正式成立,注册资本 200 万元,公司性质为股份经纪有限公司,主营业务为:代租、代售、代办产权过户、办理银行按揭、担保、抵押、评估等。
黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。
A second brain, for you, forever.
ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于