思源数据库 API/ 视频 RSS 源定制 / 视频笔记

想做个 rss 插件把 youtube、b 站、抖音订阅的数据抓下来存到思源数据库里,不过看了下官网 api 文档没找到相关的 api,这个有开发的安排计划吗?

=================================

开发好了,还不错,刷抖音不用一页页翻页了,页面直接播放,唯一的问题是往思源批量写数据的时候有点卡顿,尤其是大批量入库的时候,现在插入一条数据要调用五六次接口,希望版本快点更新

image.png

image.png

=================================

2024 年 8 月 5 日 08:44:49

实现了下 B 站和 Youtube 的视频笔记功能,数据入库-> 视频笔记-> 思维导图-> 模型树修剪,视频这块的工作流也打通了,思源数据库这块问题还是不少,之前说的问题等了两个版本都还没有修复

image.png

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    23014 引用 • 92573 回帖
3 操作
coriger 在 2024-08-05 08:57:23 更新了该帖
coriger 在 2024-06-01 11:14:12 更新了该帖
coriger 在 2024-06-01 11:04:14 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 88250

    目前已经有非正式发布的内部 API 支持数据库相关操作,比如添加/删除/排序数据库字段、获取所有字段、添加/删除/更新数据库字段值等,具体请参考 kernel/api/router.go 和 av.go 源文件。

    等这些 API 逐步稳定以后再编入文档,请关注 Issue #11130 · siyuan-note/siyuan

    1 回复
  • coriger
    作者

    好像没看到往数据库插数据的接口哦

    1 回复
  • rss 插件我写了一个惹,支持自定义 js 代码运行

    https://github.com/2234839/feed_siyuan_plugin

    2 回复
  • 88250

    addAttributeViewValues

    3 回复
  • coriger
    作者

    image.png

    数据库的 avId 只能在 f12 找到吗,之前一直用右键复制出来的 id 调用接口,才发现是 nodeId,我说这个数据怎么都取不到

    1 回复
  • coriger
    作者

    image.png

    image.png

    这个接口我想要同时插入其他几个字段的值要怎么传参,源码看的不是很明白,只看到 id/isDetached/content 这三个字段

    1 回复
  • coriger
    作者

    刚试了下 setAttributeViewBlockAttr 这个接口,难道只能通过这个接口一个个更新字段值?

    image.png

  • coriger
    作者

    b 站和抖音的 rss 源不稳定,之前拿 rsshub 二次开发本地起了个服务,不过太笨重了,现在直接写个浏览器插件劫持 api 拿报文数据,数据现在已经走通了,就差写入思源数据库了

  • 88250

    可以试试 searchAttributeView 搜索接口。

  • coriger
    作者

    而且 rsshub 里面去解析抖音这些网站要处理反作弊机制,很麻烦,浏览器里面搞省心,rsshub 里面大多数源都用不上,还是自己定制开发比较自由

  • 88250

    只能先用这个接口插入行,然后用 setAttributeViewBlockAttr 更新字段,目前只能一个值一个值更新。

    后续我们考虑一下提供创建时更新所有值的接口,谢谢。

    1 回复
  • coriger
    作者

    好的

    1 回复
  • coriger
    作者

    还有个问题,就是我针对状态这个字段进行更新,表里【源数据】这个是模版字段的内容,它会自动刷新一下,有些卡顿,但这个模版字段并不依赖状态这个字段,这个可以优化吗?

    image.png

    1 回复
  • coriger
    作者

    尤其是我一边看视频一遍在边上的备注框做笔记的时候,每次写完笔记页面就自动刷新,会中断视频播放image.png

  • 数据库目前是整个 DOM 刷新一次的,还没做到对单个条目刷新,所以就会这样

    关联:Issue #11612 · siyuan-note/siyuan

    哦,这个还是有点影响体验,它这个应该也是怕模版字段有依赖才强刷吧,不然局部更新其实没必要刷
    coriger
  • qiancang 3 评论

    调用接口往数据库里添加内容是比较慢的,比较快的做法是直接生成数据库的 json 文件,然后将这个数据库插入到文档中,可以参考这个 quicker 动作:表格文件转思源数据库 - by 浅沧 - 动作信息 - Quicker (getquicker.net)

    注意,往 av 文件夹里写文件的时候建议使用 putfile api,不然可能与思源内核产生读写冲突。

    嗯,昨天看了你这个脚本的实现,不过我这边是用浏览器插件实现,没法直接操作本地文件,除非我单独起一个服务中转下,搞得有点麻烦,还是等版本更新提供批量入库的接口,除非是要全量拉取,如果只是做增量入库请求量并不多,我前端入口再做下判断就好
    coriger
    @coriger putfile 不需要操作本地文件,是给思源 kernel 发文本就行,读写是由内核完成的。
    qiancang
    哦,好,我去看看
    coriger
  • coriger 1 赞同
    作者

    把视频搞成画中画,编辑的时候倒是不影响视频播放了,可以凑合的用

    image.png

  • 很多学习用户 也有非常强烈的 视频笔记需求

    • 快速把多平台视频 下载下来(或者支持在线学习 b 站 youtube, 抖音视频,更方便的是支持百度网盘阿里云盘的在线视频, 这样减少本地视频存储占用大量 笔记本电脑的空间问题)
    • 笔记软件内 观看视频的同时, 可以快速通过笔记 加时间戳 和 截图
    • 快速把视频的字幕拉下来
    • 用 ai 对视频字幕进行总结摘要和提问

    如果有哪位开发者提供思源类似的插件

    • 功德无量,愿意付费支持
    2 回复
  • coriger
    作者

    如果只是做视频笔记,记录时间戳截图这些还是很容易实现的,直接在浏览器打开思源,开个分屏,左边视频右边思源,然后写个浏览器插件读取当前左边窗口的视频 video 对象,拿到对象就可以拿到时间戳或者根据时间戳自动跳转,我自己日常主要是看 youtube 和 B 站基本够用,只要是能获取 video 对象不管什么网站都可以用这种方式做笔记,我自己的工作流一般还是先从抓取开始,先抓取数据,然后看情况哪些需要精读,再创建文档做视频笔记,至于 ai 那些还是要借助第三方平台

    image.png

  • coriger
    作者

    image.png

  • coriger
    作者

    试了下百度云,这种机制也是可以正常使用的,字幕、ai 那些就直接用百度云提供的就行

    image.png

  • Deyu

    您好,我正在研究数据采集 B 站收藏夹,实时放到思源里面;然后调用通义听悟 api,把视频转文字,做笔记;最后形成数据库,喂给 cursor。

    偶然看到您这三个都有研究,请问现在最新进展如何?想和您交流一下

    我原本是想着用 ob 做这件事,最后在导入到思源里。现在还在犹豫中

    1 回复
  • coriger
    作者

    你可以看下我这个帖子:思源视频笔记插件

    我自己用了半年,感觉大多数视频其实信息密度是比较低的,如果你是想把数据喂给 cursor 的话,我是建议不要基于文本而是基于问题来构建知识库,大部分视频内容本质上没有什么底层思维的东西,基本就是百科 + 废话的组合(当然我这里只是针对我常看的一些社科类的视频),拿这些文本数据不管做什么形式的笔记其实用处都不大,所以我自己是基于视频内容提炼核心问题,然后借助豆包之类的 ai 工具,结合视频内容以及一些书籍进行整合,把整合后的结论喂给 cursor

    打个比方,我在看三国演义第一章的时候,里面有句话叫“桓帝禁锢善类”,这个我会在思源全局搜索禁锢这个词,因为我已经把史记、资治通鉴、二十四史这些都导入到思源了,所以很快就能找到禁锢善类对应的史料,结合豆包基本就能把桓帝时期禁锢善类的前因后果了解个大概;比如刘关张自行招兵买马,我就会提出一个问题,比如东汉时期的人才政策,朝廷为什么允许州府、私人私自募兵,当然我知道是因为黄巾军,但是私自募兵后对于朝廷来说有什么影响,还有刘备先祖汉武帝时期坐酎金失侯,搜索下坐酎金失侯你会发现汉武帝时期有很多人都因为这个失候,再细致一看大概就明白为什么会这样,总之基于第一章的文本是可以提出很多这样的问题,但是这些问题都不是文本里直接体现的,视频也一样,我在看老版三国演义第一集的时候,说实在的,都没什么可做笔记的地方,它能把原著的情节完整体现出来就不容易了,还能有什么更深刻的东西

    所以我觉得大多数视频材料最多做一个时间戳引用放到文本里辅助阅读,是不太适合直接用它来搭建知识库的

请输入回帖内容 ...

推荐标签 标签

  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1063 引用 • 3454 回帖 • 189 关注
  • 七牛云

    七牛云是国内领先的企业级公有云服务商,致力于打造以数据为核心的场景化 PaaS 服务。围绕富媒体场景,七牛先后推出了对象存储,融合 CDN 加速,数据通用处理,内容反垃圾服务,以及直播云服务等。

    27 引用 • 225 回帖 • 163 关注
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    181 引用 • 400 回帖
  • Shell

    Shell 脚本与 Windows/Dos 下的批处理相似,也就是用各类命令预先放入到一个文件中,方便一次性执行的一个程序文件,主要是方便管理员进行设置或者管理用的。但是它比 Windows 下的批处理更强大,比用其他编程程序编辑的程序效率更高,因为它使用了 Linux/Unix 下的命令。

    123 引用 • 74 回帖 • 2 关注
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    692 引用 • 535 回帖
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    85 引用 • 165 回帖 • 2 关注
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 667 关注
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    23014 引用 • 92572 回帖
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 4 关注
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖
  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 216 关注
  • Facebook

    Facebook 是一个联系朋友的社交工具。大家可以通过它和朋友、同事、同学以及周围的人保持互动交流,分享无限上传的图片,发布链接和视频,更可以增进对朋友的了解。

    4 引用 • 15 回帖 • 440 关注
  • Docker

    Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的操作系统上。容器完全使用沙箱机制,几乎没有性能开销,可以很容易地在机器和数据中心中运行。

    492 引用 • 926 回帖
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    90 引用 • 59 回帖 • 1 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    41 引用 • 130 回帖 • 253 关注
  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。

    63 引用 • 134 回帖 • 724 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    52 引用 • 190 回帖 • 1 关注
  • Vue.js

    Vue.js(读音 /vju ː/,类似于 view)是一个构建数据驱动的 Web 界面库。Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。

    265 引用 • 666 回帖 • 1 关注
  • 尊园地产

    昆明尊园房地产经纪有限公司,即:Kunming Zunyuan Property Agency Company Limited(简称“尊园地产”)于 2007 年 6 月开始筹备,2007 年 8 月 18 日正式成立,注册资本 200 万元,公司性质为股份经纪有限公司,主营业务为:代租、代售、代办产权过户、办理银行按揭、担保、抵押、评估等。

    1 引用 • 22 回帖 • 772 关注
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖
  • Love2D

    Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。

    14 引用 • 53 回帖 • 538 关注
  • Solidity

    Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。

    3 引用 • 18 回帖 • 401 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    51 引用 • 25 回帖
  • 反馈

    Communication channel for makers and users.

    123 引用 • 913 回帖 • 250 关注
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    22 引用 • 22 回帖
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 584 关注