思源数据库 API/ 视频 RSS 源定制 / 视频笔记

本贴最后更新于 247 天前,其中的信息可能已经时移世异

想做个 rss 插件把 youtube、b 站、抖音订阅的数据抓下来存到思源数据库里,不过看了下官网 api 文档没找到相关的 api,这个有开发的安排计划吗?

=================================

开发好了,还不错,刷抖音不用一页页翻页了,页面直接播放,唯一的问题是往思源批量写数据的时候有点卡顿,尤其是大批量入库的时候,现在插入一条数据要调用五六次接口,希望版本快点更新

image.png

image.png

=================================

2024 年 8 月 5 日 08:44:49

实现了下 B 站和 Youtube 的视频笔记功能,数据入库-> 视频笔记-> 思维导图-> 模型树修剪,视频这块的工作流也打通了,思源数据库这块问题还是不少,之前说的问题等了两个版本都还没有修复

image.png

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    24973 引用 • 102868 回帖 • 1 关注
3 操作
coriger 在 2024-08-05 08:57:23 更新了该帖
coriger 在 2024-06-01 11:14:12 更新了该帖
coriger 在 2024-06-01 11:04:14 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 88250

    目前已经有非正式发布的内部 API 支持数据库相关操作,比如添加/删除/排序数据库字段、获取所有字段、添加/删除/更新数据库字段值等,具体请参考 kernel/api/router.go 和 av.go 源文件。

    等这些 API 逐步稳定以后再编入文档,请关注 Issue #11130 · siyuan-note/siyuan

    1 回复
  • coriger
    作者

    好像没看到往数据库插数据的接口哦

    1 回复
  • 88250

    addAttributeViewValues

    3 回复
  • coriger
    作者

    image.png

    数据库的 avId 只能在 f12 找到吗,之前一直用右键复制出来的 id 调用接口,才发现是 nodeId,我说这个数据怎么都取不到

    1 回复
  • coriger
    作者

    image.png

    image.png

    这个接口我想要同时插入其他几个字段的值要怎么传参,源码看的不是很明白,只看到 id/isDetached/content 这三个字段

    1 回复
  • coriger
    作者

    刚试了下 setAttributeViewBlockAttr 这个接口,难道只能通过这个接口一个个更新字段值?

    image.png

  • coriger
    作者

    b 站和抖音的 rss 源不稳定,之前拿 rsshub 二次开发本地起了个服务,不过太笨重了,现在直接写个浏览器插件劫持 api 拿报文数据,数据现在已经走通了,就差写入思源数据库了

  • 88250

    可以试试 searchAttributeView 搜索接口。

  • coriger
    作者

    而且 rsshub 里面去解析抖音这些网站要处理反作弊机制,很麻烦,浏览器里面搞省心,rsshub 里面大多数源都用不上,还是自己定制开发比较自由

  • 88250

    只能先用这个接口插入行,然后用 setAttributeViewBlockAttr 更新字段,目前只能一个值一个值更新。

    后续我们考虑一下提供创建时更新所有值的接口,谢谢。

    1 回复
  • coriger
    作者

    好的

    1 回复
  • coriger
    作者

    还有个问题,就是我针对状态这个字段进行更新,表里【源数据】这个是模版字段的内容,它会自动刷新一下,有些卡顿,但这个模版字段并不依赖状态这个字段,这个可以优化吗?

    image.png

    1 回复
  • coriger
    作者

    尤其是我一边看视频一遍在边上的备注框做笔记的时候,每次写完笔记页面就自动刷新,会中断视频播放image.png

  • 数据库目前是整个 DOM 刷新一次的,还没做到对单个条目刷新,所以就会这样

    关联:Issue #11612 · siyuan-note/siyuan

    哦,这个还是有点影响体验,它这个应该也是怕模版字段有依赖才强刷吧,不然局部更新其实没必要刷
    coriger
  • qiancang 3 评论

    调用接口往数据库里添加内容是比较慢的,比较快的做法是直接生成数据库的 json 文件,然后将这个数据库插入到文档中,可以参考这个 quicker 动作:表格文件转思源数据库 - by 浅沧 - 动作信息 - Quicker (getquicker.net)

    注意,往 av 文件夹里写文件的时候建议使用 putfile api,不然可能与思源内核产生读写冲突。

    嗯,昨天看了你这个脚本的实现,不过我这边是用浏览器插件实现,没法直接操作本地文件,除非我单独起一个服务中转下,搞得有点麻烦,还是等版本更新提供批量入库的接口,除非是要全量拉取,如果只是做增量入库请求量并不多,我前端入口再做下判断就好
    coriger
    @coriger putfile 不需要操作本地文件,是给思源 kernel 发文本就行,读写是由内核完成的。
    qiancang
    哦,好,我去看看
    coriger
  • coriger 1 赞同
    作者

    把视频搞成画中画,编辑的时候倒是不影响视频播放了,可以凑合的用

    image.png

  • 很多学习用户 也有非常强烈的 视频笔记需求

    • 快速把多平台视频 下载下来(或者支持在线学习 b 站 youtube, 抖音视频,更方便的是支持百度网盘阿里云盘的在线视频, 这样减少本地视频存储占用大量 笔记本电脑的空间问题)
    • 笔记软件内 观看视频的同时, 可以快速通过笔记 加时间戳 和 截图
    • 快速把视频的字幕拉下来
    • 用 ai 对视频字幕进行总结摘要和提问

    如果有哪位开发者提供思源类似的插件

    • 功德无量,愿意付费支持
    2 回复
  • coriger
    作者

    如果只是做视频笔记,记录时间戳截图这些还是很容易实现的,直接在浏览器打开思源,开个分屏,左边视频右边思源,然后写个浏览器插件读取当前左边窗口的视频 video 对象,拿到对象就可以拿到时间戳或者根据时间戳自动跳转,我自己日常主要是看 youtube 和 B 站基本够用,只要是能获取 video 对象不管什么网站都可以用这种方式做笔记,我自己的工作流一般还是先从抓取开始,先抓取数据,然后看情况哪些需要精读,再创建文档做视频笔记,至于 ai 那些还是要借助第三方平台

    image.png

  • coriger
    作者

    image.png

  • coriger
    作者

    试了下百度云,这种机制也是可以正常使用的,字幕、ai 那些就直接用百度云提供的就行

    image.png

  • Deyu

    您好,我正在研究数据采集 B 站收藏夹,实时放到思源里面;然后调用通义听悟 api,把视频转文字,做笔记;最后形成数据库,喂给 cursor。

    偶然看到您这三个都有研究,请问现在最新进展如何?想和您交流一下

    我原本是想着用 ob 做这件事,最后在导入到思源里。现在还在犹豫中

    1 回复
  • coriger
    作者

    你可以看下我这个帖子:思源视频笔记插件

    我自己用了半年,感觉大多数视频其实信息密度是比较低的,如果你是想把数据喂给 cursor 的话,我是建议不要基于文本而是基于问题来构建知识库,大部分视频内容本质上没有什么底层思维的东西,基本就是百科 + 废话的组合(当然我这里只是针对我常看的一些社科类的视频),拿这些文本数据不管做什么形式的笔记其实用处都不大,所以我自己是基于视频内容提炼核心问题,然后借助豆包之类的 ai 工具,结合视频内容以及一些书籍进行整合,把整合后的结论喂给 cursor

    打个比方,我在看三国演义第一章的时候,里面有句话叫“桓帝禁锢善类”,这个我会在思源全局搜索禁锢这个词,因为我已经把史记、资治通鉴、二十四史这些都导入到思源了,所以很快就能找到禁锢善类对应的史料,结合豆包基本就能把桓帝时期禁锢善类的前因后果了解个大概;比如刘关张自行招兵买马,我就会提出一个问题,比如东汉时期的人才政策,朝廷为什么允许州府、私人私自募兵,当然我知道是因为黄巾军,但是私自募兵后对于朝廷来说有什么影响,还有刘备先祖汉武帝时期坐酎金失侯,搜索下坐酎金失侯你会发现汉武帝时期有很多人都因为这个失候,再细致一看大概就明白为什么会这样,总之基于第一章的文本是可以提出很多这样的问题,但是这些问题都不是文本里直接体现的,视频也一样,我在看老版三国演义第一集的时候,说实在的,都没什么可做笔记的地方,它能把原著的情节完整体现出来就不容易了,还能有什么更深刻的东西

    所以我觉得大多数视频材料最多做一个时间戳引用放到文本里辅助阅读,是不太适合直接用它来搭建知识库的

请输入回帖内容 ...

推荐标签 标签

  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    179 引用 • 408 回帖 • 486 关注
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    133 引用 • 1124 回帖 • 120 关注
  • RabbitMQ

    RabbitMQ 是一个开源的 AMQP 实现,服务器端用 Erlang 语言编写,支持多种语言客户端,如:Python、Ruby、.NET、Java、C、PHP、ActionScript 等。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。

    49 引用 • 60 回帖 • 343 关注
  • Chrome

    Chrome 又称 Google 浏览器,是一个由谷歌公司开发的网页浏览器。该浏览器是基于其他开源软件所编写,包括 WebKit,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。

    62 引用 • 289 回帖
  • Scala

    Scala 是一门多范式的编程语言,集成面向对象编程和函数式编程的各种特性。

    13 引用 • 11 回帖 • 160 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 534 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 613 关注
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 503 关注
  • GitLab

    GitLab 是利用 Ruby 一个开源的版本管理系统,实现一个自托管的 Git 项目仓库,可通过 Web 界面操作公开或私有项目。

    46 引用 • 72 回帖
  • Docker

    Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的操作系统上。容器完全使用沙箱机制,几乎没有性能开销,可以很容易地在机器和数据中心中运行。

    494 引用 • 928 回帖
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 35 关注
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    125 引用 • 585 回帖
  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    5 引用 • 7 回帖 • 2 关注
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    693 引用 • 537 回帖 • 1 关注
  • 996
    13 引用 • 200 回帖 • 5 关注
  • Visio
    1 引用 • 2 回帖
  • ZeroNet

    ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。

    1 引用 • 21 回帖 • 643 关注
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 569 关注
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    6 引用 • 26 回帖 • 549 关注
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 644 关注
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 108 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    84 引用 • 324 回帖
  • 知乎

    知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。

    10 引用 • 66 回帖 • 1 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖 • 2 关注
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 8 关注
  • 安全

    安全永远都不是一个小问题。

    203 引用 • 818 回帖