思源数据库 API/ 视频 RSS 源定制 / 视频笔记

本贴最后更新于 312 天前,其中的信息可能已经时移世异

想做个 rss 插件把 youtube、b 站、抖音订阅的数据抓下来存到思源数据库里,不过看了下官网 api 文档没找到相关的 api,这个有开发的安排计划吗?

=================================

开发好了,还不错,刷抖音不用一页页翻页了,页面直接播放,唯一的问题是往思源批量写数据的时候有点卡顿,尤其是大批量入库的时候,现在插入一条数据要调用五六次接口,希望版本快点更新

image.png

image.png

=================================

2024 年 8 月 5 日 08:44:49

实现了下 B 站和 Youtube 的视频笔记功能,数据入库-> 视频笔记-> 思维导图-> 模型树修剪,视频这块的工作流也打通了,思源数据库这块问题还是不少,之前说的问题等了两个版本都还没有修复

image.png

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    25922 引用 • 107429 回帖 • 1 关注
3 操作
coriger 在 2024-08-05 08:57:23 更新了该帖
coriger 在 2024-06-01 11:14:12 更新了该帖
coriger 在 2024-06-01 11:04:14 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 目前已经有非正式发布的内部 API 支持数据库相关操作,比如添加/删除/排序数据库字段、获取所有字段、添加/删除/更新数据库字段值等,具体请参考 kernel/api/router.go 和 av.go 源文件。

    等这些 API 逐步稳定以后再编入文档,请关注 Issue #11130 · siyuan-note/siyuan

    1 回复
  • coriger
    作者

    好像没看到往数据库插数据的接口哦

    1 回复
  • addAttributeViewValues

    3 回复
  • coriger
    作者

    image.png

    数据库的 avId 只能在 f12 找到吗,之前一直用右键复制出来的 id 调用接口,才发现是 nodeId,我说这个数据怎么都取不到

    1 回复
  • coriger
    作者

    image.png

    image.png

    这个接口我想要同时插入其他几个字段的值要怎么传参,源码看的不是很明白,只看到 id/isDetached/content 这三个字段

    1 回复
  • coriger
    作者

    刚试了下 setAttributeViewBlockAttr 这个接口,难道只能通过这个接口一个个更新字段值?

    image.png

  • coriger
    作者

    b 站和抖音的 rss 源不稳定,之前拿 rsshub 二次开发本地起了个服务,不过太笨重了,现在直接写个浏览器插件劫持 api 拿报文数据,数据现在已经走通了,就差写入思源数据库了

  • 可以试试 searchAttributeView 搜索接口。

  • coriger
    作者

    而且 rsshub 里面去解析抖音这些网站要处理反作弊机制,很麻烦,浏览器里面搞省心,rsshub 里面大多数源都用不上,还是自己定制开发比较自由

  • 只能先用这个接口插入行,然后用 setAttributeViewBlockAttr 更新字段,目前只能一个值一个值更新。

    后续我们考虑一下提供创建时更新所有值的接口,谢谢。

    1 回复
  • coriger
    作者

    好的

    1 回复
  • coriger
    作者

    还有个问题,就是我针对状态这个字段进行更新,表里【源数据】这个是模版字段的内容,它会自动刷新一下,有些卡顿,但这个模版字段并不依赖状态这个字段,这个可以优化吗?

    image.png

    1 回复
  • coriger
    作者

    尤其是我一边看视频一遍在边上的备注框做笔记的时候,每次写完笔记页面就自动刷新,会中断视频播放image.png

  • 数据库目前是整个 DOM 刷新一次的,还没做到对单个条目刷新,所以就会这样

    关联:Issue #11612 · siyuan-note/siyuan

    哦,这个还是有点影响体验,它这个应该也是怕模版字段有依赖才强刷吧,不然局部更新其实没必要刷
    coriger
  • qiancang 3 评论

    调用接口往数据库里添加内容是比较慢的,比较快的做法是直接生成数据库的 json 文件,然后将这个数据库插入到文档中,可以参考这个 quicker 动作:表格文件转思源数据库 - by 浅沧 - 动作信息 - Quicker (getquicker.net)

    注意,往 av 文件夹里写文件的时候建议使用 putfile api,不然可能与思源内核产生读写冲突。

    嗯,昨天看了你这个脚本的实现,不过我这边是用浏览器插件实现,没法直接操作本地文件,除非我单独起一个服务中转下,搞得有点麻烦,还是等版本更新提供批量入库的接口,除非是要全量拉取,如果只是做增量入库请求量并不多,我前端入口再做下判断就好
    coriger
    @coriger putfile 不需要操作本地文件,是给思源 kernel 发文本就行,读写是由内核完成的。
    qiancang
    哦,好,我去看看
    coriger
  • coriger 1 赞同
    作者

    把视频搞成画中画,编辑的时候倒是不影响视频播放了,可以凑合的用

    image.png

  • 很多学习用户 也有非常强烈的 视频笔记需求

    • 快速把多平台视频 下载下来(或者支持在线学习 b 站 youtube, 抖音视频,更方便的是支持百度网盘阿里云盘的在线视频, 这样减少本地视频存储占用大量 笔记本电脑的空间问题)
    • 笔记软件内 观看视频的同时, 可以快速通过笔记 加时间戳 和 截图
    • 快速把视频的字幕拉下来
    • 用 ai 对视频字幕进行总结摘要和提问

    如果有哪位开发者提供思源类似的插件

    • 功德无量,愿意付费支持
    2 回复
  • coriger
    作者

    如果只是做视频笔记,记录时间戳截图这些还是很容易实现的,直接在浏览器打开思源,开个分屏,左边视频右边思源,然后写个浏览器插件读取当前左边窗口的视频 video 对象,拿到对象就可以拿到时间戳或者根据时间戳自动跳转,我自己日常主要是看 youtube 和 B 站基本够用,只要是能获取 video 对象不管什么网站都可以用这种方式做笔记,我自己的工作流一般还是先从抓取开始,先抓取数据,然后看情况哪些需要精读,再创建文档做视频笔记,至于 ai 那些还是要借助第三方平台

    image.png

  • coriger
    作者

    image.png

  • coriger
    作者

    试了下百度云,这种机制也是可以正常使用的,字幕、ai 那些就直接用百度云提供的就行

    image.png

  • Deyu

    您好,我正在研究数据采集 B 站收藏夹,实时放到思源里面;然后调用通义听悟 api,把视频转文字,做笔记;最后形成数据库,喂给 cursor。

    偶然看到您这三个都有研究,请问现在最新进展如何?想和您交流一下

    我原本是想着用 ob 做这件事,最后在导入到思源里。现在还在犹豫中

    1 回复
  • coriger
    作者

    你可以看下我这个帖子:思源视频笔记插件

    我自己用了半年,感觉大多数视频其实信息密度是比较低的,如果你是想把数据喂给 cursor 的话,我是建议不要基于文本而是基于问题来构建知识库,大部分视频内容本质上没有什么底层思维的东西,基本就是百科 + 废话的组合(当然我这里只是针对我常看的一些社科类的视频),拿这些文本数据不管做什么形式的笔记其实用处都不大,所以我自己是基于视频内容提炼核心问题,然后借助豆包之类的 ai 工具,结合视频内容以及一些书籍进行整合,把整合后的结论喂给 cursor

    打个比方,我在看三国演义第一章的时候,里面有句话叫“桓帝禁锢善类”,这个我会在思源全局搜索禁锢这个词,因为我已经把史记、资治通鉴、二十四史这些都导入到思源了,所以很快就能找到禁锢善类对应的史料,结合豆包基本就能把桓帝时期禁锢善类的前因后果了解个大概;比如刘关张自行招兵买马,我就会提出一个问题,比如东汉时期的人才政策,朝廷为什么允许州府、私人私自募兵,当然我知道是因为黄巾军,但是私自募兵后对于朝廷来说有什么影响,还有刘备先祖汉武帝时期坐酎金失侯,搜索下坐酎金失侯你会发现汉武帝时期有很多人都因为这个失候,再细致一看大概就明白为什么会这样,总之基于第一章的文本是可以提出很多这样的问题,但是这些问题都不是文本里直接体现的,视频也一样,我在看老版三国演义第一集的时候,说实在的,都没什么可做笔记的地方,它能把原著的情节完整体现出来就不容易了,还能有什么更深刻的东西

    所以我觉得大多数视频材料最多做一个时间戳引用放到文本里辅助阅读,是不太适合直接用它来搭建知识库的

请输入回帖内容 ...

推荐标签 标签

  • HHKB

    HHKB 是富士通的 Happy Hacking 系列电容键盘。电容键盘即无接点静电电容式键盘(Capacitive Keyboard)。

    5 引用 • 74 回帖 • 519 关注
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    45 引用 • 114 回帖 • 175 关注
  • 域名

    域名(Domain Name),简称域名、网域,是由一串用点分隔的名字组成的 Internet 上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。

    43 引用 • 208 回帖 • 1 关注
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 651 关注
  • 安全

    安全永远都不是一个小问题。

    199 引用 • 818 回帖 • 1 关注
  • 笔记

    好记性不如烂笔头。

    310 引用 • 794 回帖
  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    115 引用 • 317 回帖
  • IBM

    IBM(国际商业机器公司)或万国商业机器公司,简称 IBM(International Business Machines Corporation),总公司在纽约州阿蒙克市。1911 年托马斯·沃森创立于美国,是全球最大的信息技术和业务解决方案公司,拥有全球雇员 30 多万人,业务遍及 160 多个国家和地区。

    17 引用 • 53 回帖 • 146 关注
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    6 引用 • 143 回帖 • 1 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    16 引用 • 236 回帖 • 254 关注
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 571 关注
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 34 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖
  • QQ

    1999 年 2 月腾讯正式推出“腾讯 QQ”,在线用户由 1999 年的 2 人(马化腾和张志东)到现在已经发展到上亿用户了,在线人数超过一亿,是目前使用最广泛的聊天软件之一。

    45 引用 • 557 回帖 • 1 关注
  • GitLab

    GitLab 是利用 Ruby 一个开源的版本管理系统,实现一个自托管的 Git 项目仓库,可通过 Web 界面操作公开或私有项目。

    46 引用 • 72 回帖 • 1 关注
  • 导航

    各种网址链接、内容导航。

    45 引用 • 177 回帖
  • Access
    1 引用 • 3 回帖 • 3 关注
  • AWS
    11 引用 • 28 回帖 • 7 关注
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    25922 引用 • 107429 回帖 • 1 关注
  • Mac

    Mac 是苹果公司自 1984 年起以“Macintosh”开始开发的个人消费型计算机,如:iMac、Mac mini、Macbook Air、Macbook Pro、Macbook、Mac Pro 等计算机。

    167 引用 • 597 回帖
  • 自由行
    1 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    85 引用 • 324 回帖 • 1 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 1 关注
  • 七牛云

    七牛云是国内领先的企业级公有云服务商,致力于打造以数据为核心的场景化 PaaS 服务。围绕富媒体场景,七牛先后推出了对象存储,融合 CDN 加速,数据通用处理,内容反垃圾服务,以及直播云服务等。

    29 引用 • 230 回帖 • 127 关注
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    151 引用 • 257 回帖
  • 一些有用的避坑指南。

    69 引用 • 93 回帖