需要配置百度语义分析 API,配置方案见动作。
操作示例:
适用于什么场景?
简单的网页标注,效果略好于直接保留链接(至少可以定位标注内容的位置)
为什么不用 Cubox、简悦、Hypothesis 等网页标注的 DeepLink?
优点:
- 只用申请 API,没有任何学习成本,没有任何配置困难,和保存网页一样简单快捷
- 约等于免费(语义识别还是要钱的,不过免费 50 万次,超过 50 万次每 1000 条才 2 块)
- 可以配合 Zotero 的网页剪藏还可以实现本地 DeepLink(不过只有文本链接)。
- 不用先保存到软件、不用手动复制 DeepLink 链接,相对来说更轻松快捷
缺陷:
- 只支持文本,且需要是自然语言。即:不能用来高亮代码片段,不能用来高亮表格
- 不能进行图文标注
- 网页变动存在链接失效的可能性
- 手搓的标记文本,存在无法区分网页部分相同内容的可能性
- 不能复制不同类型文本(选中含标题、文本的内容,链接无效)
Chromium 内核浏览器标记原理
标记链接生成过程:
- 获取选中文本
- 进行 URL 编码
- 使用“#:~:text= + 标记内容”进行文本标记
- 生成标记链接
标记内容处理:
- 标记单行内容:
- 直接获取单行内容所有文本
- 单行内容也可以采用多行内容的标记方式
- 标记多行内容:
- 获取多行内容前几个字符和后几个字符,进行多段标记
注意:
- 在识别的时候需要根据语义进行拆分,提供具有语义的关键词
- 渐进阅读的优点,才能体验到乐趣——可以识别
- 渐进阅读的优,验到乐趣——不能识别
- 在识别的时候注意给足关键内容,不然可能会错选范围
- 渐进阅读是好文明……渐进阅读的优点……才能体验到乐趣
- 渐进阅读,才能体验到乐趣——没有指明标记内容起始位置,存在标记错误风险
- 代码内容:
- 百度词法分析无法分析代码,故:无法进行代码标注
- 表格内容:
- 如果使用词法分析,表格会获取到 \t 制表符,可以用第一项内容和最后一项内容标识表格
- 存在错位风险,谨慎使用
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于