如何用 sql 找到文件大小大于 500k 的

本贴最后更新于 310 天前,其中的信息可能已经事过境迁

思源笔记能用 sql 寻找文件大于 500kb 的文件吗?

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    26019 引用 • 107972 回帖
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    9996 引用 • 45426 回帖 • 74 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 这有两种种情况,

    如果你说的是引用资源,用 SQL 办不到,思源数据库并未存储引用资源占用大小,需要查询结果后通过 js 来读取文件实现,

    如果你说的是思源笔记文档占用,这又分两种情况,

    如果你想查看的是.sy 文件的占用大小,这通过 SQL 也办不到,需要查询后 js 来读取文件实现,

    如果你说的是,纯文本内容,比如 Markdown 占用大小,这又分两种情况,

    如果你说的是精确占用,这很难,除非你把查询结果存为文件,然后再读取占用大小,

    如果你非得用 SQL 实现精确计算,这是非常困难的,除非你能考虑所有特殊情况,

    如果你说仅仅估算大小,SQL 还是可以算算的,

    如果你需要的不是估算,那么看到此就可以结束了。

    如果你能接受估算,请看下文:

    先说理论

    首先,不同的编码存储的文件占用大小是不一样的,这里以常用的 utf8 存储为例说明,我查看了下思源数据库也是 utf8 存储的。

    在 utf8 中,通常字节占用如下

    • 对于 ASCII 字符(包括英文字母、数字和大多数标点符号),每个字符占用 1 字节。
    • 对于非 ASCII 字符(如大部分欧洲语言字符),每个字符占用 2 字节。
    • 对于中文、日文和韩文字符,每个字符通常占用 3 字节。
    • 对于一些特殊字符或表情符号,每个字符可能占用 4 字节。

    这里不考虑其他情况,就假设以英文和中文为主,那么英文和中文的字节占比基本上就是 1:3

    那么,如果假设英文字符占比为 𝑥%,中文字符占比为 𝑦%,总字符数为 𝑛,那么可以使用以下公式来计算文件的大小(以字节为单位):

    计算公式

    文件大小 (字节)=(𝑥%×𝑛×1)+(𝑦%×𝑛×3)

    这里:

    • 𝑥%×𝑛 表示英文字符的数量,每个英文字符占用 1 字节。
    • 𝑦%×𝑛 表示中文字符的数量,每个中文字符占用 3 字节。

    示例

    假设总字符数 𝑛=1000,其中 20% 为英文字符,80% 为中文字符,那么:

    • 英文字符数量:0.2×1000=200
    • 中文字符数量:0.8×1000=800

    代入公式计算文件大小: 文件大小 (字节)=(0.2×1000×1)+(0.8×1000×3)=200+2400=2600

    再说 SQL

    有了以上公式就可以通过 SQL 计算了

    首先这里按照你说的文件是指文档块来理解,那么文档块下面通常分很多容器或叶子块,但它们的 root_id 都是同一个,即文档块的 id

    根据这个特点,我们通过嵌套查询就可以汇总出文档的所有块的 Markdown 文本占用大小了,不过超级复杂,仅当参考吧,下面这个 SQL 是 AI 生成的,就当作伪代码参考吧

    WITH markdown_lengths AS ( SELECT root_id, -- 计算英文字符数量 LENGTH(REPLACE(markdown, ' ', '')) FILTER (WHERE markdown ~ '[a-zA-Z0-9 ]') / LENGTH(markdown) * 100 AS x_percent, -- 计算中文字符数量 LENGTH(markdown) - LENGTH(REPLACE(markdown, ' ', '')) FILTER (WHERE markdown ~ '[a-zA-Z0-9 ]') / LENGTH(markdown) * 100 AS y_percent, -- 计算总字符数 LENGTH(markdown) AS n, -- 计算总字节数 (LENGTH(REPLACE(markdown, ' ', '')) FILTER (WHERE markdown ~ '[a-zA-Z0-9 ]') / LENGTH(markdown) * 100 * LENGTH(markdown) * 1 + (LENGTH(markdown) - LENGTH(REPLACE(markdown, ' ', '')) FILTER (WHERE markdown ~ '[a-zA-Z0-9 ]') / LENGTH(markdown) * 100 * LENGTH(markdown) * 3) / 100) AS markdown_bytes FROM blocks WHERE root_id IS NOT NULL ), subquery AS ( SELECT root_id, SUM(markdown_bytes) AS total_markdown_bytes FROM markdown_lengths GROUP BY root_id ) SELECT p.id AS parent_id, p.content AS title, p.hpath, p.markdown AS parent_markdown, COALESCE(s.total_markdown_bytes, 0) AS total_markdown_bytes FROM ( SELECT id, content, hpath, markdown FROM blocks WHERE root_id IS NULL ) p LEFT JOIN subquery s ON p.id = s.root_id WHERE COALESCE(s.total_markdown_bytes, 0) > 500000

    哈哈哈,看了后,我建议你还是用 js 来实现吧。

  • 其他回帖
  • Muu

    术业有专攻 借用这个软件还是很快的能获取到 对应的文件的, 就是需要转换下 id 和名称

    image.png

  • sql 应该不行,但思源好像有获取目录信息的接口

推荐标签 标签

  • OpenCV
    15 引用 • 36 回帖 • 7 关注
  • RabbitMQ

    RabbitMQ 是一个开源的 AMQP 实现,服务器端用 Erlang 语言编写,支持多种语言客户端,如:Python、Ruby、.NET、Java、C、PHP、ActionScript 等。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。

    49 引用 • 60 回帖 • 348 关注
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1063 引用 • 3455 回帖 • 149 关注
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 110 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 74 关注
  • 小说

    小说是以刻画人物形象为中心,通过完整的故事情节和环境描写来反映社会生活的文学体裁。

    32 引用 • 108 回帖
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 514 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    17 引用 • 7 回帖
  • FlowUs

    FlowUs.息流 个人及团队的新一代生产力工具。

    让复杂的信息管理更轻松、自由、充满创意。

    1 引用 • 8 关注
  • sts
    2 引用 • 2 回帖 • 241 关注
  • Flutter

    Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flutter 可以与现有的代码一起工作,它正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。

    39 引用 • 92 回帖 • 5 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    76 引用 • 1742 回帖 • 3 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    186 引用 • 826 回帖
  • 设计模式

    设计模式(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。

    201 引用 • 120 回帖 • 2 关注
  • AWS
    11 引用 • 28 回帖 • 8 关注
  • 支付宝

    支付宝是全球领先的独立第三方支付平台,致力于为广大用户提供安全快速的电子支付/网上支付/安全支付/手机支付体验,及转账收款/水电煤缴费/信用卡还款/AA 收款等生活服务应用。

    29 引用 • 347 回帖
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 606 关注
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 694 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    85 引用 • 324 回帖
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    209 引用 • 2040 回帖
  • 周末

    星期六到星期天晚,实行五天工作制后,指每周的最后两天。再过几年可能就是三天了。

    14 引用 • 297 回帖 • 3 关注
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖
  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    524 引用 • 4601 回帖 • 710 关注
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 119 关注
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    29 引用 • 66 回帖 • 4 关注
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 568 关注
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    29 引用 • 202 回帖 • 28 关注