-
功能遐想:语义搜索
2023-11-20 21:01需要有价格不菲的显卡来跑大模型。每个文档都有分段做 embedding 向量。然后搜索词也做 embedding 向量。 最后做个查几个文档,与问题最相近的。这样基本就可了。能接入 openai,也可以调接口完成。
-
长文本处理需求 - 百万字小说
2023-11-17 13:29各个地方下载的 txt 都不太一样,如何识别标题都不一定。我都是看情况改改自己之前的 py 脚本。做成 md,然后决定导入 sy 或者制作为 epub。
-
Siyuan Asset Manager Plugin ?
2023-11-16 20:53需要你修改 python 脚本,通过 python 环境去执行。我只移动了".png", ".jpg"两种。
import os, shutil from glob import glob from io import StringIO _DATA = "/.........../data" _NEWDIR = "pics/2023" _TARGET = f"{_DATA}/assets/{_NEWDIR}" def move_pics(): os.system(f"mkdir -p {_TARGET}") for f in glob(f"{_DATA}/assets/*"): for t in [".png", ".jpg"]: if f.endswith(t): shutil.move(f, _TARGET) def all_files(): for f in glob(f"{_TARGET}/*"): yield os.path.basename(f) def move_assets(): buff = StringIO() pics = list(all_files()) for file in glob(f"{_DATA}/**/*.sy", recursive=True): buff.truncate(0) buff.seek(0) modified = False with open(file, "r") as f: for line in f: if "assets/" in line: for p in pics: t = f"assets/{p}" if t in line: line = line.replace(t, f"assets/{_NEWDIR}/{p}") modified = True break buff.write(line) if modified: with open(file, "w") as f: f.write(buff.getvalue()) def tidy(): move_pics() move_assets() if __name__ == "__main__": tidy()
-
Siyuan Asset Manager Plugin ?
2023-11-16 20:15我倒是有个自用的。py 脚本的。移动图片到 assets 的子目录,然后遍历所有 sy 文件,直接替换相关位置。每次同步 assets 到 google driver 的时候会执行一次。