一个基于AI的思源笔记文档自动分类工具,支持人工反馈和持续学习。
- 自动分析文档内容并进行智能分类
- 支持人工反馈修正分类结果
- 基于人工反馈持续优化分类准确性
- 批量处理大量文档
- 断点续传,支持中断后继续处理
- Python 3.8+
- 思源笔记服务已启动
- DeepSeek API密钥
pip install -r requirements.txt
-
复制
.env.example
文件为.env
,并填入你的配置信息:# 思源笔记API配置 SIYUAN_API_URL=http://127.0.0.1:6806 SIYUAN_TOKEN=你的思源笔记令牌 SIYUAN_NOTEBOOK_ID=你的笔记本ID # DeepSeek API配置 DEEPSEEK_API_KEY=你的DeepSeek API密钥
-
创建
categories.json
文件,定义分类目录结构:{ "categories": [ { "name": "电力设备", "description": "详细说明变压器/断路器/避雷器等各类电力设备的参数选型、运维要点等", "id": "分类目录ID" }, { "name": "配电网", "description": "涵盖配电网相关规划设计、运行、设备检修、安全处置、参数计算等方案和技术", "id": "分类目录ID" } ] }
python categorizationer.py
python categorizationer_humanfeedback.py
- 程序生成
classification_results.csv
文件 - 用户修改CSV文件中的
human_category_name
列 - 程序读取修改后的CSV文件并应用人工修正的分类
- 敏感信息(API密钥、令牌等)存储在
.env
文件中,不会提交到Git仓库 - 使用
python-dotenv
库加载环境变量 - 代码中不包含硬编码的敏感信息
MIT