Skip to content

kursk-ye/siyuancategorizationer

Repository files navigation

思源笔记自动分类工具

一个基于AI的思源笔记文档自动分类工具,支持人工反馈和持续学习。

功能特点

  • 自动分析文档内容并进行智能分类
  • 支持人工反馈修正分类结果
  • 基于人工反馈持续优化分类准确性
  • 批量处理大量文档
  • 断点续传,支持中断后继续处理

安装与配置

环境要求

  • Python 3.8+
  • 思源笔记服务已启动
  • DeepSeek API密钥

安装依赖

pip install -r requirements.txt

配置

  1. 复制.env.example文件为.env,并填入你的配置信息:

    # 思源笔记API配置
    SIYUAN_API_URL=http://127.0.0.1:6806
    SIYUAN_TOKEN=你的思源笔记令牌
    SIYUAN_NOTEBOOK_ID=你的笔记本ID
    
    # DeepSeek API配置
    DEEPSEEK_API_KEY=你的DeepSeek API密钥
    
  2. 创建categories.json文件,定义分类目录结构:

    {
      "categories": [
        {
          "name": "电力设备",
          "description": "详细说明变压器/断路器/避雷器等各类电力设备的参数选型、运维要点等",
          "id": "分类目录ID"
        },
        {
          "name": "配电网",
          "description": "涵盖配电网相关规划设计、运行、设备检修、安全处置、参数计算等方案和技术",
          "id": "分类目录ID"
        }
      ]
    }

使用方法

基础分类

python categorizationer.py

带人工反馈的分类

python categorizationer_humanfeedback.py

人工反馈流程

  1. 程序生成classification_results.csv文件
  2. 用户修改CSV文件中的human_category_name
  3. 程序读取修改后的CSV文件并应用人工修正的分类

开发说明

  • 敏感信息(API密钥、令牌等)存储在.env文件中,不会提交到Git仓库
  • 使用python-dotenv库加载环境变量
  • 代码中不包含硬编码的敏感信息

许可证

MIT

参考信息

About

思源笔记自动分类工具,支持AI分类和人工反馈

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages