链滴
社区愿景和功能特性
优雅的 Markdown 所见即所得编辑
快捷键交互
随时自由编辑分享内容
支持注销账号来去自由
分布式社区网络
开放 API
产品
Symphony 社区系统(Java)
Solo 博客系统(Java)
Vditor 编辑器(TypeScript)
思源笔记(Electron、Go)
Pipe 博客平台(Vue、Go)
发展计划表
发展简史
榜单
GitHub 仓库排行
帖子打赏排行
Solo 博客端排行
积分排行
活跃度排行
贡献排行
本站基于开源项目 Sym
编程代码问答
登录
注册
首页
>
标签
LLM
3
引用 •
1
回帖 •
39
浏览
参与讨论
关注
关注
分享
fmisc
3
引用 •
4
回帖
GPT
8
引用 •
17
回帖
默认
热议
好评
优选
最近回帖
关注者
查看所有标签
llm 原理
Introduction source:https://stanford-cs324.github.io/winter2022/lectures/introduction/ - CS324 是这门课程 lecture note 的摘抄和部分“用自己的语言表述” 基本原理 语言模型 (LM) 的经典定义是标记序列的概率分 ..
37
1 年前
DeepSeek-V3-0324 推荐温度为 0.3,以及奇葩的温度缩放机制
DeepSeek-V3-0324 发布之后我注意到这个模型显然比原本的 V3 更加发散(据说是用 R1 辅助训练的,可能是学到了 R1 的坏毛病)。 看了一眼官方文档,有两个重点: 推荐的默认温度是 0.3 重点:Deepseek 官方为了适配大家常用的习惯,实现了一个奇葩的温度缩放机制,见 https://huggi ..
328
2 个月前
用 SPCT 给奖励模型来次“升级”:能自省、会点评,还能越算越准
开篇:奖励模型挺重要,但不好搞啊! 为啥要聊奖励模型? 现在大语言模型(LLM)是越来越火,能力也越来越强。但光能打还不行,还得听话,得知道啥是对的、啥是好的,不能瞎来。这就是所谓的“对齐”(Alignment)。要让 LLM 听话,强化学习(RL),特别是有人在旁边指点的强化学习(RLHF),就成了关键技术。在这个过 ..
172
1 个月前