链滴
社区愿景和功能特性
优雅的 Markdown 所见即所得编辑
快捷键交互
随时自由编辑分享内容
支持注销账号来去自由
分布式社区网络
开放 API
产品
Symphony 社区系统(Java)
Solo 博客系统(Java)
Vditor 编辑器(TypeScript)
思源笔记(Electron、Go)
Pipe 博客平台(Vue、Go)
发展计划表
发展简史
榜单
GitHub 仓库排行
帖子打赏排行
Solo 博客端排行
积分排行
活跃度排行
贡献排行
本站基于开源项目 Sym
编程代码问答
登录
注册
首页
>
标签
LLM
35
引用 •
1
回帖 •
24
浏览
参与讨论
关注
关注
分享
fmisc
2
引用 •
4
回帖
GPT
9
引用 •
16
回帖
默认
热议
好评
优选
最近回帖
关注者
查看所有标签
用 SPCT 给奖励模型来次“升级”:能自省、会点评,还能越算越准
开篇:奖励模型挺重要,但不好搞啊! 为啥要聊奖励模型? 现在大语言模型(LLM)是越来越火,能力也越来越强。但光能打还不行,还得听话,得知道啥是对的、啥是好的,不能瞎来。这就是所谓的“对齐”(Alignment)。要让 LLM 听话,强化学习(RL),特别是有人在旁边指点的强化学习(RLHF),就成了关键技术。在这个过 ..
138
6 天前
DeepSeek-V3-0324 推荐温度为 0.3,以及奇葩的温度缩放机制
DeepSeek-V3-0324 发布之后我注意到这个模型显然比原本的 V3 更加发散(据说是用 R1 辅助训练的,可能是学到了 R1 的坏毛病)。 看了一眼官方文档,有两个重点: 推荐的默认温度是 0.3 重点:Deepseek 官方为了适配大家常用的习惯,实现了一个奇葩的温度缩放机制,见 https://huggi ..
199
2 周前
突破长文本瓶颈: 并行编码助力语言模型处理更长输入
导语 随着大型语言模型(LLM)的快速发展,如何有效处理长文本输入成为一个亟待解决的问题。普林斯顿大学研究人员提出了一种名为'并行编码的上下文扩展'(CEPE)的新方法,可以显著提升 LLM 处理长文本的能力,同时保持较 一、CEPE 方法简介 CEPE 的核心思想是在现有的仅解码器 LLM 基础上,增加一个小型编 ..
29
8 个月前
llm 原理
Introduction source:https://stanford-cs324.github.io/winter2022/lectures/introduction/ - CS324 是这门课程 lecture note 的摘抄和部分“用自己的语言表述” 基本原理 语言模型 (LM) 的经典定义是标记序列的概率分 ..
19
1 年前