DeepSeek-V3-0324 发布之后我注意到这个模型显然比原本的 V3 更加发散(据说是用 R1 辅助训练的,可能是学到了 R1 的坏毛病)。
看了一眼官方文档,有两个重点:
-
推荐的默认温度是 0.3
-
重点:Deepseek 官方为了适配大家常用的习惯,实现了一个奇葩的温度缩放机制,见 https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
我看了一眼,火山引擎也支持了这个功能(https://www.volcengine.com/docs/82379/1519547),不过别人家情况如何尚不清楚。
各家的模型在适配性上确实有很多烦人的地方 🤨。名义上都是 OpenAI 格式,但实际上有的限制了 max token,有的温度限制在 0 ~ 1 而非 0 ~ 2,还有的不支持一些特定的 frequency topp 之类的参数。。如果你只用一个模型对话也还好,但是如果要切换模型的话,就需要更改参数进行适配。
最好的办法还是写脚本做适配,比如直接写死了 V3 0324 固定 0.3 的温度。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于