性能强过 qwq32,参数量是 30b,但 q4 版本部署时显存占用只有 5gb,笔记本 4060 推理速度大概 10+tokens/s,这完全可以部署在两三百块一个月的廉价显卡云上,很适合作为隐私场景的大模型,比如思源笔记。
感觉 qwen3 的 moe 小模型 a3b 很有搞头
-
人工智能
115 引用 • 317 回帖
人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于