9.24
一、 实习项目深挖:基于大模型的政务问答平台
数据流水线与 RAG
- 你提到一个数据流水线,能介绍一下它具体是什么样的吗? 1
- 你们有没有想过,模型回答不正确可能是因为检索(Vector DB)不准确导致的? 2
- 你们检索出来的知识,有没有做相关度排序之类的筛选? 3
- 所以,你们的知识库就是那 2 万条偏好数据吗? 4
- 所以,你们是先有一个知识库,然后用它生成了 2 万个 QA 对,是吗? 5
- 这 2 万条偏好数据,是根据知识库里的知识,让大模型自问自答构建出来的吗? 6
- 你们训练的语料,提示词(Prompt)就是 "问题 + 背景知识" 的形式吗? 7
- 答案是用更高级的大模型生成的吗? 8
强化学习 (DPO/GPRO) 与奖励模型 (Reward Model)
- 为什么要构建 2 万条“偏好”数据?为什么需要偏好? 9
- (模型忠于事实)和你说的“偏好”有什么关系?这个偏好是谁的偏好? 10
- 偏好数据里,拒绝回答的样本也放进训练数据里了吗? 11
- 你们是先用包含好坏样本的偏好数据,训练了一个 Reward Model,对吗? 12
- Reward Model 是一个打分模型,对吧? 13
- (打分是 0-5 分)所以偏好数据里,不同的数据对应不同的分值,好的 5 分,差的 0 分? 14
- 你们设置的打分规则和 Reward Model 有什么关系?这个规则是作为提示词(Prompt)给它,来训练 Reward Model 的吗? 15
- 你们的 Reward Model 用的是哪个模型? 16
- 你们用来(在生成数据时)打分的模型是哪个? 17
- 你提到的 GPRO 算法,它的打分函数就是用的这个 Reward Model 吗? 18
- 你是说你们有两个 Reward Model 吗? 19
- 你的两个 Reward Model,一个是准确性,另一个是什么? 20
- 所以是“拒答”和“准确性”这两个模型,是吗? 21
- “拒答”模型也是 0 到 5 分的打分吗? 22
- “拒答”不应该是 0 和 1 的问题吗(要么拒绝要么不拒绝)?为什么要设置 0 到 5 分,中间有缓冲带吗? 23
- 这两个(准确性、拒答)模型的分数是加在一起的吗? 24
- 如果一个不该回答的问题,模型回答了,它仍然会有分吗? 25
- 对于一个敏感问题,即便“敏感性模型”打了 0 分,但如果回答得很准确,“准确性模型”仍然会给高分,这种情况怎么处理?你们是这么做的吗? 26
- 你们的“加权融合”具体是在哪里加权的?是指两个奖励模型的权重不一样吗? 27
KL 散度
- KL 散度是谁和谁之间计算的? 28
- KL 散度是计算两个模型输出的概率分布,还是生成的文本? 29
- 比如原始模型生成 10 个 token,新模型生成 20 个 token,这时候 KL 散度怎么算?10 个 token 和 20 个 token 能算 KL 散度吗? 30
- 请再讲讲 KL 散度到底是谁和谁算的?是 Token 概率之间算,还是对句子 Embedding 求均值来算? 31
- 你们是在推理时逐个 token 计算 KL 散度的吗? 32
- 是不是目标网络和基线网络同时生成一个 token,然后计算它们的 KL 散度,再加到损失函数里? 33
训练细节与框架
- 你们的基线模型是 Qwen-32B,这是一个思维链(COT)模型,你们在构建训练数据时,有构建它的思考过程吗? 34
- 你们用的是什么训练框架? 35
- 在用 VLLM 做训练时,有什么心得吗?比如调参等方面。 36
- 你做的是全参数微调吗? 37
- 你对 LoRA 的理解是怎样的? 38
- 你们训练了几个 epoch? 39
- 这 3 个 epoch 的随机种子有变化吗? 40
- 你了解随机种子吗?如果调整随机种子,会对数据读取的顺序有影响吗? 41
数据处理
- 你们是怎么识别敏感问题的? 42
- 我的意思是,在处理数据时,你们怎么把敏感和不敏感的数据分开?也是让大模型去判断吗? 43
二、 知识图谱项目
- 你相当于做了一个“自然语言”转“知识图谱语言”(结构化数据,如 JSON)的模型,是吗?可以讲讲这个项目吗? 44
- Qwen-32B 在这个项目中起到什么作用? 45
- 你们定义的实体关系类型是固定的吗?定义了多少个? 46
- 你们构建数据并交给 Qwen 训练时,输入的形态和输出的形态是怎样的? 47
- 训练时,数据集中不同类型的样本数量不均衡(有的多有的少),模型有没有出现过拟合(Overfitting)常见类型,而学不会罕见类型的情况? 48
- 针对(模型识别实体类型不准的)这种情况,你们有做过优化吗? 49
- 联网校验这部分也是你做的吗? 50
- 你们如何保证 Agent 判断的准确性? 51
三、 技术基础与通用知识
模型基础
- 你了解 Embedding(词向量)吗? 52
- Transformer 生成的是 token 的 embedding,但向量数据库是对整个句子做 embedding,你知道这是怎么实现的吗? 53
- BERT 的注意力机制是双向的还是单向的? 54
- 你还用 BERT 做过什么? 55
- 你刚提到的“窗口注意力”是什么意思? 56
- 如果用 BERT 做一个分类任务,你觉得能做吗?网络应该怎么搭建? 57
- 是在 Softmax 之后再加分类头吗? 58
部署与优化
- 你有参与过模型部署的工作吗? 59
- 利用 Llama Factory 做部署时,有做过优化吗?比如为了提高吞吐量、并发量,或降低延迟。 60
- 你能讲讲 PagedAttention 吗? 61
编程基础
- Python 里有用过迭代器(Iterator)吗? 62
- 迭代器和生成器(Generator)是什么关系? 63
四、 反问环节
- 我这边问得差不多了,你有什么想问我的? 64

欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于