面试问题记录

9.24

一、 实习项目深挖:基于大模型的政务问答平台

数据流水线与 RAG

  1. 你提到一个数据流水线,能介绍一下它具体是什么样的吗? 1
  2. 你们有没有想过,模型回答不正确可能是因为检索(Vector DB)不准确导致的? 2
  3. 你们检索出来的知识,有没有做相关度排序之类的筛选? 3
  4. 所以,你们的知识库就是那 2 万条偏好数据吗? 4
  5. 所以,你们是先有一个知识库,然后用它生成了 2 万个 QA 对,是吗? 5
  6. 这 2 万条偏好数据,是根据知识库里的知识,让大模型自问自答构建出来的吗? 6
  7. 你们训练的语料,提示词(Prompt)就是 "问题 + 背景知识" 的形式吗? 7
  8. 答案是用更高级的大模型生成的吗? 8

强化学习 (DPO/GPRO) 与奖励模型 (Reward Model)

  1. 为什么要构建 2 万条“偏好”数据?为什么需要偏好? 9
  2. (模型忠于事实)和你说的“偏好”有什么关系?这个偏好是谁的偏好? 10
  3. 偏好数据里,拒绝回答的样本也放进训练数据里了吗? 11
  4. 你们是先用包含好坏样本的偏好数据,训练了一个 Reward Model,对吗? 12
  5. Reward Model 是一个打分模型,对吧? 13
  6. (打分是 0-5 分)所以偏好数据里,不同的数据对应不同的分值,好的 5 分,差的 0 分? 14
  7. 你们设置的打分规则和 Reward Model 有什么关系?这个规则是作为提示词(Prompt)给它,来训练 Reward Model 的吗? 15
  8. 你们的 Reward Model 用的是哪个模型? 16
  9. 你们用来(在生成数据时)打分的模型是哪个? 17
  10. 你提到的 GPRO 算法,它的打分函数就是用的这个 Reward Model 吗? 18
  11. 你是说你们有两个 Reward Model 吗? 19
  12. 你的两个 Reward Model,一个是准确性,另一个是什么? 20
  13. 所以是“拒答”和“准确性”这两个模型,是吗? 21
  14. “拒答”模型也是 0 到 5 分的打分吗? 22
  15. “拒答”不应该是 0 和 1 的问题吗(要么拒绝要么不拒绝)?为什么要设置 0 到 5 分,中间有缓冲带吗? 23
  16. 这两个(准确性、拒答)模型的分数是加在一起的吗? 24
  17. 如果一个不该回答的问题,模型回答了,它仍然会有分吗? 25
  18. 对于一个敏感问题,即便“敏感性模型”打了 0 分,但如果回答得很准确,“准确性模型”仍然会给高分,这种情况怎么处理?你们是这么做的吗? 26
  19. 你们的“加权融合”具体是在哪里加权的?是指两个奖励模型的权重不一样吗? 27

KL 散度

  1. KL 散度是谁和谁之间计算的? 28
  2. KL 散度是计算两个模型输出的概率分布,还是生成的文本? 29
  3. 比如原始模型生成 10 个 token,新模型生成 20 个 token,这时候 KL 散度怎么算?10 个 token 和 20 个 token 能算 KL 散度吗? 30
  4. 请再讲讲 KL 散度到底是谁和谁算的?是 Token 概率之间算,还是对句子 Embedding 求均值来算? 31
  5. 你们是在推理时逐个 token 计算 KL 散度的吗? 32
  6. 是不是目标网络和基线网络同时生成一个 token,然后计算它们的 KL 散度,再加到损失函数里? 33

训练细节与框架

  1. 你们的基线模型是 Qwen-32B,这是一个思维链(COT)模型,你们在构建训练数据时,有构建它的思考过程吗? 34
  2. 你们用的是什么训练框架? 35
  3. 在用 VLLM 做训练时,有什么心得吗?比如调参等方面。 36
  4. 你做的是全参数微调吗? 37
  5. 你对 LoRA 的理解是怎样的? 38
  6. 你们训练了几个 epoch? 39
  7. 这 3 个 epoch 的随机种子有变化吗? 40
  8. 你了解随机种子吗?如果调整随机种子,会对数据读取的顺序有影响吗? 41

数据处理

  1. 你们是怎么识别敏感问题的? 42
  2. 我的意思是,在处理数据时,你们怎么把敏感和不敏感的数据分开?也是让大模型去判断吗? 43

二、 知识图谱项目

  1. 你相当于做了一个“自然语言”转“知识图谱语言”(结构化数据,如 JSON)的模型,是吗?可以讲讲这个项目吗? 44
  2. Qwen-32B 在这个项目中起到什么作用? 45
  3. 你们定义的实体关系类型是固定的吗?定义了多少个? 46
  4. 你们构建数据并交给 Qwen 训练时,输入的形态和输出的形态是怎样的? 47
  5. 训练时,数据集中不同类型的样本数量不均衡(有的多有的少),模型有没有出现过拟合(Overfitting)常见类型,而学不会罕见类型的情况? 48
  6. 针对(模型识别实体类型不准的)这种情况,你们有做过优化吗? 49
  7. 联网校验这部分也是你做的吗? 50
  8. 你们如何保证 Agent 判断的准确性? 51

三、 技术基础与通用知识

模型基础

  1. 你了解 Embedding(词向量)吗? 52
  2. Transformer 生成的是 token 的 embedding,但向量数据库是对整个句子做 embedding,你知道这是怎么实现的吗? 53
  3. BERT 的注意力机制是双向的还是单向的? 54
  4. 你还用 BERT 做过什么? 55
  5. 你刚提到的“窗口注意力”是什么意思? 56
  6. 如果用 BERT 做一个分类任务,你觉得能做吗?网络应该怎么搭建? 57
  7. 是在 Softmax 之后再加分类头吗? 58

部署与优化

  1. 你有参与过模型部署的工作吗? 59
  2. 利用 Llama Factory 做部署时,有做过优化吗?比如为了提高吞吐量、并发量,或降低延迟。 60
  3. 你能讲讲 PagedAttention 吗? 61

编程基础

  1. Python 里有用过迭代器(Iterator)吗? 62
  2. 迭代器和生成器(Generator)是什么关系? 63

四、 反问环节

  1. 我这边问得差不多了,你有什么想问我的? 64
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    327 引用 • 1395 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Chrome

    Chrome 又称 Google 浏览器,是一个由谷歌公司开发的网页浏览器。该浏览器是基于其他开源软件所编写,包括 WebKit,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。

    63 引用 • 289 回帖 • 1 关注
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 27 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 11 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 548 关注
  • 尊园地产

    昆明尊园房地产经纪有限公司,即:Kunming Zunyuan Property Agency Company Limited(简称“尊园地产”)于 2007 年 6 月开始筹备,2007 年 8 月 18 日正式成立,注册资本 200 万元,公司性质为股份经纪有限公司,主营业务为:代租、代售、代办产权过户、办理银行按揭、担保、抵押、评估等。

    1 引用 • 22 回帖 • 838 关注
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    135 引用 • 798 回帖 • 2 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    188 引用 • 833 回帖 • 2 关注
  • Mac

    Mac 是苹果公司自 1984 年起以“Macintosh”开始开发的个人消费型计算机,如:iMac、Mac mini、Macbook Air、Macbook Pro、Macbook、Mac Pro 等计算机。

    168 引用 • 598 回帖
  • CodeMirror
    2 引用 • 17 回帖 • 197 关注
  • 链滴

    链滴是一个记录生活的地方。

    记录生活,连接点滴

    203 引用 • 4024 回帖
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    15 引用 • 7 回帖
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    70 引用 • 193 回帖 • 404 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    43 引用 • 130 回帖 • 259 关注
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    695 引用 • 538 回帖 • 2 关注
  • Outlook
    1 引用 • 5 回帖 • 1 关注
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    200 引用 • 545 回帖
  • Visio
    1 引用 • 2 回帖
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 430 关注
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    599 引用 • 3541 回帖
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 429 关注
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    293 引用 • 4496 回帖 • 688 关注
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 99 关注
  • Folo

    Folo 是一个 RSS 阅读和信息聚合应用,整合多种内容源到统一时间线。

    项目地址:https://github.com/RSSNext/Folo

    1 引用 • 3 回帖 • 2 关注
  • GitLab

    GitLab 是利用 Ruby 一个开源的版本管理系统,实现一个自托管的 Git 项目仓库,可通过 Web 界面操作公开或私有项目。

    46 引用 • 72 回帖
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有机会重制。

    14 引用 • 258 回帖
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    21 引用 • 31 回帖 • 1 关注