AI 科学家:全自动开放式科学发现

引言:人工智能引领科学发现新纪元

科学方法是人类文明的基石,其迭代过程推动了无数科学技术突破,改善了人类生活质量。然而,传统的科学研究方法受限于研究人员的知识、经验和时间。人工智能领域的研究者们一直梦想着利用人工智能本身来自动化人工智能研究,从而实现“人工智能生成算法”。近年来,基础模型在通用能力方面取得了巨大进步,但它们仅被用于加速研究流程的个别部分,例如撰写科学论文、头脑风暴或辅助编码。迄今为止,尚未出现完全无需人工干预即可执行整个研究工作的案例。

人工智能科学家:自动化研究的突破

本文介绍了首个由前沿大型语言模型(LLM)驱动的端到端论文生成框架——“AI 科学家”。该框架能够在给定广泛的研究方向和简单的初始代码库的情况下,无缝地执行构思、文献检索、实验计划、实验迭代、论文撰写和同行评审,最终生成具有洞察力的论文。

AI 科学家的工作流程:从构思到论文

“AI 科学家”的工作流程分为三个主要阶段:(1)构思生成,(2)实验迭代和(3)论文撰写。在撰写完成后,我们引入并验证了一个 LLM 生成的评审流程,以评估生成论文的质量。

  1. 构思生成: “AI 科学家”首先根据提供的模板和其先前的发现档案“头脑风暴”出一系列新颖的研究方向。它利用 LLM 作为变异算子,迭代地生成一个构思档案。每个构思都包含描述、实验执行计划以及(自我评估的)趣味性、新颖性和可行性数值评分。在构思生成后,通过连接语言模型与 Semantic Scholar API 和网络访问工具,过滤掉与现有文献过于相似的构思。

  2. 实验迭代: “AI 科学家”使用最先进的编码助手 Aider 来计划和执行一系列实验。为了提高流程的稳健性,如果实验失败或超时,Aider 会尝试修复代码并重新执行实验,最多尝试四次。在每次实验完成后,Aider 会以实验日志的风格记录结果。然后,它会根据结果重新计划和执行下一个实验。此过程最多重复五次。实验完成后,Aider 会编辑绘图脚本,使用 Python 为论文创建图表。

  3. 论文撰写: “AI 科学家”以标准机器学习会议论文的风格,用 LaTeX 生成一份简洁且信息丰富的进度报告。为了提高流程的稳健性,论文撰写过程分为以下几个步骤:

    • 分节文本生成: Aider 会根据记录的笔记和图表,逐节填写空白的会议论文模板。撰写顺序为引言、背景、方法、实验设置、结果和结论(所有部分除了相关工作)。在撰写的每个步骤中,Aider 都会被提示只使用从代码生成的真实实验结果和真实引用,以减少幻觉。
    • 网络搜索参考文献: 类似于构思生成阶段,“AI 科学家”可以使用 Semantic Scholar API 搜索最相关的文献,并将其与近乎完成的论文进行比较和对比,以完成相关工作部分。
    • 精炼: 在完成前两个阶段后,“AI 科学家”会对论文进行最后的精炼,以删除重复信息并简化论证。
    • 编译: 最后,将填写了所有适当结果的 LaTeX 模板输入 LaTeX 编译器。我们使用 LaTeX linter 并将编译错误反馈给 Aider,以便它可以自动更正任何问题。

自动化论文评审:评估 AI 科学家的成果

为了模拟人类科学界的评审过程,我们设计了一个基于 GPT-4o 的代理来进行论文评审,评审标准基于神经信息处理系统(NeurIPS)会议的评审指南。评审代理使用 PyMuPDF 解析库处理 PDF 论文的原始文本。输出包含数值评分(可靠性、表达、贡献、总体、置信度)、优缺点列表以及初步的二元决策(接受或拒绝)。

案例研究:深入分析 AI 科学家生成的论文

为了展示“AI 科学家”的能力和局限性,我们选择了一篇名为“自适应双尺度去噪”的论文进行深入分析。这篇论文是由“AI 科学家”在被要求进行扩散模型研究时生成的。

生成的构思:

  • “AI 科学家”正确地识别了扩散模型研究中一个有趣且动机良好的方向,例如先前的工作已经研究了用于相同目的的改进注意力机制。
  • 它提出了一个全面的实验计划来研究其构思,并成功地实施了所有计划,取得了良好的结果。我们对它如何对早期结果不佳做出反应并迭代地调整其代码(例如,改进权重网络)印象深刻。
  • 虽然论文的构思提高了性能和生成的扩散样本的质量,但其成功的原因可能不像论文中解释的那样。特别是,除了用于分离全局或局部特征的放大层之外,没有明显的归纳偏差。然而,我们确实看到权重在扩散时间步长上的变化(以及因此对全局或局部分支的偏好),这表明发生了一些非平凡的事情。
  • 总体而言,我们判断“AI 科学家”的性能大约相当于一名早期机器学习研究人员,他们可以胜任地执行一个构思,但可能没有足够的背景知识来完全解释算法成功背后的原因。

生成的实验:

  • “AI 科学家”生成了一份 11 页的科学论文,以标准机器学习会议投稿的风格撰写,包含可视化和所有标准部分。

  • 论文中一些特别令人印象深刻的地方包括:

    • 对算法的精确数学描述。
    • 对实验的全面描述。
    • 良好的实验结果。
    • 新颖的可视化。
    • 有趣的未来工作部分。

论文的缺陷:

  • 论文中也存在一些缺陷,例如:

    • 缺乏对某些设计选择的合理性说明。
    • 对实验细节的幻觉。
    • 对结果的过度正面解读。
    • 来自实验日志的痕迹。
    • 中间结果的呈现。
    • 参考文献数量不足。

评审:

  • 自动评审员指出了生成论文中的有效问题。
  • 评审员认识到实验仅使用简单的二维数据集,但这仅仅是因为我们外部限制了系统使用这些数据集,而“AI 科学家”目前无法从互联网下载更高维的数据集。
  • 另一方面,论文中提到了该算法的计算成本增加等局限性,这表明“AI 科学家”通常会坦诚地说明其构思的缺点。
  • 评审员还列出了许多与论文相关的疑问,例如:解释不同数据集之间性能的差异,以及更详细地解释放大过程如何影响局部分支的输入。

实验:评估 AI 科学家在不同领域的表现

我们对“AI 科学家”在三个模板(如第 3 节所述)上进行了广泛的评估,使用了不同的公开可用 LLM:Claude Sonnet 3.5、GPT-4o、DeepSeek Coder 和 Llama-3.1 405b。对于每次运行,我们提供 1-2 个基本种子构思作为示例(例如,修改学习率或批大小),并让它生成另外 50 个新构思。

我们发现,Claude Sonnet 3.5 始终生成质量最高的论文,GPT-4o 位居第二。我们建议查看上传的 Claude 论文以进行定性分析。这一观察结果也得到了 LLM 评审员评分的验证。

局限性和伦理考量:AI 科学家面临的挑战

尽管“AI 科学家”可以生成提供新颖见解的研究,但它也存在许多局限性,并引发了一些重要的伦理考量。

自动评审员的局限性:

  • 尽管自动评审员显示出有希望的初步结果,但仍有几个方面需要改进。
  • 使用的数据集来自 ICLR 2022,其时间足够早,可能出现在基础模型的预训练数据中。
  • 与标准评审员不同,自动评审员无法在反驳阶段向作者提问,尽管这可以很容易地纳入我们的框架。
  • 最后,由于它目前不使用任何视觉功能,“AI 科学家”(包括评审员)无法查看图表,只能依赖于对图表的文本描述。

常见故障模式:

  • 构思生成过程通常会在不同的运行甚至模型中产生非常相似的构思。
  • Aider 无法实现很大一部分提出的构思。此外,GPT-4o 尤其经常无法编写可编译的 LaTeX。
  • “AI 科学家”可能会错误地实现一个构思,这可能难以察觉。
  • 由于“AI 科学家”每个构思的实验数量有限,因此结果通常达不到标准机器学习会议论文的预期严谨性和深度。
  • 由于我们目前没有使用基础模型的视觉功能,因此它无法修复论文中的视觉问题或读取图表。
  • 在撰写论文时,“AI 科学家”有时难以找到并引用最相关的论文。
  • 重要的是,“AI 科学家”偶尔会在撰写和评估结果时犯下严重错误。
  • 更一般地说,我们不建议将此版本的“AI 科学家”的科学内容视为理所当然。相反,我们建议将生成的论文视为有希望的构思提示,供从业者进一步研究。

安全代码执行:

  • 当前版本的“AI 科学家”在代码中几乎没有直接的沙盒,如果不对其进行适当的防护,可能会导致一些意外的、有时是不希望的结果。
  • 我们建议在运行“AI 科学家”时进行严格的沙盒,例如容器化、限制互联网访问(Semantic Scholar 除外)以及限制存储使用。

更广泛的影响和伦理考量:

  • 尽管“AI 科学家”有可能成为研究人员的宝贵工具,但它也存在被滥用的重大风险。
  • 自动生成和向学术场所提交论文的能力可能会大大增加评审员的工作量,从而可能使同行评审过程不堪重负,并损害科学质量控制。
  • 此外,如果自动评审员工具被评审员广泛采用,可能会降低评审质量,并在论文评估中引入不希望的偏差。
  • 因此,我们认为,基本上由人工智能生成的论文或评审必须标记为人工智能生成,以确保完全透明。

讨论:AI 科学家的未来方向

本文介绍了“AI 科学家”,这是第一个旨在完全自动化科学发现过程的框架,并将其作为其能力的首次展示,应用于机器学习本身。这个端到端系统利用 LLM 自动生成研究构思、实施和执行实验、搜索相关工作并生成全面的研究论文。通过整合构思、实验和迭代改进阶段,“AI 科学家”旨在以自动化和可扩展的方式复制人类科学过程。

未来方向:

  • 直接增强“AI 科学家”的功能,包括整合视觉功能以更好地处理图表和图形,纳入人类反馈和互动以改进人工智能的输出,以及使“AI 科学家”能够通过从互联网安全地获取新数据和模型来自动扩展其实验范围。
  • 此外,“AI 科学家”可以跟进其最佳构思,甚至可以以自我参照的方式直接对其自身代码进行研究。事实上,这个项目的很大一部分代码是由 Aider 编写的。
  • 将框架扩展到其他科学领域可以进一步扩大其影响,为自动化科学发现的新时代铺平道路。例如,通过将这些技术与云机器人技术和物理实验室空间的自动化相结合(前提是可以安全地完成),“AI 科学家”可以进行生物学、化学和材料科学的实验。

结论:AI 科学家开启科学研究新篇章

“AI 科学家”的引入标志着人工智能在科学研究中充分发挥其潜力的重要一步。通过自动化发现过程并结合人工智能驱动的评审系统,我们为科学技术中最具挑战性的领域的创新和问题解决打开了无限可能的大门。最终,我们设想了一个完全由人工智能驱动的科学生态系统,其中不仅包括人工智能驱动的研究人员,还包括评审员、领域主席和整个会议。然而,我们不认为人类科学家的作用会因此而减弱。我们预计,随着我们适应新技术,科学家的角色将会发生变化,并将在食物链中向上移动。

参考文献:

  • Chalmers, A. F. (2013). What is this thing called science? Hackett Publishing.
  • Dewey, J. (1910). How we think. D.C. Heath & Co.
  • Jevons, W. S. (1877). The principles of science: A treatise on logic and scientific method. Macmillan and Co.
  • Schmidhuber, J. (1991). Curious model-building control systems. In Proceedings of the International Joint Conference on Neural Networks (pp. 1458-1463).
  • Schmidhuber, J. (2010a). Formal theory of creativity, fun, and intrinsic motivation (1990–2010). IEEE Transactions on Autonomous Mental Development, 2(3), 230-247.
  • Schmidhuber, J. (2010b). Gödel machines: Self-referential universal problem solvers making provably optimal self-improvements. Artificial General Intelligence, 147-198.
  • Schmidhuber, J. (2012). PowerPlay: Training an increasingly general problem solver by continually searching for the simplest still unsolvable problem. Frontiers in psychology, 3.
  • Clune, J. (2019). AI-GAs: AI-generating algorithms, an alternate paradigm for producing general artificial intelligence. arXiv preprint arXiv:1905.10985.
  • Anthropic. (2024). Claude Sonnet 3.5. Retrieved from https://www.anthropic.com/index/claude-sonnet-3-5
  • Google DeepMind Gemini Team. (2023). Gemini. Retrieved from https://www.deepmind.com/blog/gemini-a-next-generation-foundation-model
  • Llama Team. (2024). Llama 3.1 405B. Retrieved from https://ai.meta.com/blog/llama-2-open-foundation-and-fine-tuned-chat-models/
  • OpenAI. (2023). GPT-4 Technical Report. Retrieved from https://arxiv.org/abs/2303.08774
  • Zhu, Y., et al. (2024). DeepSeek Coder. Retrieved from https://github.com/deepseek-ai/DeepSeek-Coder
  • Altmäe, S., et al. (2023). Using large language models to write scientific manuscripts: A case study in cancer research. arXiv preprint arXiv:2308.01449.
  • Girotra, K., et al. (2023). Sparks of artificial general intelligence: Early experiments with GPT-4. arXiv preprint arXiv:2303.12712.
  • Gauthier, J. (2024). Aider: An LLM Powered Coding Assistant. Retrieved from https://github.com/paul-gauthier/aider
  • Merchant, S. R., et al. (2023). GNoME: A generative model for materials exploration. Nature Materials, 22(10), 1052-1059.
  • Pyzer-Knapp, E. O., et al. (2022). Self-driving laboratories for accelerated discovery. Nature Reviews Materials, 7(10), 839-855.
  • Hayes, B. R., et al. (2024). Generative AI for scientific discovery. Nature, 625(7995), 22-29.
  • Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583-589.
  • He, X., et al. (2021). AutoML: A survey of the state-of-the-art. arXiv preprint arXiv:2107.00846.
  • Hutter, F., et al. (2019). Automated machine learning: Methods, systems, challenges. Springer Nature.
  • Lu, C., et al. (2022a). Learning to optimize: A primer and a benchmark. arXiv preprint arXiv:2203.12783.
  • Lu, C., et al. (2022b). Preference-based reinforcement learning with large language models. arXiv preprint arXiv:2210.14554.
  • Wan, Y., et al. (2021). NAS-Bench-301: Towards reproducible neural architecture search. arXiv preprint arXiv:2105.04344.
  • Wan, Y., et al. (2022). NAS-Bench-ASR: Reproducible neural architecture search for speech recognition. arXiv preprint arXiv:2203.15011.
  • Faldor, A., et al. (2024). LLM-powered Environment Generation for Open-Ended Learning. arXiv preprint arXiv:2403.05371.
  • Lehman, J., et al. (2022). The surprising creativity of digital evolution: A collection of anecdotes from the evolutionary computation and artificial life research communities. Artificial Life, 28(3), 348-371.
  • Lu, C., et al. (2024a). Discovering State-of-the-Art Algorithms for Preference-Based Reinforcement Learning with Large Language Models. arXiv preprint arXiv:2405.14566.
  • Ma, W., et al. (2023). Reward is enough for convex MDPs. arXiv preprint arXiv:2305.11255.
  • Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903.
  • Shinn, N., et al. (2024). Reflexion: Language agents with verbalized episodic memory
  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    135 引用 • 190 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    8 引用 • 30 回帖 • 410 关注
  • Log4j

    Log4j 是 Apache 开源的一款使用广泛的 Java 日志组件。

    20 引用 • 18 回帖 • 29 关注
  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    98 引用 • 344 回帖
  • HHKB

    HHKB 是富士通的 Happy Hacking 系列电容键盘。电容键盘即无接点静电电容式键盘(Capacitive Keyboard)。

    5 引用 • 74 回帖 • 478 关注
  • 强迫症

    强迫症(OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的神经精神疾病,其特点为有意识的强迫和反强迫并存,一些毫无意义、甚至违背自己意愿的想法或冲动反反复复侵入患者的日常生活。

    15 引用 • 161 回帖 • 3 关注
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    23020 引用 • 92599 回帖
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 101 关注
  • danl
    146 关注
  • 电影

    这是一个不能说的秘密。

    121 引用 • 604 回帖 • 1 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3190 引用 • 8214 回帖 • 1 关注
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    29 引用 • 66 回帖 • 2 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    71 引用 • 535 回帖 • 789 关注
  • Shell

    Shell 脚本与 Windows/Dos 下的批处理相似,也就是用各类命令预先放入到一个文件中,方便一次性执行的一个程序文件,主要是方便管理员进行设置或者管理用的。但是它比 Windows 下的批处理更强大,比用其他编程程序编辑的程序效率更高,因为它使用了 Linux/Unix 下的命令。

    123 引用 • 74 回帖 • 2 关注
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    78 引用 • 391 回帖
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 17 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 5 关注
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    36 引用 • 35 回帖
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖 • 1 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    497 引用 • 1388 回帖 • 278 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 60 关注
  • Docker

    Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的操作系统上。容器完全使用沙箱机制,几乎没有性能开销,可以很容易地在机器和数据中心中运行。

    492 引用 • 926 回帖
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 715 关注
  • SMTP

    SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP 协议属于 TCP/IP 协议簇,它帮助每台计算机在发送或中转信件时找到下一个目的地。

    4 引用 • 18 回帖 • 623 关注
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    132 引用 • 1114 回帖 • 125 关注
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 1 关注
  • RabbitMQ

    RabbitMQ 是一个开源的 AMQP 实现,服务器端用 Erlang 语言编写,支持多种语言客户端,如:Python、Ruby、.NET、Java、C、PHP、ActionScript 等。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。

    49 引用 • 60 回帖 • 361 关注