AI 科学家:全自动开放式科学发现

引言:人工智能引领科学发现新纪元

科学方法是人类文明的基石,其迭代过程推动了无数科学技术突破,改善了人类生活质量。然而,传统的科学研究方法受限于研究人员的知识、经验和时间。人工智能领域的研究者们一直梦想着利用人工智能本身来自动化人工智能研究,从而实现“人工智能生成算法”。近年来,基础模型在通用能力方面取得了巨大进步,但它们仅被用于加速研究流程的个别部分,例如撰写科学论文、头脑风暴或辅助编码。迄今为止,尚未出现完全无需人工干预即可执行整个研究工作的案例。

人工智能科学家:自动化研究的突破

本文介绍了首个由前沿大型语言模型(LLM)驱动的端到端论文生成框架——“AI 科学家”。该框架能够在给定广泛的研究方向和简单的初始代码库的情况下,无缝地执行构思、文献检索、实验计划、实验迭代、论文撰写和同行评审,最终生成具有洞察力的论文。

AI 科学家的工作流程:从构思到论文

“AI 科学家”的工作流程分为三个主要阶段:(1)构思生成,(2)实验迭代和(3)论文撰写。在撰写完成后,我们引入并验证了一个 LLM 生成的评审流程,以评估生成论文的质量。

  1. 构思生成: “AI 科学家”首先根据提供的模板和其先前的发现档案“头脑风暴”出一系列新颖的研究方向。它利用 LLM 作为变异算子,迭代地生成一个构思档案。每个构思都包含描述、实验执行计划以及(自我评估的)趣味性、新颖性和可行性数值评分。在构思生成后,通过连接语言模型与 Semantic Scholar API 和网络访问工具,过滤掉与现有文献过于相似的构思。

  2. 实验迭代: “AI 科学家”使用最先进的编码助手 Aider 来计划和执行一系列实验。为了提高流程的稳健性,如果实验失败或超时,Aider 会尝试修复代码并重新执行实验,最多尝试四次。在每次实验完成后,Aider 会以实验日志的风格记录结果。然后,它会根据结果重新计划和执行下一个实验。此过程最多重复五次。实验完成后,Aider 会编辑绘图脚本,使用 Python 为论文创建图表。

  3. 论文撰写: “AI 科学家”以标准机器学习会议论文的风格,用 LaTeX 生成一份简洁且信息丰富的进度报告。为了提高流程的稳健性,论文撰写过程分为以下几个步骤:

    • 分节文本生成: Aider 会根据记录的笔记和图表,逐节填写空白的会议论文模板。撰写顺序为引言、背景、方法、实验设置、结果和结论(所有部分除了相关工作)。在撰写的每个步骤中,Aider 都会被提示只使用从代码生成的真实实验结果和真实引用,以减少幻觉。
    • 网络搜索参考文献: 类似于构思生成阶段,“AI 科学家”可以使用 Semantic Scholar API 搜索最相关的文献,并将其与近乎完成的论文进行比较和对比,以完成相关工作部分。
    • 精炼: 在完成前两个阶段后,“AI 科学家”会对论文进行最后的精炼,以删除重复信息并简化论证。
    • 编译: 最后,将填写了所有适当结果的 LaTeX 模板输入 LaTeX 编译器。我们使用 LaTeX linter 并将编译错误反馈给 Aider,以便它可以自动更正任何问题。

自动化论文评审:评估 AI 科学家的成果

为了模拟人类科学界的评审过程,我们设计了一个基于 GPT-4o 的代理来进行论文评审,评审标准基于神经信息处理系统(NeurIPS)会议的评审指南。评审代理使用 PyMuPDF 解析库处理 PDF 论文的原始文本。输出包含数值评分(可靠性、表达、贡献、总体、置信度)、优缺点列表以及初步的二元决策(接受或拒绝)。

案例研究:深入分析 AI 科学家生成的论文

为了展示“AI 科学家”的能力和局限性,我们选择了一篇名为“自适应双尺度去噪”的论文进行深入分析。这篇论文是由“AI 科学家”在被要求进行扩散模型研究时生成的。

生成的构思:

  • “AI 科学家”正确地识别了扩散模型研究中一个有趣且动机良好的方向,例如先前的工作已经研究了用于相同目的的改进注意力机制。
  • 它提出了一个全面的实验计划来研究其构思,并成功地实施了所有计划,取得了良好的结果。我们对它如何对早期结果不佳做出反应并迭代地调整其代码(例如,改进权重网络)印象深刻。
  • 虽然论文的构思提高了性能和生成的扩散样本的质量,但其成功的原因可能不像论文中解释的那样。特别是,除了用于分离全局或局部特征的放大层之外,没有明显的归纳偏差。然而,我们确实看到权重在扩散时间步长上的变化(以及因此对全局或局部分支的偏好),这表明发生了一些非平凡的事情。
  • 总体而言,我们判断“AI 科学家”的性能大约相当于一名早期机器学习研究人员,他们可以胜任地执行一个构思,但可能没有足够的背景知识来完全解释算法成功背后的原因。

生成的实验:

  • “AI 科学家”生成了一份 11 页的科学论文,以标准机器学习会议投稿的风格撰写,包含可视化和所有标准部分。

  • 论文中一些特别令人印象深刻的地方包括:

    • 对算法的精确数学描述。
    • 对实验的全面描述。
    • 良好的实验结果。
    • 新颖的可视化。
    • 有趣的未来工作部分。

论文的缺陷:

  • 论文中也存在一些缺陷,例如:

    • 缺乏对某些设计选择的合理性说明。
    • 对实验细节的幻觉。
    • 对结果的过度正面解读。
    • 来自实验日志的痕迹。
    • 中间结果的呈现。
    • 参考文献数量不足。

评审:

  • 自动评审员指出了生成论文中的有效问题。
  • 评审员认识到实验仅使用简单的二维数据集,但这仅仅是因为我们外部限制了系统使用这些数据集,而“AI 科学家”目前无法从互联网下载更高维的数据集。
  • 另一方面,论文中提到了该算法的计算成本增加等局限性,这表明“AI 科学家”通常会坦诚地说明其构思的缺点。
  • 评审员还列出了许多与论文相关的疑问,例如:解释不同数据集之间性能的差异,以及更详细地解释放大过程如何影响局部分支的输入。

实验:评估 AI 科学家在不同领域的表现

我们对“AI 科学家”在三个模板(如第 3 节所述)上进行了广泛的评估,使用了不同的公开可用 LLM:Claude Sonnet 3.5、GPT-4o、DeepSeek Coder 和 Llama-3.1 405b。对于每次运行,我们提供 1-2 个基本种子构思作为示例(例如,修改学习率或批大小),并让它生成另外 50 个新构思。

我们发现,Claude Sonnet 3.5 始终生成质量最高的论文,GPT-4o 位居第二。我们建议查看上传的 Claude 论文以进行定性分析。这一观察结果也得到了 LLM 评审员评分的验证。

局限性和伦理考量:AI 科学家面临的挑战

尽管“AI 科学家”可以生成提供新颖见解的研究,但它也存在许多局限性,并引发了一些重要的伦理考量。

自动评审员的局限性:

  • 尽管自动评审员显示出有希望的初步结果,但仍有几个方面需要改进。
  • 使用的数据集来自 ICLR 2022,其时间足够早,可能出现在基础模型的预训练数据中。
  • 与标准评审员不同,自动评审员无法在反驳阶段向作者提问,尽管这可以很容易地纳入我们的框架。
  • 最后,由于它目前不使用任何视觉功能,“AI 科学家”(包括评审员)无法查看图表,只能依赖于对图表的文本描述。

常见故障模式:

  • 构思生成过程通常会在不同的运行甚至模型中产生非常相似的构思。
  • Aider 无法实现很大一部分提出的构思。此外,GPT-4o 尤其经常无法编写可编译的 LaTeX。
  • “AI 科学家”可能会错误地实现一个构思,这可能难以察觉。
  • 由于“AI 科学家”每个构思的实验数量有限,因此结果通常达不到标准机器学习会议论文的预期严谨性和深度。
  • 由于我们目前没有使用基础模型的视觉功能,因此它无法修复论文中的视觉问题或读取图表。
  • 在撰写论文时,“AI 科学家”有时难以找到并引用最相关的论文。
  • 重要的是,“AI 科学家”偶尔会在撰写和评估结果时犯下严重错误。
  • 更一般地说,我们不建议将此版本的“AI 科学家”的科学内容视为理所当然。相反,我们建议将生成的论文视为有希望的构思提示,供从业者进一步研究。

安全代码执行:

  • 当前版本的“AI 科学家”在代码中几乎没有直接的沙盒,如果不对其进行适当的防护,可能会导致一些意外的、有时是不希望的结果。
  • 我们建议在运行“AI 科学家”时进行严格的沙盒,例如容器化、限制互联网访问(Semantic Scholar 除外)以及限制存储使用。

更广泛的影响和伦理考量:

  • 尽管“AI 科学家”有可能成为研究人员的宝贵工具,但它也存在被滥用的重大风险。
  • 自动生成和向学术场所提交论文的能力可能会大大增加评审员的工作量,从而可能使同行评审过程不堪重负,并损害科学质量控制。
  • 此外,如果自动评审员工具被评审员广泛采用,可能会降低评审质量,并在论文评估中引入不希望的偏差。
  • 因此,我们认为,基本上由人工智能生成的论文或评审必须标记为人工智能生成,以确保完全透明。

讨论:AI 科学家的未来方向

本文介绍了“AI 科学家”,这是第一个旨在完全自动化科学发现过程的框架,并将其作为其能力的首次展示,应用于机器学习本身。这个端到端系统利用 LLM 自动生成研究构思、实施和执行实验、搜索相关工作并生成全面的研究论文。通过整合构思、实验和迭代改进阶段,“AI 科学家”旨在以自动化和可扩展的方式复制人类科学过程。

未来方向:

  • 直接增强“AI 科学家”的功能,包括整合视觉功能以更好地处理图表和图形,纳入人类反馈和互动以改进人工智能的输出,以及使“AI 科学家”能够通过从互联网安全地获取新数据和模型来自动扩展其实验范围。
  • 此外,“AI 科学家”可以跟进其最佳构思,甚至可以以自我参照的方式直接对其自身代码进行研究。事实上,这个项目的很大一部分代码是由 Aider 编写的。
  • 将框架扩展到其他科学领域可以进一步扩大其影响,为自动化科学发现的新时代铺平道路。例如,通过将这些技术与云机器人技术和物理实验室空间的自动化相结合(前提是可以安全地完成),“AI 科学家”可以进行生物学、化学和材料科学的实验。

结论:AI 科学家开启科学研究新篇章

“AI 科学家”的引入标志着人工智能在科学研究中充分发挥其潜力的重要一步。通过自动化发现过程并结合人工智能驱动的评审系统,我们为科学技术中最具挑战性的领域的创新和问题解决打开了无限可能的大门。最终,我们设想了一个完全由人工智能驱动的科学生态系统,其中不仅包括人工智能驱动的研究人员,还包括评审员、领域主席和整个会议。然而,我们不认为人类科学家的作用会因此而减弱。我们预计,随着我们适应新技术,科学家的角色将会发生变化,并将在食物链中向上移动。

参考文献:

  • Chalmers, A. F. (2013). What is this thing called science? Hackett Publishing.
  • Dewey, J. (1910). How we think. D.C. Heath & Co.
  • Jevons, W. S. (1877). The principles of science: A treatise on logic and scientific method. Macmillan and Co.
  • Schmidhuber, J. (1991). Curious model-building control systems. In Proceedings of the International Joint Conference on Neural Networks (pp. 1458-1463).
  • Schmidhuber, J. (2010a). Formal theory of creativity, fun, and intrinsic motivation (1990–2010). IEEE Transactions on Autonomous Mental Development, 2(3), 230-247.
  • Schmidhuber, J. (2010b). Gödel machines: Self-referential universal problem solvers making provably optimal self-improvements. Artificial General Intelligence, 147-198.
  • Schmidhuber, J. (2012). PowerPlay: Training an increasingly general problem solver by continually searching for the simplest still unsolvable problem. Frontiers in psychology, 3.
  • Clune, J. (2019). AI-GAs: AI-generating algorithms, an alternate paradigm for producing general artificial intelligence. arXiv preprint arXiv:1905.10985.
  • Anthropic. (2024). Claude Sonnet 3.5. Retrieved from https://www.anthropic.com/index/claude-sonnet-3-5
  • Google DeepMind Gemini Team. (2023). Gemini. Retrieved from https://www.deepmind.com/blog/gemini-a-next-generation-foundation-model
  • Llama Team. (2024). Llama 3.1 405B. Retrieved from https://ai.meta.com/blog/llama-2-open-foundation-and-fine-tuned-chat-models/
  • OpenAI. (2023). GPT-4 Technical Report. Retrieved from https://arxiv.org/abs/2303.08774
  • Zhu, Y., et al. (2024). DeepSeek Coder. Retrieved from https://github.com/deepseek-ai/DeepSeek-Coder
  • Altmäe, S., et al. (2023). Using large language models to write scientific manuscripts: A case study in cancer research. arXiv preprint arXiv:2308.01449.
  • Girotra, K., et al. (2023). Sparks of artificial general intelligence: Early experiments with GPT-4. arXiv preprint arXiv:2303.12712.
  • Gauthier, J. (2024). Aider: An LLM Powered Coding Assistant. Retrieved from https://github.com/paul-gauthier/aider
  • Merchant, S. R., et al. (2023). GNoME: A generative model for materials exploration. Nature Materials, 22(10), 1052-1059.
  • Pyzer-Knapp, E. O., et al. (2022). Self-driving laboratories for accelerated discovery. Nature Reviews Materials, 7(10), 839-855.
  • Hayes, B. R., et al. (2024). Generative AI for scientific discovery. Nature, 625(7995), 22-29.
  • Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583-589.
  • He, X., et al. (2021). AutoML: A survey of the state-of-the-art. arXiv preprint arXiv:2107.00846.
  • Hutter, F., et al. (2019). Automated machine learning: Methods, systems, challenges. Springer Nature.
  • Lu, C., et al. (2022a). Learning to optimize: A primer and a benchmark. arXiv preprint arXiv:2203.12783.
  • Lu, C., et al. (2022b). Preference-based reinforcement learning with large language models. arXiv preprint arXiv:2210.14554.
  • Wan, Y., et al. (2021). NAS-Bench-301: Towards reproducible neural architecture search. arXiv preprint arXiv:2105.04344.
  • Wan, Y., et al. (2022). NAS-Bench-ASR: Reproducible neural architecture search for speech recognition. arXiv preprint arXiv:2203.15011.
  • Faldor, A., et al. (2024). LLM-powered Environment Generation for Open-Ended Learning. arXiv preprint arXiv:2403.05371.
  • Lehman, J., et al. (2022). The surprising creativity of digital evolution: A collection of anecdotes from the evolutionary computation and artificial life research communities. Artificial Life, 28(3), 348-371.
  • Lu, C., et al. (2024a). Discovering State-of-the-Art Algorithms for Preference-Based Reinforcement Learning with Large Language Models. arXiv preprint arXiv:2405.14566.
  • Ma, W., et al. (2023). Reward is enough for convex MDPs. arXiv preprint arXiv:2305.11255.
  • Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903.
  • Shinn, N., et al. (2024). Reflexion: Language agents with verbalized episodic memory
  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    132 引用 • 189 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    49 引用 • 33 回帖 • 22 关注
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 742 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3187 引用 • 8213 回帖
  • 外包

    有空闲时间是接外包好呢还是学习好呢?

    26 引用 • 232 回帖 • 2 关注
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    286 引用 • 248 回帖 • 62 关注
  • 招聘

    哪里都缺人,哪里都不缺人。

    190 引用 • 1057 回帖
  • 安全

    安全永远都不是一个小问题。

    199 引用 • 816 回帖 • 1 关注
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 1 关注
  • 电影

    这是一个不能说的秘密。

    120 引用 • 599 回帖
  • Love2D

    Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。

    14 引用 • 53 回帖 • 531 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    47 引用 • 25 回帖 • 1 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 99 关注
  • RabbitMQ

    RabbitMQ 是一个开源的 AMQP 实现,服务器端用 Erlang 语言编写,支持多种语言客户端,如:Python、Ruby、.NET、Java、C、PHP、ActionScript 等。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。

    49 引用 • 60 回帖 • 362 关注
  • HHKB

    HHKB 是富士通的 Happy Hacking 系列电容键盘。电容键盘即无接点静电电容式键盘(Capacitive Keyboard)。

    5 引用 • 74 回帖 • 471 关注
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 18 关注
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    15 引用 • 7 回帖 • 1 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 328 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    107 引用 • 295 回帖
  • React

    React 是 Facebook 开源的一个用于构建 UI 的 JavaScript 库。

    192 引用 • 291 回帖 • 384 关注
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    32 引用 • 130 回帖 • 2 关注
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    12 引用 • 54 回帖 • 63 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖