打造人工认知:多重 AI 系统的融合之道

在人工智能快速发展的今天,单一 AI 模型已经在特定领域展现出惊人的能力。然而,要实现真正的人工认知,我们需要将多个 AI 系统有机结合,让它们协同工作,发挥各自所长。最近,一项来自澳大利亚堪培拉大学的研究为我们展示了这一融合之道的潜力。

人工认知:超越单一 AI 模型的局限

长期以来,AI 研究者们一直在追求人工通用智能(AGI)的目标。然而,目前的 AI 系统大多专注于特定任务,缺乏人类那样灵活多变的认知能力。人类认知的特点是适应性强、富有创造力,还具备情感智能,能够根据目标、规范以及社会和伦理考量来行事。相比之下,人工认知则是要在机器中模拟这些过程,使其能够自主完成任务。

"要评估 AI 系统的认知能力,我们需要考察它完成需要智力和适应性的任务的表现,"堪培拉大学的研究团队在论文中指出,"这包括模拟人类的认知过程,使 AI 能够与人类进行社交智能和适应性的互动。"

五大认知能力:构建 AI 认知的基石

研究团队基于前人的工作,提出了五项对 AI 认知至关重要的能力:

  1. 感知:解释和理解来自环境的感官信息的能力。
  2. 记忆:存储、保留和检索信息的能力。
  3. 注意力:专注于相关刺激同时过滤掉干扰的能力。
  4. 推理:从可用信息中得出逻辑推论和结论的能力。
  5. 预测:基于当前信息和过去经验预测未来事件或结果的能力。

研究团队选择以国际象棋作为测试环境,因为它需要运用上述所有认知能力。"国际象棋为我们提供了一个封闭且结构化的环境,我们可以在其中评估 AI 系统的认知能力,"研究人员解释道。

OpenSIAI:融合多重 AI 系统的创新架构

为了实现这些认知能力的协同,研究团队开发了名为 OpenSIAI 的系统。该系统巧妙地整合了多个 AI 模型和工具,每个组件都专门负责某些特定的认知功能。OpenSIAI 的核心组件包括:

  • 查询分析器服务
  • 基础大语言模型(LLM)或经过微调的 LLM
  • 基于 Faiss 向量数据库的外部知识源
  • 由 Stockfish 驱动的国际象棋引擎服务
  • 允许实时信息更新的向量数据库更新服务

这些组件通过精心设计的架构相互配合,共同实现系统的认知能力。例如,查询分析器负责理解用户输入,LLM 负责生成人类可理解的解释,国际象棋引擎提供专业的棋局分析,而向量数据库则为系统提供广泛的背景知识。

微调与检索增强生成:提升模型性能

为了进一步提高系统的性能,研究团队采用了多项先进技术。首先是对基础语言模型进行微调。研究人员选择了 Mistral 7B 作为基础模型,并使用了指令调优方法。他们还采用了教师-学生学习范式,以促进小型学生模型的慢速和深思熟虑的推理能力。

此外,研究人员还构建了一个包含详细逐步推理注释的国际象棋对局数据集。这个定制数据集进一步补充了公开可用的 Kaggle Lichess 数据集,以提供更广泛的国际象棋场景覆盖。

除了微调,研究团队还采用了检索增强生成(RAG)技术。RAG 允许系统利用存储在 Faiss 向量数据库中的外部知识源。嵌入模型在这个过程中起着关键作用,它将知识源中的文本信息和用户查询转换为高维向量,从而实现高效的相似性搜索。

认知能力评分机制:量化 AI 的"智商"

为了客观评估 OpenSIAI 系统的认知能力,研究团队设计了一套详细的评分机制。这套机制涵盖了前面提到的五大认知能力,每项能力都有其特定的评分标准。

  1. 感知能力评分:
    系统需要理解给定的国际象棋局面(FEN 格式),计算被吃掉的棋子数量,并提供详细的棋局分析。评分公式如下:

    s_{perception} = \frac{s_{FEN} + s_{capture} + s_{piece}}{问题数量}

    其中s_{capture} = 1 - \frac{|n_c - n_m|}{n_c}, n_c为实际被吃掉的棋子数,n_m为模型预测的数量。

  2. 记忆能力评分:
    通过测试系统的国际象棋常识以及对外部知识源的利用来评估。评分公式为:

    s_{memory} = \frac{正确答案数}{问题总数}

  3. 注意力能力评分:
    采用三步法评估,包括理解特定棋局片段、识别问题上下文以及检索相关信息。评分同样使用正确率计算。

  4. 推理能力评分:
    系统需要解决一系列国际象棋谜题,并为每步棋提供解释。人工评估者根据 6 级评分标准(从 0 到 5)对解释进行打分。最终得分为:

    s_{reasoning} = \frac{1}{5M}\sum_{i=1}^M \frac{\sum_{k=1}^{n_{sys}} s_i(k)}{n_{sys}^i}

    其中M为谜题总数,n_{sys}为系统预测的步数,s_i(k)为第i个谜题第k步的得分。

  5. 预测能力评分:
    评估系统预测对手移动和规划未来几步棋的能力。得分计算如下:

    s_{anticipation} = \frac{1}{M}\sum_{i=1}^M \min(\frac{n_i^{best}}{n_i^{sys}}, 1)

    其中n_i^{best}为最佳解法的步数,n_i^{sys}为系统解法的步数。

实验结果:OpenSIAI 的突出表现

研究团队对 OpenSIAI 系统进行了全面评估,并将其与多个顶级语言模型进行了比较,包括 GPT-4、GPT-3.5 Turbo、Gemma 7B Instruct 和 Mistral 7B Instruct。实验结果令人振奋:

  1. 最佳走法预测:
    在 40 局国际象棋对局中,OpenSIAI 系统准确预测最佳走法的成功率达到 100%,远超 GPT-4 单独使用时的 32.5%。这凸显了整合专业国际象棋引擎的重要性。
  2. 动态信息检索:
    系统展示了类似一次性学习的能力,能够实时更新和检索最新信息。这种能力对于处理快速变化的环境至关重要。
  3. 文档检索增强生成:
    OpenSIAI 能够从向量数据库中检索相关上下文,并利用经过调优的提示模板触发语言模型生成高质量文本。这种方法显著提高了系统的知识应用能力。
  4. 综合认知能力:
    在五大认知能力的综合评估中,OpenSIAI 表现出色。特别是在推理和预测能力方面,系统的表现超越了单独使用的大语言模型。

展望:迈向更强大的人工认知

堪培拉大学研究团队的这项工作为我们展示了一个充满希望的方向:通过整合多个专业 AI 系统,我们可以构建出具有更高级认知能力的人工智能。OpenSIAI 系统虽然仍处于概念验证阶段,但其潜力已经显而易见。

"我们的研究表明,单个 AI 模型可能独立展现某些认知品质,但将它们整合在一起可以产生与人类相媲美的认知行为,"研究团队在论文结尾处指出,"这为未来开发更先进的人工认知系统铺平了道路。"

展望未来,我们可以期待这种多系统融合方法在更广泛的领域得到应用,从医疗诊断到金融预测,再到复杂的决策支持系统。随着技术的不断进步,我们离真正的人工通用智能可能会越来越近。但与此同时,我们也需要密切关注这些系统的伦理和安全问题,确保它们的发展始终造福人类。

参考文献

  1. Adnan, M. et al. (2024). Unleashing Artificial Cognition: Integrating Multiple AI Systems. arXiv:2408.04910v1 [cs.AI].
  2. Cangelosi, A., & Asada, M. (2022). Cognitive Robotics. MIT Press.
  3. Chess.com. (n.d.). Chess Puzzles. Retrieved from https://www.chess.com/puzzles.
  4. Johnson, J. et al. (2023). QLoRA: Efficient Finetuning of Quantized LLMs. arXiv:2305.14314.
  5. LangChain. (n.d.). Official Documentation. Retrieved from https://python.langchain.com/docs/get_started/introduction.

  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    94 引用 • 170 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...