DSPy：用基础模型编程的利器

在当今人工智能快速发展的时代,各种大语言模型(LLM)和检索模型(RM)如雨后春笋般涌现。如何有效地利用这些强大的基础模型来构建实际应用,成为了一个亟待解决的问题。Stanford NLP 团队开发的 DSPy 框架为此提供了一个优雅的解决方案。本文将深入浅出地介绍 DSPy 框架的核心理念和使用方法,带领读者走进用基础模型编程的新世界。

🌈 DSPy:编程优于提示

DSPy 的核心理念是"编程优于提示"。与传统的提示工程相比,DSPy 提供了一套更加结构化、可组合的编程范式来使用大语言模型。它统一了提示工程、微调、推理增强和工具/检索增强等技术,将它们抽象为一组最小化的、可组合和可学习的 Python 操作。

这种方法有几个显著的优势:

更好的可复用性和可维护性。通过将复杂任务分解为可组合的模块,我们可以更容易地重用和维护代码。
更强的表达能力。DSPy 的声明式编程风格让我们能够更自然地表达复杂的任务流程。
自动优化。DSPy 提供了编译器,可以自动优化程序中的提示或生成微调。
跨模型兼容性。同一个 DSPy 程序可以轻松适配不同的语言模型,无需大幅修改代码。

让我们通过一个具体的例子来感受 DSPy 的魅力。假设我们要构建一个多跳问答系统,需要先检索相关信息,然后基于检索结果回答问题。在传统方法中,我们可能需要手动设计复杂的提示来指导模型完成这个过程。而使用 DSPy,我们可以将这个任务优雅地表达为:


class RAG(dspy.Module):
    def __init__(self, num_passages=3):
        super().__init__()
        self.retrieve = dspy.Retrieve(k=num_passages)
        self.generate_answer = dspy.ChainOfThought(GenerateAnswer)

    def forward(self, question):
        context = self.retrieve(question).passages
        prediction = self.generate_answer(context=context, question=question)
        return dspy.Prediction(context=context, answer=prediction.answer)

这段代码定义了一个简单的检索增强生成(RAG)模块。它首先使用 retrieve模块检索相关段落,然后使用 generate_answer模块生成答案。整个过程被封装在一个可重用的 RAG类中。

🏗️ DSPy 的核心构建块

签名(Signature)

在 DSPy 中,每个对语言模型的调用都需要一个签名(Signature)。签名定义了子任务的输入和输出,以及一个简短的描述。例如:


class BasicQA(dspy.Signature):
    """Answer questions with short factoid answers."""
    question = dspy.InputField()
    answer = dspy.OutputField(desc="often between 1 and 5 words")

这个签名定义了一个简单的问答任务,输入是一个问题,输出是一个简短的答案。

预测器(Predictor)

预测器是实现签名的模块。它知道如何使用语言模型来完成签名定义的任务。例如:


generate_answer = dspy.Predict(BasicQA)

这个预测器可以用来生成问题的答案:


pred = generate_answer(question="What is the capital of France?")
print(pred.answer)  # 输出: Paris

检索(Retrieve)

DSPy 提供了简单的检索接口。例如:


retrieve = dspy.Retrieve(k=3)
passages = retrieve("history of artificial intelligence").passages

这将检索与查询最相关的 3 个段落。

🧠 编译和优化

DSPy 的一个强大特性是它的编译器。编译器可以自动优化你的程序,生成高质量的提示或微调。

编译过程通常需要以下几个元素:

训练集：一些输入输出样例。
验证逻辑：定义什么是一次好的运行。
电报提示器(Teleprompter)：DSPy 编译器中用于优化程序的组件。

例如,我们可以这样编译我们的 RAG 程序:


teleprompter = BootstrapFewShot(metric=validate_context_and_answer)
compiled_rag = teleprompter.compile(RAG(), trainset=trainset)

编译后的程序通常会表现得更好,因为它学会了如何更有效地使用语言模型来完成任务。

🎨 高级技巧：多跳搜索

对于更复杂的任务,如多跳问答,我们可以构建更复杂的程序。例如,这里是一个简化的"Baleen"多跳搜索程序:


class SimplifiedBaleen(dspy.Module):
    def __init__(self, passages_per_hop=3, max_hops=2):
        super().__init__()
        self.generate_query = [dspy.ChainOfThought(GenerateSearchQuery) for _ in range(max_hops)]
        self.retrieve = dspy.Retrieve(k=passages_per_hop)
        self.generate_answer = dspy.ChainOfThought(GenerateAnswer)
        self.max_hops = max_hops

    def forward(self, question):
        context = []
        for hop in range(self.max_hops):
            query = self.generate_query[hop](context=context, question=question).query
            passages = self.retrieve(query).passages
            context = deduplicate(context + passages)
        pred = self.generate_answer(context=context, question=question)
        return dspy.Prediction(context=context, answer=pred.answer)

这个程序可以进行多次搜索，每次搜索都基于之前的结果生成新的查询，从而收集更多相关信息来回答复杂问题。

🌟 结语

DSPy 为我们提供了一种新的范式来使用和优化大语言模型。通过将复杂任务分解为可组合的模块,并利用自动编译和优化,DSPy 让我们能够更轻松地构建复杂的 AI 应用。随着基础模型的不断发展,DSPy 这样的高级抽象工具将在未来的 AI 应用开发中扮演越来越重要的角色。

无论你是想构建一个简单的问答系统,还是复杂的多任务 AI 助手,DSPy 都能为你提供强大而灵活的工具。让我们拥抱这个用基础模型编程的新时代,用 DSPy 释放 AI 的无限可能!

📚 参考文献

Khattab, O., Santhanam, K., Li, X., Hall, D., Liang, P., Potts, C., & Zaharia, M. (2023). Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP. arXiv preprint arXiv:2212.14024.
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.
Khattab, O., & Zaharia, M. (2020). ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT. In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 39-48).
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1-67.
Lewis, P., Wu, Y., Liu, L., Minervini, P., Küttler, H., Piktus, A., ... & Stenetorp, P. (2021). PAQ: 65 million probably-asked questions and what you can do with them. Transactions of the Association for Computational Linguistics, 9, 1098-1115.

DSPy：用基础模型编程的利器

🌈 DSPy:编程优于提示

🏗️ DSPy 的核心构建块

签名(Signature)

预测器(Predictor)

检索(Retrieve)

🧠 编译和优化

🎨 高级技巧：多跳搜索

🌟 结语

📚 参考文献

相关帖子

手机上可以多选吗

关于思源浏览器剪藏时选择的笔记路径过长显示不全导致无法准确选择的问题

长沙周末游旅行计划

请问怎么把确认键 enter 改成空格？

[js] 编辑器自定义光标（支持顺滑光标 / 是否闪烁 / 自定义样式等）

请问单个笔记的文件历史怎么看更改记录？

怎么才能使用 TotalCommander 打开思源笔记中的文件夹链接

欢迎来到这里！