使用 LLVM 开发新语言 Kaleidoscope 教程

本贴最后更新于 1754 天前,其中的信息可能已经时移俗易

原文链接: 使用 LLVM 开发新语言 Kaleidoscope 教程

前言: 本系列是 My First Language Frontend with LLVM Tutorial 译文,诣在熟悉 LLVM 的开发流程,网上有一些翻译只有前三个部分,没有翻译全,并且都是四五年前的没有更新过。由于对于编译器的概念只停留在理论上,想从代码的角度深入理解一下编译器,希望通过这部分的练习可以帮助到我。利用国庆假期这几天,我会仔细阅读此系列文档及源码并尝试翻译和记录。

要求: 本教程只需要了解 C++ 语言知识,编译器的相关经验不是必需的。

本教程介绍了一种简单语言的实现,展示了它多么有趣和轻松。本文将帮助我们快速入门,运行并演示使用 LLVM 生成代码的具体示例。

本教程将开发一个简单的“Kaleidoscope”语言,并在连续几章中对其进行迭代构建,并展示如何逐步构建。这样一来,我们就可以涵盖一系列语言设计和 LLVM 特定思想,一路展示和解释其代码,并减少大量的细节分析。我们强烈建议动手复制修改并运行代码,以此加深对编译器实现的理解。

友情提示: 为了专注于专门讲授编译器技术和 LLVM,本教程没有展示软件工程原理的最佳实践。例如,代码普遍使用全局变量,不使用 visiters 设计模式等,而是使事情保持简单并专注于手头的编译器实现。

本教程分为以下十章,涵盖各个主题,你可以随意跳过从感兴趣的地方开始看:

  • 第一章:Kaleidoscope 语言和 Lexer 这部分展示了我们要做的基本功能。词法分析器也是构建语言解析器的第一部分,我们使用了易于理解的简单 C++ 词法分析器。
  • 第二章:实现解析器和 AST 有了词法分析器,我们可以讨论解析技术和基本 AST 构造。本章介绍了递归下降解析和运算符优先级解析。
  • 第三章: 生成 LLVM 中间代码 IR 在准备好 AST 之后,我们将展示 LLVM 生成 IR 的简便性,并展示了一种将 LLVM 集成到项目中的简单方法。
  • 第四章: 添加 JIT 和 Optimizer 支持 LLVM 的一大优点是它对 JIT 编译的支持,因此我们将深入探讨它,并展示添加 JIT 支持所需的三行内容。后面的章节介绍了如何生成.o 文件。
  • 第五章: 扩展语言---控制流 随着基本语言的启动和运行,我们展示了如何通过控制流操作(“ if”语句和“ for”循环)进行扩展。这使我们有机会讨论 SSA 的构建和控制流程。
  • 第六章: 扩展语言---用户定义运算符 本章扩展了语言,使用户可以定义任意一元和二进制运算符并具有相应的优先级。这使我们可以将很大一部分“语言”构建为库例程。
  • 第七章: 扩展语言---可变变量 本章节讨论如何用赋值语句添加用户自定义地本地变量。有趣的是,构造 SSA 在 LLVM 是相当简单的,但是 LLVM 并不要求你的前端来构造 SSA 结构。
  • 第八章: 编译为目标代码 本章介绍如何获取 LLVM IR 并将其编译为目标代码,就像静态编译器一样。
  • 第九章: 增加调试信息 一种真正的语言需要支持调试器,因此我们添加了调试信息,该信息允许在 Kaleidoscope 函数中设置断点,输出参数变量和调用函数!
  • 第十章: 总结和其他技巧 本章通过讨论扩展语言的方式来总结本系列,并包括指向“special topics”的信息的指针,例如添加垃圾收集支持、异常处理、调试和对“spaghetti stacks”的支持等。

在本教程结束时,我们将编写不超过 1000 行(除去注释和空行)代码。借助少量的代码,我们将为一个普通的语言构建一个功能齐全的小型编译器,其中包括手写词法分析器,解析器,AST,以及代码生成(包括静态编译和 JIT 编译)。这种扩展充分证明了 LLVM 的优势,并说明了为什么 LLVM 被众多语言设计人员和其他研究高性能代码生成的人所喜爱。


参考:My First Language Frontend with LLVM Tutorial

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • Ever

    卧槽,这么顶吗?收藏了。

    1 回复
  • 其他回帖
  • Hanseltu
    作者

    😂 有机会多交流~

  • beanflame

    卧槽,这写的好么,那就收藏一下了

推荐标签 标签

  • V2Ray
    1 引用 • 15 回帖 • 2 关注
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    9 引用 • 32 回帖 • 146 关注
  • PWA

    PWA(Progressive Web App)是 Google 在 2015 年提出、2016 年 6 月开始推广的项目。它结合了一系列现代 Web 技术,在网页应用中实现和原生应用相近的用户体验。

    14 引用 • 69 回帖 • 135 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    138 引用 • 268 回帖 • 130 关注
  • 30Seconds

    📙 前端知识精选集,包含 HTML、CSS、JavaScript、React、Node、安全等方面,每天仅需 30 秒。

    • 精选常见面试题,帮助您准备下一次面试
    • 精选常见交互,帮助您拥有简洁酷炫的站点
    • 精选有用的 React 片段,帮助你获取最佳实践
    • 精选常见代码集,帮助您提高打码效率
    • 整理前端界的最新资讯,邀您一同探索新世界
    488 引用 • 383 回帖
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    54 引用 • 85 回帖
  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    76 引用 • 429 回帖
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    130 引用 • 793 回帖
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 194 关注
  • NGINX

    NGINX 是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器。 NGINX 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,第一个公开版本 0.1.0 发布于 2004 年 10 月 4 日。

    311 引用 • 546 回帖 • 1 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 7 关注
  • 强迫症

    强迫症(OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的神经精神疾病,其特点为有意识的强迫和反强迫并存,一些毫无意义、甚至违背自己意愿的想法或冲动反反复复侵入患者的日常生活。

    15 引用 • 161 回帖
  • 安全

    安全永远都不是一个小问题。

    191 引用 • 813 回帖 • 1 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    70 引用 • 533 回帖 • 735 关注
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 616 关注
  • Facebook

    Facebook 是一个联系朋友的社交工具。大家可以通过它和朋友、同事、同学以及周围的人保持互动交流,分享无限上传的图片,发布链接和视频,更可以增进对朋友的了解。

    4 引用 • 15 回帖 • 458 关注
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    148 引用 • 257 回帖
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    14 引用 • 7 回帖 • 5 关注
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖
  • ZeroNet

    ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。

    1 引用 • 21 回帖 • 609 关注
  • 负能量

    上帝为你关上了一扇门,然后就去睡觉了....努力不一定能成功,但不努力一定很轻松 (° ー °〃)

    88 引用 • 1234 回帖 • 442 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖
  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 613 关注
  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 648 关注