Kaleidoscope 系列第一章:新语言特性和 Lexer

本贴最后更新于 2010 天前,其中的信息可能已经东海扬尘

原文链接 Kaleidoscope 系列第一章:新语言特性和 Lexer

本文是 [使用 LLVM 开发新语言 Kaleidoscope 教程] (https://www.tuhaoxin.cn/articles/2019/10/01/1569927157476.html) 系列第一章,主要介绍 Kaleidoscope 语言特性和词法分析器的构建。

Kaleidoscope 语言特性

本教程以一种名为“Kaleidoscope”(google 翻译为万花筒,源自“美丽,形式和视野”)的玩具语言进行开发。Kaleidoscope 是一种过程语言,可让我们轻松定义函数,使用条件语句,数学表达式等。在本教程中,我们将扩展 Kaleidoscope 以支持 if/then/else 语句,for 循环,用户定义运算符,支持使用 JIT 进行简单的命令行界面编译、调试等。

再次说明,我们希望使设计语言保持简单,因此 Kaleidoscope 中唯一的数据类型是 64 位浮点类型(在 C 语言中为“ double”)。这样,所有值都隐式地具有双精度,并且该语言不需要类型声明。这为该语言提供了一种非常不错且简单的语法。例如,以下简单示例计算斐波纳契数:

# Compute the x'th fibonacci number. def fib(x) if x < 3 then 1 else fib(x-1)+fib(x-2) # This expression will compute the 40th number. fib(40)

我们还允许 Kaleidoscope 调用标准库函数,因为 LLVM JIT 使得此操作非常容易。这意味着我们可以在使用函数之前使用'extern'关键字定义一个函数(这对于相互递归的函数也很有用)。例如:

extern sin(arg); extern cos(arg); extern atan2(arg1 arg2); atan2(sin(.4), cos(42))

第 6 章中提供了一个更有趣的示例,其中我们编写了一个迷你 Kaleidoscope 应用程序,该应用程序以不同的放大倍数显示 Mandelbrot 集

接下来我们开始深入探讨这种语言的实现。

词法分析器

在实现语言方面,首先需要的是处理文本文件并识别其内容。传统方法是使用“词法分析器”(又称“扫描器”)将输入分解为“token”。词法分析器返回的每个 token 都包含 token 代码和潜在的一些元数据(例如数字的数值等)。首先,我们定义以下 token:

// The lexer returns tokens [0-255] if it is an unknown character, otherwise one // of these for known things. enum Token { tok_eof = -1, // commands tok_def = -2, tok_extern = -3, // primary tok_identifier = -4, tok_number = -5, }; static std::string IdentifierStr; // Filled in if tok_identifier static double NumVal; // Filled in if tok_number

我们的词法分析器返回的每个 token 要么是 Token 枚举类型中的某值之一,要么是“未知”字符(如“ +”),并以其 ASCII 值返回。如果当前 token 是标识符,则 IdentifierStr 全局变量将保存标识符的名称。如果当前标记是数字(如 1.0),则 NumVal 保留其值。为了简单起见,我们使用全局变量,但这不是真正的语言实现的最佳选择。

词法分析器实际由 gettok 的函数实现。gettok 调用该函数以从标准输入返回下一个标记。其定义开始于:

/// gettok - Return the next token from standard input. static int gettok() { static int LastChar = ' '; // Skip any whitespace. while (isspace(LastChar)) LastChar = getchar();

gettok 通过调用 C 中 getchar() 函数从标准输入一次读取一个字符来工作。它在识别到它们后就删除它们,并将最后读取但未处理的字符存储在 LastChar 中。它要做的第一件事是忽略 token 之间的空格。该功能主要由 while 循环完成。

接下来 gettok 要做的是识别标识符和特定的关键字,例如 “def”。Kaleidoscope 通过以下简单循环完成此操作:

if (isalpha(LastChar)) { // identifier: [a-zA-Z][a-zA-Z0-9]* IdentifierStr = LastChar; while (isalnum((LastChar = getchar()))) IdentifierStr += LastChar; if (IdentifierStr == "def") return tok_def; if (IdentifierStr == "extern") return tok_extern; return tok_identifier; }

请注意,此代码在 IdentifierStr 对标识符进行词法化时都会设置成全局值。另外,由于语言关键字是由同一循环匹配的,因此我们在此对它们进行内联处理。对于处理数值也是类似的:

if (isdigit(LastChar) || LastChar == '.') { // Number: [0-9.]+ std::string NumStr; do { NumStr += LastChar; LastChar = getchar(); } while (isdigit(LastChar) || LastChar == '.'); NumVal = strtod(NumStr.c_str(), 0); return tok_number; }

这是用于处理输入的非常简单的代码。从输入读取数值时,我们使用 C 中 strtod 函数将其转换为存储在中的数值 NumVal。请注意,这并没有进行足够的错误检查:它将错误地读取“ 1.23.45.67”,并像处理“ 1.23”一样处理它。当然,我们可以随意更改它!

接下来我们处理注释:

if (LastChar == '#') { // Comment until end of line. do LastChar = getchar(); while (LastChar != EOF && LastChar != '\n' && LastChar != '\r'); if (LastChar != EOF) return gettok(); }

我们通过跳到行尾来处理注释,然后返回下一个标记。最后,如果输入与以上情况之一不匹配,则该输入可能是运算符,例如“ +”,或者是文件结尾。这些使用以下代码处理:

// Check for end of file. Don't eat the EOF. if (LastChar == EOF) return tok_eof; // Otherwise, just return the character as its ascii value. int ThisChar = LastChar; LastChar = getchar(); return ThisChar; }

这样,我们就拥有了用于基本 Kaleidoscop 语言的完整词法分析器(该词法分析的完整代码清单可在本教程的下一章中找到)。接下来,我们将构建一个简单的解析器,使用它来构建抽象语法树。当我们有了它时,我们将包括一个驱动程序,以便我们可以同时使用 lexer 和解析器。


参考:Kaleidoscope Introduction and the Lexer

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖 • 1 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 3 关注
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    78 引用 • 396 回帖
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 677 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    71 引用 • 535 回帖 • 821 关注
  • 快应用

    快应用 是基于手机硬件平台的新型应用形态;标准是由主流手机厂商组成的快应用联盟联合制定;快应用标准的诞生将在研发接口、能力接入、开发者服务等层面建设标准平台;以平台化的生态模式对个人开发者和企业开发者全品类开放。

    15 引用 • 127 回帖
  • 知乎

    知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。

    10 引用 • 66 回帖
  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    35 引用 • 200 回帖 • 20 关注
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    12 引用 • 5 回帖 • 640 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 390 关注
  • OpenCV
    15 引用 • 36 回帖 • 1 关注
  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    54 引用 • 37 回帖 • 1 关注
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    85 引用 • 165 回帖 • 1 关注
  • 音乐

    你听到信仰的声音了么?

    62 引用 • 512 回帖 • 1 关注
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 651 关注
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 592 关注
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    556 引用 • 675 回帖
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    210 引用 • 2040 回帖
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    22 引用 • 148 回帖 • 7 关注
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    325 引用 • 1395 回帖
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    53 引用 • 40 回帖
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    289 引用 • 4492 回帖 • 651 关注
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 47 关注
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    90 引用 • 59 回帖 • 8 关注
  • Mobi.css

    Mobi.css is a lightweight, flexible CSS framework that focus on mobile.

    1 引用 • 6 回帖 • 756 关注
  • GAE

    Google App Engine(GAE)是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月 发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。

    14 引用 • 42 回帖 • 806 关注
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    31 引用 • 97 回帖