從零開始寫個(gè)編譯器吧 - 詞法分析器是一個(gè)狀態(tài)機(jī)

calx 發(fā)布于2019-08-14 11:58 / 2729人閱讀

摘要：詞法分析器本身就是一個(gè)狀態(tài)機(jī)，生成這個(gè)狀態(tài)機(jī)有很多種方法，而我打算采取手寫的方式。狀態(tài)機(jī)不斷從源代碼即一個(gè)字符串中讀入一個(gè)一個(gè)字符，讀到不同的字符將使?fàn)顟B(tài)機(jī)的狀態(tài)從一個(gè)狀態(tài)變化到另外一個(gè)狀態(tài)。

詞法分析器 Tokenizer 本身就是一個(gè)狀態(tài)機(jī)，生成這個(gè)狀態(tài)機(jī)有很多種方法，而我打算采取手寫的方式。因?yàn)?tao 語言的詞法還是相對比較簡單的，手寫不成問題。
先新建一個(gè)LexicalAnalysis.java 于 src/com/taozeyu/taolan/analysis之中。

package com.taozeyu.taolan.analysis;

public class LexicalAnalysis {
    private static enum State {
        Normal,
        Identifier, Sign, Annotation,
        String, RegEx, Space;
    }
}

看看其中定義的 State 枚舉類型，其中有6種類型與 Token 的類型對應(yīng)。特別的，Normal 類型表示狀態(tài)可以轉(zhuǎn)化成任何一種單詞類型的狀態(tài)。我還是貼一張圖來描述著7種狀態(tài)吧。

如圖所示，Normal 狀態(tài)作為狀態(tài)機(jī)的初始狀態(tài)，也是各個(gè)其他狀態(tài)的中轉(zhuǎn)狀態(tài)。狀態(tài)機(jī)不斷從源代碼（即一個(gè)字符串）中讀入一個(gè)一個(gè)字符，讀到不同的字符將使?fàn)顟B(tài)機(jī)的狀態(tài)從一個(gè)狀態(tài)變化到另外一個(gè)狀態(tài)。

例如，在 Normal 狀態(tài)下讀到了“#”將使?fàn)顟B(tài)變?yōu)?Annotation ，反過來如果繼續(xù)讀到一個(gè)“ "即換行符號，則會從 Annotation 狀態(tài)回到 Normal 狀態(tài)。當(dāng)然，對于 Identifier、 Sign、Space 的狀態(tài)變化更為復(fù)雜一點(diǎn)，但僅憑當(dāng)前讀入的那一個(gè)字符就可以變化到正確的狀態(tài)（圖中沒有表現(xiàn)）。

此外，當(dāng)源代碼讀完了，如果狀態(tài)機(jī)處于Normal狀態(tài)，此時(shí)應(yīng)該生成一個(gè)EndSymbol。但如果此時(shí)不處于 Normal 狀態(tài)，那就有問題了，必須拋出一個(gè)異常。（這種情況是程序員把源代碼本身寫錯(cuò)了，例如最后一個(gè)字符串少右邊的"之類的。）
至此，我就可以知道 LexicalAnalysis 類應(yīng)該有那些函數(shù)可供（Parser）調(diào)用啦。

package com.taozeyu.taolan.analysis;

public class LexicalAnalysis {
    private static enum State {
        Normal,
        Identifier, Sign, Annotation,
        String, RegEx, Space;
    }

    public LexicalAnalysis(Reader reader) {
        //TODO
    }

    Token read() throws IOException, LexicalAnalysisException {
        //TODO
    }
}

至此，語法分析器 Parser 可以不斷調(diào)用 read() 函數(shù)來獲得 Token 對象，直到讀到 EndSymbol 或拋出異常為止。注意 read() 函數(shù)的聲明中 throws LexicalAnalysisException 這段。當(dāng)這個(gè)異常被拋出，說明源代碼寫錯(cuò)了。這不是編譯器的錯(cuò)，而是程序員的錯(cuò)，編譯器只管把這個(gè)錯(cuò)報(bào)出來，讓程序員去改代碼。

當(dāng)然對于程序員而言，這是個(gè)語法錯(cuò)誤。但是既然我是在寫編譯器，我可能要把這些錯(cuò)誤分得更細(xì)一點(diǎn)。因?yàn)檫@個(gè)錯(cuò)誤是在單詞化（Tokenization）階段拋出的，因此我們將其稱之為詞法錯(cuò)誤吧，以便區(qū)分。

GPU云服務(wù)器云服務(wù)器從零開始 linux從零開始 python從零開始從零開始php

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/64212.html

發(fā)表評論

登陸后可評論

0條評論

calx

男|高級講師

我要關(guān)注我要私信

TA的文章

GigsGigsCloud：雙十一優(yōu)惠，1核/512MB內(nèi)存/20GB SSD硬盤/500GB流量/

閱讀 2736·2021-11-11 17:21
有備無患「GitHub 熱點(diǎn)速覽 v.21.38」

閱讀 627·2021-09-23 11:22
Css in Js 一次實(shí)踐

閱讀 3591·2019-08-30 15:55
pc端適配移動端

閱讀 1651·2019-08-29 17:15
css元素居中方法

閱讀 583·2019-08-29 16:38
你踩過幾個(gè)？微信H5小游戲開發(fā)中的那些坑

閱讀 921·2019-08-26 11:54
JavaScript工作原理（五）：深入了解WebSockets，HTTP/2和SSE，以及如何選擇

閱讀 2517·2019-08-26 11:53
你不知道的取數(shù)值整數(shù)部分的冷知識

閱讀 2764·2019-08-26 10:31

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

從零開始寫個(gè)編譯器吧 - 詞法分析器是一個(gè)狀態(tài)機(jī)

相關(guān)文章

**從零開始寫個(gè)編譯器吧系列**

**從零開始寫個(gè)編譯器吧 - 開始寫詞法分析器（1）**

**從零開始寫個(gè)編譯器吧 - 開始寫詞法分析器（3）**

**從零開始寫個(gè)編譯器吧 - 開始寫詞法分析器（2）**

**從零開始寫個(gè)編譯器吧 - tao語言的詞法分析器（Tokenizer）的類型定義**

發(fā)表評論

0條評論

calx

男|高級講師

TA的文章

GigsGigsCloud：雙十一優(yōu)惠，1核/512MB內(nèi)存/20GB SSD硬盤/500GB流量/

有備無患「GitHub 熱點(diǎn)速覽 v.21.38」

Css in Js 一次實(shí)踐

pc端適配移動端

css元素居中方法

你踩過幾個(gè)？微信H5小游戲開發(fā)中的那些坑

JavaScript工作原理（五）：深入了解WebSockets，HTTP/2和SSE，以及如何選擇

你不知道的取數(shù)值整數(shù)部分的冷知識

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

從零開始寫個(gè)編譯器吧 - 詞法分析器是一個(gè)狀態(tài)機(jī)

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！