從零開始寫個編譯器吧 - Token.java 文件的編寫

Eirunye 發(fā)布于2019-08-14 11:58 / 2648人閱讀

摘要：現(xiàn)在，讓我們來動手寫編譯器的第一個個文件吧。如其名字所示，這個類實(shí)例化的對象用于表示詞法分析器的產(chǎn)物。我希望詞法分析器從源代碼中提取出語素，并根據(jù)上下文推測出單詞類型，從而構(gòu)造出對象。只需要構(gòu)造出類型即可，進(jìn)一步細(xì)分將在的構(gòu)造函數(shù)中進(jìn)行。

現(xiàn)在，讓我們來動手寫編譯器的第一個個java文件吧。本章要寫的類，是Token類。如其名字所示，這個類實(shí)例化的對象用于表示詞法分析器 Tokenizer 的產(chǎn)物。同時，也作為下一階段的語法分析器 Parser 的原料。

讓我們開始吧！先新建一個Token.java 于 src/com/taozeyu/taolan/analysis之中。

package com.taozeyu.taolan.analysis;

public class Token {
    public static enum Type {
        Keyword, Number, Identifier, Sign, Annotation,
        String, RegEx, Space, NewLine, EndSymbol;
    }
    final Type type;
    final String value;

    Token(Type type, String value) {
        //TODO
    }
}

如之前章節(jié)討論的一樣，Token對象應(yīng)該包含類型和語素兩個屬性。注意這個 Type 枚舉類型，其內(nèi)容就是我在上一章所說的 tao 語言應(yīng)該具備的10種單詞類型。

我希望詞法分析器從源代碼中提取出語素，并根據(jù)上下文推測出單詞類型，從而構(gòu)造出Token對象。但實(shí)際上，請注意Type這個枚舉類的三個類型：

Keyword, Number, Identifier

這三個類型不同之處？實(shí)際上這三個類型的形式極其類似（甚至 Keyword 和 Identifier 的形式是完全相同的），并且可以僅通過語素準(zhǔn)確判定其類型。因此，我希望對詞法分析器 Tokenizer 隱藏著三種類型的區(qū)別，將這三種類型統(tǒng)稱 Identifier，以簡化編碼。

Token(Type type, String value) {
    if(type == Type.Identifier) {
        char firstChar = value.charAt(0);
        if(firstChar >= "0" & firstChar < "9") {
            type = Type.Number;
        } else if(keywordsSet.contains(value)){
            type = Type.Keyword;
        }
    }
    this.type = type;
    this.value = value;
}

于是，Token 對 Tokenizer 隱藏了 Number、Keyword 類型。Tokenizer 只需要構(gòu)造出 Identifier 類型即可，進(jìn)一步細(xì)分將在 Token 的構(gòu)造函數(shù)中進(jìn)行。

特別的，構(gòu)造函數(shù)中引用了一個 keywordsSet 變量。實(shí)際上這個變量應(yīng)該包含所有 tao 語言的關(guān)鍵字。此處稍稍定義一下。

private static final HashSet keywordsSet = new HashSet<>();

static {
    keywordsSet.add("if");
    keywordsSet.add("when");
    keywordsSet.add("elsif");
    keywordsSet.add("else");
    keywordsSet.add("while");
    keywordsSet.add("begin");
    keywordsSet.add("until");
    keywordsSet.add("for");
    keywordsSet.add("do");
    keywordsSet.add("try");
    keywordsSet.add("catch");
    keywordsSet.add("finally");
    keywordsSet.add("end");
    keywordsSet.add("def");
    keywordsSet.add("var");
    keywordsSet.add("this");
    keywordsSet.add("null");
    keywordsSet.add("throw");
    keywordsSet.add("break");
    keywordsSet.add("continue");
    keywordsSet.add("return");
    keywordsSet.add("operator");
}

好吧，tao 語言我能想出的可能有的關(guān)鍵字都在這里了。如果有遺漏或者多余，其實(shí)以后再回過頭來改也沒問題。

特別的，對于 Annotation、String、RegEx ，它們在源代碼中存在的形式和具體的語素并不完全等同。

#我是注釋（回車）

"我是一個字符串"

^s+d+$

對于 Tokenizer 而言，它傾向于讀出如上一整行信息。但是僅僅只加下劃線的文字是Token的語素。因此，我還需要再構(gòu)造函數(shù)中對構(gòu)造參數(shù)value進(jìn)行進(jìn)一步提取，以得到正確的語素。

另外，EndSymbol 的語素必須為空，不管 Tokenizer 傳入什么參數(shù)都必須如此。

GPU云服務(wù)器云服務(wù)器從零開始的郵件服務(wù)器從零開始 linux從零開始 python從零開始

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/64213.html

發(fā)表評論

登陸后可評論

0條評論

Eirunye

男|高級講師

我要關(guān)注我要私信

TA的文章

# 后端開發(fā)技巧、常用規(guī)范

閱讀 3226·2021-11-23 09:51
華納云雙11鉅惠出海：CN2海外物理服務(wù)器終身價688元/月，香港/美國機(jī)房，免費(fèi)送20G DDos

閱讀 3571·2021-11-09 09:46
速云：雙十一促銷，廣州移動vps，1核/1GB內(nèi)存/20GB空間/1TB流量/1Gbps-3Gbps

閱讀 3679·2021-11-09 09:45
前端面試【整理更新中】：HTML常見題目（帶答案）

閱讀 2952·2019-08-29 17:31
移動端H5開發(fā)遇到的坑

閱讀 1870·2019-08-26 13:39
JavaScript...Function類型...

閱讀 2729·2019-08-26 12:12
JavaScript面向?qū)ο?/a>

閱讀 3627·2019-08-26 12:08

JavaScript同步和異步

閱讀 2244·2019-08-26 11:31

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

從零開始寫個編譯器吧 - Token.java 文件的編寫

相關(guān)文章

**從零開始寫個編譯器吧系列**

**從零開始寫個編譯器吧 - TerminalSymbol.java 與 NonTerminalSymb**

**從零開始寫個編譯器吧 - 符號分析，編寫 SignParser.java 文件**

**從零開始寫個編譯器吧 - Parser 語法分析器**

**從零開始寫個編譯器吧 - 開始寫詞法分析器（3）**

發(fā)表評論

0條評論

Eirunye

男|高級講師

TA的文章

# 后端開發(fā)技巧、常用規(guī)范

華納云雙11鉅惠出海：CN2海外物理服務(wù)器終身價688元/月，香港/美國機(jī)房，免費(fèi)送20G DDos

速云：雙十一促銷，廣州移動vps，1核/1GB內(nèi)存/20GB空間/1TB流量/1Gbps-3Gbps

前端面試【整理更新中】：HTML常見題目（帶答案）

移動端H5開發(fā)遇到的坑

JavaScript...Function類型...

JavaScript面向?qū)ο?/a>

JavaScript同步和異步

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

從零開始寫個編譯器吧 - Token.java 文件的編寫

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！