從零開始寫個(gè)編譯器吧 - 單詞化簡述（Tokenization）

lucas 發(fā)布于2019-08-14 11:58 / 2452人閱讀

摘要：實(shí)際上，所謂的源代碼，我們可以將其視為一段長長的字符串。但僅僅是把源代碼的字符分割成段，這些字符串尚不能稱之為完整的單詞，而只能作為單詞的語素。實(shí)際上，詞法分析器還對(duì)將單詞分類。實(shí)際上，詞法分析器會(huì)為這行代碼生成如下形式。

實(shí)際上，所謂的源代碼，我們可以將其視為一段長長的字符串。所謂字符串，即是字符的有序集。但是，字符本身作為編譯器的輸入單位，粒度實(shí)在太小了，因此，我們往往需要對(duì)編譯器進(jìn)行第一層封裝，即分割出一個(gè)稱之為 Tokenizer （詞法分析器）的部分。
Tokenizer 的作用即是將字符序列翻譯成 Token（單詞）的一個(gè)過程，這一過程稱之為單詞化（Tokenization）。很容易理解單詞化這一步驟在整個(gè)編譯過程中的價(jià)值，舉個(gè)例子，如下這么一個(gè)英語句子。

It"s understandable that we share some common values as we are living in the same world.

實(shí)際上，這個(gè)句子倘若以字符串的形式存在，即以字符作為最小單位來解析，則看起來形式如下。實(shí)際上，我們很難從中提取出有價(jià)值的信息。

["I", "t", """, "s", " ", "u", "n", "d", "e", "r", "s", "t", "a", "n",
"d", "a", "b", "l", "e", " ", "t", "h", "a", "t", " ", "w", "e", " ",
"s", "h", "a", "r", "e", " ", "s", "o", "m", "e", " ", "c", "o", "m",
"m", "o", "n", " ", "v", "a", "l", "u", "e", "s", " ", "a", "s", " ",
"w", "e", " ", "a", "r", "e", " ", "l", "i", "v", "i", "n", "g", " ",
"i", "n", " ", "t", "h", "e", " ", "s", "a", "m", "e", " ", "w", "o",
"r", "l", "d" ]

而分詞話的作用，則是將上面這段東西，變成（至少）下面這段東西。

["It", "is", "understandable", "that", "we", "share", "some",
"common", "values", "as", "we", "are", "living", "in", "the",
"same", "world", "."]

看起來是不是更加順眼了呢？實(shí)際上我們都幾乎能讀出這個(gè)單詞數(shù)組所代表句子的意思了。

詞法分析器 Tokenizer 的另一個(gè)功能在于，將單詞分類?？紤]源代碼中這么一行。

  private int index = 27;

會(huì)被拆分為如下形式。

  ["private", " ", "int", " ", "index", " ", "=", " ", "27", ";"]

但僅僅是把源代碼的字符分割成段，這些字符串尚不能稱之為完整的單詞Token，而只能作為單詞的語素。實(shí)際上，詞法分析器還對(duì)將單詞分類。因此，讀到的語素，分析出的類型，兩者才構(gòu)成一個(gè)完整的單詞。
實(shí)際上，詞法分析器會(huì)為這行代碼生成如下形式。

每一列代表一個(gè)單詞Token，而單詞包含兩個(gè)屬性，語素、類型。

GPU云服務(wù)器云服務(wù)器從零開始 linux從零開始 python從零開始從零開始php

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/64215.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

lucas

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

Vue+thinkJs博客網(wǎng)站（二）之thinkJs的使用

閱讀 966·2019-08-30 15:55
node.js命令行教程

閱讀 560·2019-08-26 13:56
Vue一個(gè)案例引發(fā)的遞歸組件的使用

閱讀 2094·2019-08-26 12:23
夯實(shí)JS基礎(chǔ)（一）：this的指向問題和經(jīng)典面試題

閱讀 3313·2019-08-26 10:29
標(biāo)準(zhǔn)庫（四）包裝對(duì)象二number

閱讀 612·2019-08-26 10:17
fe4-3:遞歸

閱讀 2881·2019-08-23 16:53
一文學(xué)懂 TypeScript 的類型

閱讀 710·2019-08-23 15:55
lodop打印控件的使用

閱讀 2836·2019-08-23 14:25

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

從零開始寫個(gè)編譯器吧 - 單詞化簡述（Tokenization）

相關(guān)文章

**從零開始寫個(gè)編譯器吧系列**

**從零開始寫個(gè)編譯器吧 - 詞法分析器是一個(gè)狀態(tài)機(jī)**

**從零開始寫個(gè)編譯器吧 - Token.java 文件的編寫**

**從零開始寫個(gè)編譯器吧 - tao語言的詞法分析器（Tokenizer）的類型定義**

**從零開始寫個(gè)編譯器吧 - 編譯器的結(jié)構(gòu)**

發(fā)表評(píng)論

0條評(píng)論

lucas

男|高級(jí)講師

TA的文章

Vue+thinkJs博客網(wǎng)站（二）之thinkJs的使用

node.js命令行教程

Vue一個(gè)案例引發(fā)的遞歸組件的使用

夯實(shí)JS基礎(chǔ)（一）：this的指向問題和經(jīng)典面試題

標(biāo)準(zhǔn)庫（四）包裝對(duì)象二number

fe4-3:遞歸

一文學(xué)懂 TypeScript 的類型

lodop打印控件的使用

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

從零開始寫個(gè)編譯器吧 - 單詞化簡述（Tokenization）

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！