擼一個(gè)JSON解析器

legendaryedu 發(fā)布于2019-08-16 12:37 / 1102人閱讀

摘要：姓名張三年齡第二種數(shù)組值的有序列表。姓名張三年齡姓名里斯年齡通過(guò)上面的了解可以看出，存在以下幾種數(shù)據(jù)類型以做類比中的中的或中的中的中的或中的解析解析器的基本原理輸入一串字符串，輸出一個(gè)對(duì)象。

原文地址

JSON

JSON(JavaScript Object Notation, JS 對(duì)象簡(jiǎn)譜) 是一種輕量級(jí)的數(shù)據(jù)交換格式。易于人閱讀和編寫。同時(shí)也易于機(jī)器解析和生成。采用完全獨(dú)立于語(yǔ)言的文本格式，但是也使用了類似于C語(yǔ)言家族的習(xí)慣（包括C, C++, C#, Java, JavaScript, Perl, Python等）。這些特性使JSON成為理想的數(shù)據(jù)交換語(yǔ)言。

JSON與JS的區(qū)別以及和XML的區(qū)別具體請(qǐng)參考百度百科

JSON有兩種結(jié)構(gòu)：

第一種：對(duì)象

“名稱/值”對(duì)的集合不同的語(yǔ)言中，它被理解為對(duì)象（object），紀(jì)錄（record），結(jié)構(gòu)（struct），字典（dictionary），哈希表（hash table），有鍵列表（keyed list），或者關(guān)聯(lián)數(shù)組 （associative array）。對(duì)象是一個(gè)無(wú)序的“‘名稱/值’對(duì)”集合。一個(gè)對(duì)象以“{”（左括號(hào)）開(kāi)始，“}”（右括號(hào)）結(jié)束。每個(gè)“名稱”后跟一個(gè)“:”（冒號(hào)）；“‘名稱/值’ 對(duì)”之間使用“,”（逗號(hào)）分隔。

{"姓名": "張三", "年齡": "18"}

第二種：數(shù)組

值的有序列表（An ordered list of values）。在大部分語(yǔ)言中，它被理解為數(shù)組（array）。數(shù)組是值（value）的有序集合。一個(gè)數(shù)組以“[”（左中括號(hào)）開(kāi)始，“]”（右中括號(hào)）結(jié)束。值之間使用“,”（逗號(hào)）分隔。
值（value）可以是雙引號(hào)括起來(lái)的字符串（string）、數(shù)值(number)、true、false、 null、對(duì)象（object）或者數(shù)組（array）。這些結(jié)構(gòu)可以嵌套。

[
    { 
    "姓名": "張三",             
    "年齡":"18"     
    },
             
    {         
    "姓名": "里斯",             
    "年齡":"19"    

    }
]

通過(guò)上面的了解可以看出，JSON存在以下幾種數(shù)據(jù)類型（以Java做類比）：

json	java
string	Java中的String
number	Java中的Long或Double
true/false	Java中的Boolean
null	Java中的null
[array]	Java中的List
{"key":"value"}	Java中的Map

解析JSON JSON解析器的基本原理

輸入一串JSON字符串，輸出一個(gè)JSON對(duì)象。

步驟

JSON解析的過(guò)程主要分以下兩步：

第一步：對(duì)于輸入的一串JSON字符串我們需要將其解析成一組token流。

例如 JSON字符串{"姓名": "張三", "年齡": "18"} 我們需要將它解析成

{、 姓名、 :、 張三、 ,、 年齡、 :、 18、 }

這樣一組token流

第二步：根據(jù)得到的token流將其解析成對(duì)應(yīng)的JSON對(duì)象（JSONObject）或者JSON數(shù)組（JSONArray）

下面我們來(lái)詳細(xì)分析下這兩個(gè)步驟：

獲取token流

根據(jù)JSON格式的定義，token可以分為以下幾種類型

token	含義
NULL	null
NUMBER	數(shù)字
STRING	字符串
BOOLEAN	true/false
SEP_COLON	:
SEP_COMMA	,
BEGIN_OBJECT	{
END_OBJECT	}
BEGIN_ARRAY	[
END_ARRAY	]
END_DOCUMENT	表示JSON數(shù)據(jù)結(jié)束

根據(jù)以上的JSON類型，我們可以將其封裝成enum類型的TokenType

package com.json.demo.tokenizer;
/**
 BEGIN_OBJECT（{）
 END_OBJECT（}）
 BEGIN_ARRAY（[）
 END_ARRAY（]）
 NULL（null）
 NUMBER（數(shù)字）
 STRING（字符串）
 BOOLEAN（true/false）
 SEP_COLON（:）
 SEP_COMMA（,）
 END_DOCUMENT（表示JSON文檔結(jié)束）
 */

public enum TokenType {
    BEGIN_OBJECT(1),
    END_OBJECT(2),
    BEGIN_ARRAY(4),
    END_ARRAY(8),
    NULL(16),
    NUMBER(32),
    STRING(64),
    BOOLEAN(128),
    SEP_COLON(256),
    SEP_COMMA(512),
    END_DOCUMENT(1024);

    private int code;    // 每個(gè)類型的編號(hào)

    TokenType(int code) {
        this.code = code;
    }

    public int getTokenCode() {
        return code;
    }
}

在TokenType中我們?yōu)槊恳环N類型都賦一個(gè)數(shù)字，目的是在Parser做一些優(yōu)化操作（通過(guò)位運(yùn)算來(lái)判斷是否是期望出現(xiàn)的類型）

在進(jìn)行第一步之前JSON串對(duì)計(jì)算機(jī)來(lái)說(shuō)只是一串沒(méi)有意義的字符而已。第一步的作用就是把這些無(wú)意義的字符串變成一個(gè)一個(gè)的token，上面我們已經(jīng)為每一種token定義了相應(yīng)的類型和值。所以計(jì)算機(jī)能夠區(qū)分不同的token，并能以token為單位解讀JSON數(shù)據(jù)。

下面我們封裝一個(gè)token類來(lái)存儲(chǔ)每一個(gè)token對(duì)應(yīng)的值

package com.json.demo.tokenizer;

/**
 * 存儲(chǔ)對(duì)應(yīng)類型的字面量
 */

public class Token {
    private TokenType tokenType;
    private String value;

    public Token(TokenType tokenType, String value) {
        this.tokenType = tokenType;
        this.value = value;
    }

    public TokenType getTokenType() {
        return tokenType;
    }

    public void setTokenType(TokenType tokenType) {
        this.tokenType = tokenType;
    }

    public String getValue() {
        return value;
    }

    public void setValue(String value) {
        this.value = value;
    }

    @Override
    public String toString() {
        return "Token{" +
                "tokenType=" + tokenType +
                ", value="" + value + """ +
                "}";
    }
}

在解析的過(guò)程中我們通過(guò)字符流來(lái)不斷的讀取字符，并且需要經(jīng)常根據(jù)相應(yīng)的字符來(lái)判斷狀態(tài)的跳轉(zhuǎn)。所以我們需要自己封裝一個(gè)ReaderChar類，以便我們更好的操作字符流。

package com.json.demo.tokenizer;

import java.io.IOException;
import java.io.Reader;

public class ReaderChar {
    private static final int BUFFER_SIZE = 1024;
    private Reader reader;
    private char[] buffer;
    private int index;      // 下標(biāo)
    private int size;

    public ReaderChar(Reader reader) {
        this.reader = reader;
        buffer = new char[BUFFER_SIZE];
    }

    /**
     * 返回 pos 下標(biāo)處的字符，并返回
     * @return
     */
    public char peek() {
        if (index - 1 >= size) {
            return (char) -1;
        }

        return buffer[Math.max(0, index - 1)];
    }

    /**
     * 返回 pos 下標(biāo)處的字符，并將 pos + 1，最后返回字符
     * @return
     * @throws IOException
     */
    public char next() throws IOException {
        if (!hasMore()) {
            return (char) -1;
        }

        return buffer[index++];
    }

    /**
     * 下標(biāo)回退
     */
    public void back() {
        index = Math.max(0, --index);
    }

    /**
     * 判斷流是否結(jié)束
     */
    public boolean hasMore() throws IOException {
        if (index < size) {
            return true;
        }

        fillBuffer();
        return index < size;
    }

    /**
     * 填充buffer數(shù)組
     * @throws IOException
     */
    void fillBuffer() throws IOException {
        int n = reader.read(buffer);
        if (n == -1) {
            return;
        }

        index = 0;
        size = n;
    }
}

另外我們還需要一個(gè)TokenList來(lái)存儲(chǔ)解析出來(lái)的token流

package com.json.demo.tokenizer;

import java.util.ArrayList;
import java.util.List;

/**
 * 存儲(chǔ)詞法解析所得的token流
 */
public class TokenList {
    private List tokens = new ArrayList();
    private int index = 0;

    public void add(Token token) {
        tokens.add(token);
    }

    public Token peek() {
        return index < tokens.size() ? tokens.get(index) : null;
    }

    public Token peekPrevious() {
        return index - 1 < 0 ? null : tokens.get(index - 2);
    }

    public Token next() {
        return tokens.get(index++);
    }

    public boolean hasMore() {
        return index < tokens.size();
    }

    @Override
    public String toString() {
        return "TokenList{" +
                "tokens=" + tokens +
                "}";
    }
}

JSON解析比其他文本解析要簡(jiǎn)單的地方在于，我們只需要根據(jù)下一個(gè)字符就可知道接下來(lái)它所期望讀取的到的內(nèi)容是什么樣的。如果滿足期望了，則返回 Token，否則返回錯(cuò)誤。

為了方便程序出錯(cuò)時(shí)更好的debug，程序中自定義了兩個(gè)exception類來(lái)處理錯(cuò)誤信息。（具體實(shí)現(xiàn)參考exception包）

下面就是第一步中的重頭戲（核心代碼）：

public TokenList getTokenStream(ReaderChar readerChar) throws IOException {
        this.readerChar = readerChar;
        tokenList = new TokenList();

        // 詞法解析，獲取token流
        tokenizer();

        return tokenList;
    }

    /**
     * 將JSON文件解析成token流
     * @throws IOException
     */
    private void tokenizer() throws IOException {
        Token token;
        do {
            token = start();
            tokenList.add(token);
        } while (token.getTokenType() != TokenType.END_DOCUMENT);
    }

    /**
     * 解析過(guò)程的具體實(shí)現(xiàn)方法
     * @return
     * @throws IOException
     * @throws JsonParseException
     */
    private Token start() throws IOException, JsonParseException {
        char ch;
        while (true){   //先讀一個(gè)字符，若為空白符（ASCII碼在[0, 20H]上）則接著讀，直到剛讀的字符非空白符
            if (!readerChar.hasMore()) {
                return new Token(TokenType.END_DOCUMENT, null);
            }

            ch = readerChar.next();
            if (!isWhiteSpace(ch)) {
                break;
            }
        }

        switch (ch) {
            case "{":
                return new Token(TokenType.BEGIN_OBJECT, String.valueOf(ch));
            case "}":
                return new Token(TokenType.END_OBJECT, String.valueOf(ch));
            case "[":
                return new Token(TokenType.BEGIN_ARRAY, String.valueOf(ch));
            case "]":
                return new Token(TokenType.END_ARRAY, String.valueOf(ch));
            case ",":
                return new Token(TokenType.SEP_COMMA, String.valueOf(ch));
            case ":":
                return new Token(TokenType.SEP_COLON, String.valueOf(ch));
            case "n":
                return readNull();
            case "t":
            case "f":
                return readBoolean();
            case """:
                return readString();
            case "-":
                return readNumber();
        }

        if (isDigit(ch)) {
            return readNumber();
        }

        throw new JsonParseException("Illegal character");
    }

在start方法中，我們將每個(gè)處理方法都封裝成了多帶帶的函數(shù)。主要思想就是通過(guò)一個(gè)死循環(huán)不停的讀取字符，然后再根據(jù)字符的期待值，執(zhí)行不同的處理函數(shù)。

下面我們?cè)斀夥治鰩讉€(gè)處理函數(shù)：

private Token readString() throws IOException {
        StringBuilder sb = new StringBuilder();
        while(true) {
            char ch = readerChar.next();
            if (ch == "") {   // 處理轉(zhuǎn)義字符
                if (!isEscape()) {
                    throw new JsonParseException("Invalid escape character");
                }
                sb.append("");
                ch = readerChar.peek();
                sb.append(ch);
                if (ch == "u") {   // 處理 Unicode 編碼，形如 u4e2d。且只支持 u0000 ~ uFFFF 范圍內(nèi)的編碼
                    for (int i = 0; i < 4; i++) {
                        ch = readerChar.next();
                        if (isHex(ch)) {
                            sb.append(ch);
                        } else {
                            throw new JsonParseException("Invalid character");
                        }
                    }
                }
            } else if (ch == """) {     // 碰到另一個(gè)雙引號(hào)，則認(rèn)為字符串解析結(jié)束，返回 Token
                return new Token(TokenType.STRING, sb.toString());
            } else if (ch == "
" || ch == "
") {     // 傳入的 JSON 字符串不允許換行
                throw new JsonParseException("Invalid character");
            } else {
                sb.append(ch);
            }
        }
    }

該方法也是通過(guò)一個(gè)死循環(huán)來(lái)讀取字符，首先判斷的是JSON中的轉(zhuǎn)義字符。

JSON中允許出現(xiàn)的有以下幾種

"


f



	
u four-hex-digits
/

具體的處理方法封裝在了isEscape()方法中，處理Unicode 編碼時(shí)要特別注意一下u的后面會(huì)出現(xiàn)四位十六進(jìn)制數(shù)。當(dāng)讀取到一個(gè)雙引號(hào)或者讀取到了非法字符（"r"或’、"n"）循環(huán)退出。

判斷數(shù)字的時(shí)候也要特別小心，注意負(fù)數(shù)，frac，exp等等情況。

通過(guò)上面的解析，我們可以得到一組token，接下來(lái)我們需要以這組token作為輸入，解析出相應(yīng)的JSON對(duì)象

解析出JSON對(duì)象

解析之前我們需要定義出JSON對(duì)象（JSONObject）和JSON數(shù)組(JSONArray)的實(shí)體類。

package com.json.demo.jsonstyle;

import com.json.demo.exception.JsonTypeException;
import com.json.demo.util.FormatUtil;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

/**
 * JSON的對(duì)象形式
 * 對(duì)象是一個(gè)無(wú)序的“‘名稱/值’對(duì)”集合。一個(gè)對(duì)象以“{”（左括號(hào)）開(kāi)始，“}”（右括號(hào)）結(jié)束。每個(gè)“名稱”后跟一個(gè)“:”（冒號(hào)）；“‘名稱/值’ 對(duì)”之間使用“,”（逗號(hào)）分隔。
 */
public class JsonObject {
    private Map map = new HashMap();

    public void put(String key, Object value) {
        map.put(key, value);
    }

    public Object get(String key) {
        return map.get(key);
    }
    ...
    
}

package com.json.demo.jsonstyle;

import com.json.demo.exception.JsonTypeException;
import com.json.demo.util.FormatUtil;

import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;

/**
 * JSON的數(shù)組形式
 * 數(shù)組是值（value）的有序集合。一個(gè)數(shù)組以“[”（左中括號(hào)）開(kāi)始，“]”（右中括號(hào)）結(jié)束。值之間使用“,”（逗號(hào)）分隔。
 */
public class JsonArray {
    private List list = new ArrayList();

    public void add(Object obj) {
        list.add(obj);
    }

    public Object get(int index) {
        return list.get(index);
    }

    public int size() {
        return list.size();
    }
    ...
}

之后我們就可以寫解析類了，由于代碼較長(zhǎng)，這里就不展示了。有興趣的可以去GitHub上下載。實(shí)現(xiàn)邏輯比較簡(jiǎn)單，也易于理解。

解析類中的parse方法首先根據(jù)第一個(gè)token的類型選擇調(diào)用parseJsonObject（）或者parseJsonArray（），進(jìn)而返回JSON對(duì)象或者JSON數(shù)組。上面的解析方法中利用位運(yùn)算來(lái)判斷字符的期待值既提高了程序的執(zhí)行效率也有助于提高代碼的ke"du"xi

完成之后我們可以寫一個(gè)測(cè)試類來(lái)驗(yàn)證下我們的解析器的運(yùn)行情況。我們可以自己定義一組JSON串也可以通過(guò)HttpUtil工具類從網(wǎng)上獲取。最后通過(guò)FormatUtil類來(lái)規(guī)范我們輸出。

具體效果如下圖所示：

參考文章

http://www.cnblogs.com/absfre...

https://www.liaoxuefeng.com/a...

https://segmentfault.com/a/11...

http://json.org/json-zh.html

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/71411.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

legendaryedu

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

四·C語(yǔ)言之·函數(shù)全方位理解

閱讀 4382·2021-11-22 09:34
C++入門string類常用接口函數(shù)介紹 + 進(jìn)階【模擬實(shí)現(xiàn)string接口函數(shù)】

閱讀 2699·2021-11-12 10:36
Wikihost(微基主機(jī))：洛杉磯聯(lián)通CU AS9929/AS4837 VPS促銷，年付85折，免

閱讀 750·2021-08-18 10:23
balabala: dom 轉(zhuǎn)圖片場(chǎng)景和技術(shù)方案

閱讀 2648·2019-08-30 15:55
前端面試題（中）

閱讀 3126·2019-08-30 15:53
2019.7.15 - 7.21 我們 36人都學(xué)了些什么？

閱讀 2090·2019-08-30 15:44
一些實(shí)現(xiàn)垂直居中的方法

閱讀 1369·2019-08-29 15:37
使用css3實(shí)現(xiàn)骰子動(dòng)畫

閱讀 1416·2019-08-29 13:04

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

擼一個(gè)JSON解析器

相關(guān)文章

后端經(jīng)驗(yàn)

**手把手教你擼一個(gè) Webpack Loader**

looter——超輕量級(jí)爬蟲(chóng)框架

手摸手，帶你用vue擼后臺(tái) 系列三(實(shí)戰(zhàn)篇)

手摸手，帶你用vue擼后臺(tái) 系列三(實(shí)戰(zhàn)篇)

發(fā)表評(píng)論

0條評(píng)論

legendaryedu

男|高級(jí)講師

TA的文章

四·C語(yǔ)言之·函數(shù)全方位理解

C++入門string類常用接口函數(shù)介紹 + 進(jìn)階【模擬實(shí)現(xiàn)string接口函數(shù)】

Wikihost(微基主機(jī))：洛杉磯聯(lián)通CU AS9929/AS4837 VPS促銷，年付85折，免

balabala: dom 轉(zhuǎn)圖片場(chǎng)景和技術(shù)方案

前端面試題（中）

2019.7.15 - 7.21 我們 36人都學(xué)了些什么？

一些實(shí)現(xiàn)垂直居中的方法

使用css3實(shí)現(xiàn)骰子動(dòng)畫

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

擼一個(gè)JSON解析器

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！