Python: xml轉(zhuǎn)json

sourcenode 發(fā)布于2019-08-27 10:52 / 2712人閱讀

摘要：，實驗用的文件我們使用爬蟲實戰(zhàn)爬取京東商品列表一文的結(jié)果文件，爬蟲爬取的結(jié)果保存在京東手機列表文件中。，相關(guān)文檔，即時網(wǎng)絡(luò)爬蟲項目內(nèi)容提取器的定義，爬蟲實戰(zhàn)爬取京東商品列表，集搜客開源代碼下載源，開源網(wǎng)絡(luò)爬蟲源，文檔修改歷史，首次發(fā)布

1，引言

GooSeeker早在9年前就開始了Semantic Web領(lǐng)域的產(chǎn)品化，MS謀數(shù)臺和DS打數(shù)機是其中兩個產(chǎn)品。對web內(nèi)容做結(jié)構(gòu)化轉(zhuǎn)換和語義處理的主要路線是 XML -> RDF -> Ontology Engineering。所以這兩款產(chǎn)品的輸出信息是XML格式的，實現(xiàn)第一步：結(jié)構(gòu)化轉(zhuǎn)換。單純作為一個網(wǎng)頁采集器來說，輸出XML格式也有好處，這是一種標(biāo)準(zhǔn)格式，后續(xù)的數(shù)據(jù)處理可以很容易地接入，任意發(fā)揮。

在web集成和網(wǎng)站前端領(lǐng)域，json越來越普遍，在Scrapy架構(gòu)中，Scrapy dict數(shù)據(jù)結(jié)構(gòu)本質(zhì)上就是json，所以，由XML格式轉(zhuǎn)換成JSON格式很有必要。

無論哪種編程語言，XML轉(zhuǎn)Json都有很多現(xiàn)成的程序包，但是，就像前面說的，GooSeeker定義的XML格式主要用來做實體建模，有自己規(guī)定的一套語義結(jié)構(gòu)描述標(biāo)準(zhǔn)。所以，不能直接使用現(xiàn)成的轉(zhuǎn)換程序，或者需要在現(xiàn)成的轉(zhuǎn)換程序上做些修改。

本文是一個實驗過程，并沒有考慮GooSeeker要求的語義結(jié)構(gòu)，只是驗證一下XML到Json的轉(zhuǎn)換。

2，實驗用的XML文件

我們使用《python爬蟲實戰(zhàn)（2）：爬取京東商品列表》一文的結(jié)果文件，python爬蟲爬取的結(jié)果保存在京東手機列表_1.xml 文件中。內(nèi)容如下圖所示

下面針對這個結(jié)果文件先做個xml轉(zhuǎn)json的測試，為提取器gsExtractor添加輸出Json文件的功能做技術(shù)準(zhǔn)備。

3，測試過程

測試使用的模塊：xml.parsers.expat， json
測試輸入：以python爬蟲實戰(zhàn)（2）：爬取京東商品列表一文的xml結(jié)果文件京東手機列表_1.xml 作為輸入
代碼如下：

#! /usr/bin/env python
# -*- coding:utf-8 -*-
# xml 轉(zhuǎn) json
# xml2json.py
# Version 1.0

from xml.parsers.expat import ParserCreate
import json

class Xml2Json:
    LIST_TAGS = ["COMMANDS"]
    
    def __init__(self, data = None):
        self._parser = ParserCreate()
        self._parser.StartElementHandler = self.start
        self._parser.EndElementHandler = self.end
        self._parser.CharacterDataHandler = self.data
        self.result = None
        if data:
            self.feed(data)
            self.close()
        
    def feed(self, data):
        self._stack = []
        self._data = ""
        self._parser.Parse(data, 0)

    def close(self):
        self._parser.Parse("", 1)
        del self._parser

    def start(self, tag, attrs):
        assert attrs == {}
        assert self._data.strip() == ""
        self._stack.append([tag])
        self._data = ""

    def end(self, tag):
        last_tag = self._stack.pop()
        assert last_tag[0] == tag
        if len(last_tag) == 1: #leaf
            data = self._data
        else:
            if tag not in Xml2Json.LIST_TAGS:
                # build a dict, repeating pairs get pushed into lists
                data = {}
                for k, v in last_tag[1:]:
                    if k not in data:
                        data[k] = v
                    else:
                        el = data[k]
                        if type(el) is not list:
                            data[k] = [el, v]
                        else:
                            el.append(v)
            else: #force into a list
                data = [{k:v} for k, v in last_tag[1:]]
        if self._stack:
            self._stack[-1].append((tag, data))
        else:
            self.result = {tag:data}
        self._data = ""

    def data(self, data):
        self._data = data

if __name__ == "__main__":
    xml = open("京東手機列表_1.xml", "r", encoding="UTF-8").read()
    result = Xml2Json(xml).result;
    outputfile = open("京東手機列表_1.json", "w", encoding="UTF-8")
    outputfile.write(str(result))
    outputfile.close()

在控制臺運行: $ python xml2json.py

測試輸出：京東手機列表_1.json。運行后在當(dāng)前文件夾下可以看到新生成的json文件

4，接下來的工作

升級gsExtractor提取器類，加入新的方法，支持把提取結(jié)果從xml轉(zhuǎn)換為json格式。

轉(zhuǎn)換成的json結(jié)構(gòu)必須符合GooSeeker要求的語義描述結(jié)構(gòu)，為直接存入MongoDB做準(zhǔn)備。

5，相關(guān)文檔

1，Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義
2，Python爬蟲實戰(zhàn)（2）：爬取京東商品列表

6，集搜客GooSeeker開源代碼下載源

1， GooSeeker開源Python網(wǎng)絡(luò)爬蟲GitHub源

7，文檔修改歷史

2016-06-17：V1.0，首次發(fā)布

云服務(wù)器 GPU云服務(wù)器 xml轉(zhuǎn)json json轉(zhuǎn)xml程序實體轉(zhuǎn)xml datatable轉(zhuǎn)xml

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/110336.html

發(fā)表評論

登陸后可評論

0條評論

sourcenode

男|高級講師

我要關(guān)注我要私信

TA的文章

ubuntu安裝tensorflow

閱讀 3530·2023-04-25 14:57
#yyds干貨盤點#設(shè)計模式之【單例模式】

閱讀 2577·2021-11-22 14:56
易探云：金秋上云節(jié),香港/美國/韓國云服務(wù)器最低9元;香港物理機/虛擬主機優(yōu)惠促銷

閱讀 2100·2021-09-29 09:45
有個云主機可以做什么-云主機能做什么？

閱讀 1781·2021-09-22 15:53
Virtono：夏季促銷，年付5折€23.7/年起，洛杉磯/達拉斯/紐約/羅馬尼亞等

閱讀 3334·2021-08-25 09:41
css百分比總結(jié)，自適應(yīng)布局

閱讀 912·2019-08-29 15:22
聽說2017你想寫前端？

閱讀 3310·2019-08-29 13:22
前端web網(wǎng)站上中（左右）下布局(flex、calc)

閱讀 3136·2019-08-29 13:08

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python: xml轉(zhuǎn)json

相關(guān)文章