API例子：用Java/JavaScript下載內(nèi)容提取器

JackJiang 發(fā)布于2019-07-25 10:34 / 1220人閱讀

摘要：，引言本文講解怎樣用和使用接口下載內(nèi)容提取器，這是一個示例程序。具體請參看內(nèi)容提取器的定義。用下載內(nèi)容提取器可以直接跳到第部分的內(nèi)容。

1，引言

本文講解怎樣用Java和JavaScript使用 GooSeeker API 接口下載內(nèi)容提取器，這是一個示例程序。什么是內(nèi)容提取器？為什么用這種方式？源自Python即時網(wǎng)絡(luò)爬蟲開源項目：通過生成內(nèi)容提取器，大幅節(jié)省程序員時間。具體請參看《內(nèi)容提取器的定義》。

2，用Java下載內(nèi)容提取器

這是一系列實例程序中的一個，就目前編程語言發(fā)展來看，Java實現(xiàn)網(wǎng)頁內(nèi)容提取并不合適，除了語言不夠靈活便捷以外，整個生態(tài)不夠活躍，可選的類庫增長緩慢。另外，要從JavaScript動態(tài)網(wǎng)頁中提取內(nèi)容，Java也很不方便，需要一個JavaScript引擎。用JavaScript下載內(nèi)容提取器可以直接跳到第3部分的內(nèi)容。

具體實現(xiàn)

注解：

使用Java類庫 jsoup（1.8.3以上版本），可以很便利、快速的獲取網(wǎng)頁dom。

通過GooSeeker API 獲取xslt（參考 1分鐘快速生成用于網(wǎng)頁內(nèi)容提取的xslt）

使用Java自帶的類TransformerFactory執(zhí)行網(wǎng)頁內(nèi)容轉(zhuǎn)換

源代碼如下：

public static void main(String[] args)
{
    InputStream xslt = null;
    try
    {
        String grabUrl = "http://m.58.com/cs/qiuzu/22613961050143x.shtml"; // 抓取網(wǎng)址
        String resultPath = "F:/temp/xslt/result.xml"; // 抓取結(jié)果文件的存放路徑
        // 通過GooSeeker API接口獲得xslt
        xslt = getGsExtractor();
        // 抓取網(wǎng)頁內(nèi)容轉(zhuǎn)換結(jié)果文件
        convertXml(grabUrl, xslt, resultPath);
    } catch (Exception e)
    {
        e.printStackTrace();
    } finally
    {
        try
        {
            if (xslt != null)
                xslt.close();
        } catch (IOException e)
        {
            e.printStackTrace();
        }
    }
}

`/**`
 `* @description dom轉(zhuǎn)換`
 `*/`
public static void convertXml(String grabUrl, InputStream xslt, String resultPath) throws Exception
{
    // 這里的doc對象指的是jsoup里的Document對象
    org.jsoup.nodes.Document doc = Jsoup.parse(new URL(grabUrl).openStream(), "UTF-8", grabUrl);
    W3CDom w3cDom = new W3CDom();
    // 這里的w3cDoc對象指的是w3c里的Document對象
    org.w3c.dom.Document w3cDoc = w3cDom.fromJsoup(doc);
    Source srcSource = new DOMSource(w3cDoc);
    TransformerFactory tFactory =   TransformerFactory.newInstance();
    Transformer transformer = tFactory.newTransformer(new StreamSource(xslt));
    transformer.transform(srcSource, new StreamResult(new FileOutputStream(resultPath)));
}

`/**`
 `* @description 獲取API返回結(jié)果`
 `*/`
public static InputStream getGsExtractor()
{
    // api接口
    String apiUrl = "http://www.gooseeker.com/api/getextractor";
    // 請求參數(shù)
    Map params = new HashMap();
    params.put("key", "xxx");  // Gooseeker會員中心申請的API KEY
    params.put("theme", "xxx");  // 提取器名，就是用MS謀數(shù)臺定義的規(guī)則名
    params.put("middle", "xxx");  // 規(guī)則編號，如果相同規(guī)則名下定義了多個規(guī)則，需填寫
    params.put("bname", "xxx"); // 整理箱名，如果規(guī)則含有多個整理箱，需填寫
    String httpArg = urlparam(params);
    apiUrl = apiUrl + "?" + httpArg;
    InputStream is = null;
    try
    {
        URL url = new URL(apiUrl);
        HttpURLConnection urlCon = (HttpURLConnection) url.openConnection();
        urlCon.setRequestMethod("GET");
        is = urlCon.getInputStream();
    } catch (ProtocolException e)
    {
        e.printStackTrace();
    } catch (IOException e)
    {
        e.printStackTrace();
    }
    return is;
}

`/**`
 `* @description 請求參數(shù)`
 `*/`
public static String urlparam(Map data)
{
    StringBuilder sb = new StringBuilder();
    for (Map.Entry entry : data.entrySet())
    {
        try
        {
            sb.append(entry.getKey()).append("=").append(URLEncoder.encode(entry.getValue() + "", "UTF-8")).append("&");
        } catch (UnsupportedEncodingException e)
        {
            e.printStackTrace();
        }
    }
    return sb.toString();
}

返回結(jié)果如下：

3，用JavaScript下載內(nèi)容提取器

請注意，如果本例的JavaScript代碼是在網(wǎng)頁上運行的，因為跨域問題，是無法實現(xiàn)非本站網(wǎng)頁內(nèi)容爬取的。所以，要運行在具有特權(quán)的JavaScript引擎上，比如，瀏覽器擴展程序、自研的瀏覽器、自己的程序中含有JavaScript引擎等。

本例為了實驗方便，仍然放在網(wǎng)頁上運行，為了繞開跨域問題，是把目標(biāo)網(wǎng)頁存下來并進行修改，把JavaScript插入進去。這么多人工操作，僅僅是為了實驗，正式使用的時候需要考慮別的手段。

具體實現(xiàn)

注解：

引用 jQuery 類庫（jQuery-1.9.0 以上）

為了解決跨域問題，把目標(biāo)網(wǎng)頁預(yù)先保存到硬盤上

在目標(biāo)網(wǎng)頁中插入JavaScript代碼

使用GooSeeker API，把內(nèi)容提取器下載下來，內(nèi)容提取器是一個xslt程序，下例使用了jQuery的ajax方法從api獲得xslt

用xslt處理器作內(nèi)容提取

下面是源代碼：

// 目標(biāo)網(wǎng)頁網(wǎng)址為http://m.58.com/cs/qiuzu/22613961050143x.shtml，預(yù)先保存成本地html文件，并插入下述代碼
$(document).ready(function(){
    $.ajax({
        type: "get", 
        url: "http://www.gooseeker.com/api/getextractor?key=申請的appKey&theme=規(guī)則主題名", 
        dataType: "xml", 
        success: function(xslt)
            {
            var result = convertXml(xslt, window.document);
            alert("result:" + result);
        } 
    });  
});

/* 用xslt將dom轉(zhuǎn)換為xml對象 */
function convertXml(xslt, dom)
{
    // 定義XSLTProcessor對象
    var xsltProcessor = new XSLTProcessor();
    xsltProcessor.importStylesheet(xslt);
    // transformToDocument方式
    var result = xsltProcessor.transformToDocument(dom);
    return result;
}

返回結(jié)果截圖如下

4，展望

同樣可以用Python來獲取指定網(wǎng)頁內(nèi)容，感覺Python的語法更加簡潔，后續(xù)增加Python語言的示例，有興趣的小伙伴可以加入一起研究。

5，相關(guān)文檔

1， Python即時網(wǎng)絡(luò)爬蟲：API說明

6，集搜客GooSeeker開源代碼下載源

1， GooSeeker開源Python網(wǎng)絡(luò)爬蟲GitHub源

7，文檔修改歷史

1，2016-06-24：V1.0

云服務(wù)器 GPU云服務(wù)器網(wǎng)頁內(nèi)容提取 php提取括號內(nèi)容提取html指定內(nèi)容提取日志內(nèi)容java

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/38033.html

發(fā)表評論

登陸后可評論

0條評論

JackJiang

男|高級講師

我要關(guān)注我要私信

TA的文章

ssl證書怎么部署安裝?SSL證書下載后如何安裝

閱讀 2120·2021-11-23 10:06
利用selenium自動抓取淘寶后臺運營數(shù)據(jù)填入表格

閱讀 3482·2021-11-11 16:54
簡易實踐的vue自定義tab入門

閱讀 3348·2019-08-29 17:31
Web前端經(jīng)典面試試題（三）

閱讀 3573·2019-08-29 17:05
Async and Defer

閱讀 2173·2019-08-26 13:36
javascript獲取元素樣式

閱讀 2165·2019-08-26 12:17
利用Object.prototype.toString.call()來進行類型檢驗

閱讀 530·2019-08-26 12:12
前端權(quán)限映射:1.靜態(tài)映射 2. 動態(tài)映射

閱讀 1678·2019-08-26 10:19

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

API例子：用Java/JavaScript下載內(nèi)容提取器

相關(guān)文章

API例子：用Python驅(qū)動Firefox采集網(wǎng)頁數(shù)據(jù)

快速制作規(guī)則及獲取規(guī)則提取器API

**Python即時網(wǎng)絡(luò)爬蟲：API說明**

讓Scrapy的Spider更通用

**Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義(Python2.7版本)**

發(fā)表評論

0條評論

JackJiang

男|高級講師

TA的文章

ssl證書怎么部署安裝?SSL證書下載后如何安裝

利用selenium自動抓取淘寶后臺運營數(shù)據(jù)填入表格

簡易實踐的vue自定義tab入門

Web前端經(jīng)典面試試題（三）

Async and Defer

javascript獲取元素樣式

利用Object.prototype.toString.call()來進行類型檢驗

前端權(quán)限映射:1.靜態(tài)映射 2. 動態(tài)映射

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

API例子：用Java/JavaScript下載內(nèi)容提取器

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！