ELK部署及實操

IT那活兒發(fā)布于2023-01-11 13:20 / 2012人閱讀

ELK部署及實操

一. ELK是什么

ELK是三個開源工具的縮寫——Elasticsearch、Logstash、Kibana。

Elasticsearch：
開源分布式搜索引擎，提供搜索、分析、存儲數(shù)據(jù)三大功能。特點包括分布式、零配置、自動發(fā)現(xiàn)、索引自動分片、索引副本機制、restful風格接口、多數(shù)據(jù)源、自動搜索負載等。

Logstash：
開源的日志搜集、分析、過濾工具，支持大量的數(shù)據(jù)獲取方式。一般工作方式為C/S架構(gòu)，client端安裝在需要收集日志的主機上，server端負責將收到的各節(jié)點日志進行過濾、修改等操作后再發(fā)送到Elasticsearch上。

Kibana：
為Logstash和Elasticsearch提供友好的日志分析界面，幫助匯總、分析和搜索重要的數(shù)據(jù)日志。

Filebeat，新增的工具，輕量級的日志收集處理工具(Agent)，filebeat占用資源少，適用于在服務(wù)器上搜集日志后傳輸?shù)絣ogstash。

補充：Beats輕量級數(shù)據(jù)采集器，目前包含四種工具：

Packetbeat——搜集網(wǎng)絡(luò)流量數(shù)據(jù)
Topbeat——搜集系統(tǒng)、進程、文件系統(tǒng)級別的CPU和內(nèi)存使用情況
Filebeat——搜索文件數(shù)據(jù)
Winlogbeat——搜索windows事件日志數(shù)據(jù)

二. 為什么要使用ELK

一般情況下進行日志分析時，可以直接在日志文件中使用grep、awk就可以獲得想要的信息。但是，在規(guī)模較大的場景中此方法效率很低，面臨的問題包括：日志量太大如何歸檔、文本檢索太慢、如何多維度查詢，需要集中化的日志管理所有服務(wù)器上的日志收集匯總。常見解決思路是建立集中式的日志收集系統(tǒng)，將所有節(jié)點上的日志統(tǒng)一收集、管理、訪問。ELK提供了一整套解決方案，并且都開源，各組件相互配合使用，高效的滿足了很多場景的應(yīng)用，是目前主流的日志分析系統(tǒng)。

完整的集中式日志收集系統(tǒng)應(yīng)包含以下主要特點：

收集——能夠采集多種來源的日志數(shù)據(jù)
傳輸——能夠穩(wěn)定的把日志數(shù)據(jù)傳輸?shù)胶诵南到y(tǒng)
存儲——如何存儲日志數(shù)據(jù)
分析——支持UI分析
警告——提供監(jiān)控機制及異常告警

三. 常用的ELK架構(gòu)

1. logstash + elasticsearch + kibana

最簡單的ELK架構(gòu)方式，此架構(gòu)由logstash分布于各個節(jié)點上搜集相關(guān)日志、數(shù)據(jù)，并經(jīng)過分析、過濾后發(fā)送到遠端服務(wù)器上的Elasticsearch進行存儲。Elasticsearch將數(shù)據(jù)以分片的形式壓縮存儲，并提供多種API供用戶查詢。也可更直觀的通過配置Kibana對日志進行查詢，并根據(jù)數(shù)據(jù)生成報表。

優(yōu)點：搭建簡單、易于上手

缺點：logstash資源消耗大，運行時占用較高的CPU和內(nèi)存，且沒有消息隊列緩存，存在數(shù)據(jù)丟失隱患。

2. logstashAgent + kafka或
redis + logstash + elasticsearch + kibana

此種架構(gòu)引入了消息隊列機制，各個節(jié)點上的logstashAgent先將日志數(shù)據(jù)傳遞給kafka(或redis)，并將kafka隊列中的消息或數(shù)據(jù)間接傳遞給logstash，logstash過濾、分析后將數(shù)據(jù)傳遞給elasticsearch進行存儲。最后由kabana將日志和數(shù)據(jù)呈現(xiàn)在界面。因為引入了kafka(或redis)，所以即使遠端logstash server因故障停止運行，數(shù)據(jù)將會先被存儲下來，避免數(shù)據(jù)丟失。

3. beats(Packetbeat、Topbeat、Filebeat、...) + (logstash)elasticsearch + kibana

此種架構(gòu)將收集端logstash替換為beats，更靈活、消耗資源更少、擴展性更強。同時可配置logstash和elasticsearch集群用于支持大集群系統(tǒng)的運維日志數(shù)據(jù)監(jiān)控和查詢。

四. Filebeat原理

主要兩個組件Prospectors和Harvesters，協(xié)同工作將文件的變動發(fā)送到指定的輸出中。

Harvester(收割機)：負責讀取單個文件內(nèi)容

每個文件會啟動一個Harvester，Harvester會逐行讀取文件內(nèi)容，并將文件內(nèi)容發(fā)送到指定的輸出中。Harvester負責打開和關(guān)閉文件，即在Harvester運行時，文件描述符處于打開狀態(tài)。如果文件在收集時被重命名或刪除，F(xiàn)ilebeat會繼續(xù)讀取此文件，所以在Harvester關(guān)閉之前磁盤不會被釋放。默認情況下，filebeat會保持文件的打開狀態(tài)，直到達到close_inactive。若close_inactive選項開啟，filebeat會在指定時間內(nèi)將不再更新的文件句柄關(guān)閉，時間從Harvester讀取最后一行的時間開始計時。若文件句柄被關(guān)閉后，文件內(nèi)容發(fā)生了變化，則會啟動一個新的Harvester。關(guān)閉文件句柄的時間不取決于文件的修改時間，而是由scan_frequency參數(shù)決定，默認10s，若配置不當，則可能發(fā)生日志不實時的情況。Harvester使用內(nèi)部時間戳來記錄文件最后被收集的時間。如scan_frequency設(shè)置60s，則在Harvester讀取文件最后一行后，開始倒計時60s，若文件60s內(nèi)無變化，則關(guān)閉文件句柄。

Prospector(勘測者)：負責管理Harvester并搜尋所有讀取源

Prospector會搜尋到/apps/logs/下所有的info.log文件，并為每個文件啟動一個Harvester。Prospector會檢查每個文件的Harvester是否已經(jīng)啟動、是否需要啟動、或者文件是否可以忽略。若文件的Harvester已關(guān)閉，在有文件大小發(fā)生變化時Prospector才會執(zhí)行檢查，且Prospector只能檢測本地文件。

Filebeat如何記錄文件狀態(tài)

將文件狀態(tài)記錄在registry文件中(默認在filebeat的data目錄下)，狀態(tài)中會記錄Harvester收集文件的偏移量。filebeat會記錄發(fā)送前的最后一行，并在可以連接的時候繼續(xù)發(fā)送。filebeat運行時，Prospector的狀態(tài)記錄在內(nèi)存中。重啟filebeat時，利用registry記錄的狀態(tài)進行重建，用來還原到重啟之前的狀態(tài)。Prospector會為找到的每個文件記錄一個狀態(tài)，而對于每個文件，filebeat會存儲唯一標識符以檢測文件是否已經(jīng)被收集。

{"source":"/usr/local/tomcat/apache-tomcat-7.0.29/logs/localhost_access_log.2019-03-26.txt","offset":11694,"timestamp":"2021-07-12T16:21:52.006333381+08:00","ttl":-1,"type":"log","meta":null,"FileStateOS":{"inode":262747,"device":64768}}]

Filebeat如何保證事件至少被傳遞一次：

filebeat之所以能保證事件至少被傳遞一次而沒有數(shù)據(jù)丟失，是因為filebeat將每個事件的傳遞狀態(tài)保存在文件中。在未得到接收方確認時，filebeat會一直嘗試發(fā)送，直到得到回應(yīng)。若filebeat在傳輸過程中被關(guān)閉，則不會在關(guān)閉前確認所有事件是否被傳遞。任何在filebeat關(guān)閉前未確認的事件，都會在filebeat重啟之后重新發(fā)送?？纱_認至少發(fā)送一次，但用可能會重復(fù)。可通過shutdown_timeout參數(shù)設(shè)置關(guān)閉前等待事件回應(yīng)的時間。

五. Logstash原理

logstash是接收、處理、轉(zhuǎn)發(fā)日志的工具。支持系統(tǒng)日志、webserver日志、錯誤日志、應(yīng)用日志，基本包括所有的日志類型。

logstash事件處理的三個階段：inputs → filters → outputs。

Input：輸入數(shù)據(jù)到logstash，一般常用的輸入為以下類型

file → 從文件系統(tǒng)中的文件讀取，類似于tail -f命令
syslog → 在514端口上監(jiān)聽系統(tǒng)日志消息，并根據(jù)RFC3164標準進行解析
redis → 在redis server上讀取
beats → 在filebeat中讀取

Filters：數(shù)據(jù)中間處理，對數(shù)據(jù)進行操作，常用的過濾器為以下

grok → 解析任意文本數(shù)據(jù)，grok是logstash最重要的插件，主要作用是將文本格式的字符串轉(zhuǎn)換為具體的結(jié)構(gòu)化的數(shù)據(jù)，配置正則表達式使用。
mutate → 對字段進行轉(zhuǎn)換，例如對字段進行刪除、替換、重命名、修改等。
drop → 丟棄一部分events不進行處理
clone → 復(fù)制事件，該過程中也可以添加或移除字段
geoip → 添加地理信息(為前臺kibana圖形化展示使用)