<th id="1ntlv"></th>


<em id="1ntlv"></em>

<big id="1ntlv"><progress id="1ntlv"></progress></big>

<form id="1ntlv"><progress id="1ntlv"><big id="1ntlv"></big></progress></form>
<th id="1ntlv"></th>

<ruby id="1ntlv"><span id="1ntlv"></span></ruby>

<th id="1ntlv"><em id="1ntlv"><track id="1ntlv"></track></em></th>
?

客戶服務中心

您可以直接撥打我們的客戶服務熱線或者把您的意見發送至我們的郵箱

010-82684401

mingdedata@163.com

北京市昌平區宏福國際創新中心A座4030室

當前位置:企業新聞
檔案實務|網絡檔案開發利用工具大盤點

一、 引言

 網絡信息存檔的深入開展驅動實踐領域為促進網絡檔案資源的利用和開發設計技術工具,形成了功能各異、使用場景不同的系列產品。加強對相關工具的了解對于網絡檔案資源的開發利用具有積極意義。由此,“檔案那些事兒”接續上期有關網絡信息捕獲工具的介紹《檔案實務|網絡檔案管理專題(三)——網絡信息捕獲工具大盤點》,繼續盤點網絡信息開發利用的技術工具,介紹不同工具的開發背景、基本功能等。

 

二、工具介紹

 總體而言,面向網絡檔案資源的開發利用,現有技術工具著重于實現網絡檔案的復現、檢索、分析和基本的管理功能的實現。

(一)網絡檔案的復現工具

InterPlanetary Wayback

InterPlanetary Wayback是由歐道明大學計算機系Mat Kelly等人在“檔案釋放黑客馬拉松”項目(ArchivesUnleashed Hackathon)的資助下,使用Python語言開發的網絡檔案復現工具,并于2018年在開源平臺Github發布。該工具可從InterPlanetary文件系統中獲取WARC格式的網絡檔案,并重新組合存檔的HTTP響應以進行網絡資源復現。該復現工具由索引器和復現裝置構成。索引器用于從WARC文件庫和InterPlanetary文件系統中提取HTTP頭字段、有效載荷(payload)、時間、內容類型等,并將其構建為CDXJ格式的索引文件。復現裝置則可在用戶發出請求后,即可從索引中獲取對應的文件。通過該索引文件即可從InterPlanetary文件系統中獲取HTTP頭字段以及有效載荷,并在復現裝置中組合上述文件進而提供給用戶。工具鏈接:https://github.com/oduwsdl/ipwb

 OpenWayback

隨著開源版Wayback Machine被IIPC成員廣泛使用于網絡檔案復現工作,互聯網檔案館將開源版Wayback Machine的主要存儲庫移交給IIPC。為了滿足IIPC成員對于網絡資源利用需求,IIPC于2013年啟動了OpenWayback項目,以便在成員間進行開源軟件測試,進而形成“正式”版本。OpenWayback支持“存檔URL(Archival URL)”和“代理(Proxy)”兩種網絡資源的復現模式。在“存檔URL”模式中,通過修改服務器的HTML標簽子集并在其中插入JavaScript,或在服務器中重寫所有的HTML標簽等方式,適當修改響應用戶請求的HTML文檔,以提供與原始內容更為一致的復現體驗。在“代理”模式中,允許用戶配置其瀏覽器,通過Wayback應用程序代理所有HTTP請求。從而復現文件中發現的超鏈接均自動通過Wayback發出請求,且不需要改變網絡資源的內容。

工具鏈接:https://github.com/iipc/openwayback/

 

ReplayWeb.Page 

ReplayWeb.Page是由WebRecorder項目團隊使用JavaScript開發的基于瀏覽器的網絡檔案復現工具,并于2020年在Github平臺上線。該工具的優勢在于可以直接在瀏覽器中實現不同地址和不同格式的網絡檔案高保真復現。在該工具中,用戶可以通過從本地選取網絡檔案、輸入網絡檔案URL以及通過安裝附加組件直接從Google Drive導入網絡檔案三種方式加載網絡檔案資源。在加載完成后,用戶則可瀏覽、探索網絡檔案資源。ReplayWeb.Page將列出所有已加載的網絡檔案索引,支持用戶通過標題、來源進行檢索,并通過日期等元數據要素進行篩選。此外,ReplayWeb.Page還提供了三種與網絡檔案資源的交互方式。一是“故事”試圖,可提供存檔方形成的網絡檔案精選頁面列表;二是“頁面”視圖,可顯示網絡檔案資源的所有頁面;三是“頁面資源”視圖,對于許多缺少元數據的網絡檔案資源而言,允許用戶輸入URL進行檢索,并支持更為詳細的資源瀏覽方式。

工具鏈接:https://replayweb.page/

 

(二)網絡檔案的檢索和發現工具

Mink 

Mink是由歐道明大學計算機系Mat Kelly等人使用JavaScript開發的用于瀏覽網頁存檔情況的Google瀏覽器拓展程序,并于2014年發布至開源平臺Github。用戶可在Google瀏覽器應用程序拓展商店下載該工具,并直接在瀏覽器中應用。Mink在用戶瀏覽實時網絡資源的同時,可將URL作為參數自動查詢該URL所代表的網絡資源的存檔情況,允許用戶訪問存檔的網絡資源并與實時網絡資源進行比較。此外,對于沒有存檔的網絡資源,Mink則鼓勵用戶開展網絡存檔行動,允許用戶選擇互聯網檔案館、Archive.today、WebCite或Perma.cc等平臺對該網絡資源進行存檔。

工具鏈接:https://github.com/machawk1/mink

 httpreserve.info

httpreserve.info由數字保存專家Ross Spencer開發,是一種用于檢查網絡鏈接狀態并查看其是否已在互聯網檔案館存檔的工具。該工具帶有默認服務器模式,可以用于發布和獲取請求,在默認情況下進行開機自檢,并且也可以作為網絡服務建立起來。服務器運行時主要有兩種API(應用程序編程接口),一種返回包含用戶請求服務信息的JSON結構,另一種則是管理對網絡存檔的保存請求并返回HTTPreserve結構。

此外,httpreserve客戶端作為一個獨立的應用程序,用于保存文獻遺產內部網絡應用的批量分析工具,可生成CSV、JSON、HTTP、BoltDB等不同格式的輸出結果,能夠向用戶提供更廣泛的訪問途徑,后續也會推出針對不同平臺的版本。

工具鏈接:http://httpreserve.info/

 Webarchive-discovery 

丹麥皇家圖書館于2018年將webarchive-discovery升至3.0版本。使用webarchive-discovery可以對ARC和WARC格式的文件進行數據挖掘和索引,并使文件內容可以被瀏覽和發現。使用該工具的主要目標是為網絡檔案提供全文檢索服務。為實現這個目標,webarchive-discovery借助warc-indexer組件來解析(W)ARC文件。對于其中的各種資源,它將一條記錄發布到一個或多個Apache Solr服務器。而后應用面向客戶端的工具,允許研究人員查詢Solr索引并探索集合。webarchive-discovery具備高度可配置和可擴展、從索引中排除特定的記錄、內容類型和狀態代碼、提取嵌入式許可信息、格式分析(包括對HTML、PDF、XML等格式的特定處理)等特點。

工具鏈接:https://github.com/ukwa/webarchive-discovery

 Shine

Shine由Anjackon于2020年創建,它是一個用于瀏覽Solr服務器內容的web UI。它是一款專門設計用來使用warc-discovery索引器探索由web存檔數據填充的搜索服務器。使用該工具的主要目標是促進網頁存檔內容的分面搜索和更復雜的趨勢分析。Shine為實現數據可視化和底層數據集投影提供基礎,并具有分面搜索和趨勢分析的功能。同時,Shine允許高級檢索。根據用戶可選擇的“匹配類型”,各字段可采取多種方式進行搜索,具體包括:“包含所有”(即“與”)、“包含任何”(即“或”)、“完全匹配”(即“短語搜索”)、“鄰近搜索”(即添加另一個文本字段和一個數字鄰近字段,如果沒有鄰近字段,則檢索只是一個AND查詢)。

工具鏈接:https://github.com/ukwa/shine

 SolrWayback

SolrWayback最初由Ryan Chartier創建,是一個web應用程序,用于瀏覽歷史獲取的ARC/WARC文件,類似于Internet Archive Wayback Machine。SolrWayback在Solr服務器上使用,并使用warc-indexer索引ARC/WARC文件。SolrWayback擁有如下功能:(1)所有資源的自由文本搜索。(2)域的交互式鏈接圖。(3)將搜索結果導出到WARC文件。(4)CSV文本導出搜索結果與自定義字段選擇。(5)域的詞云生成。(6)N-gram搜索可視化。(7)按域顯示搜索結果。(8)大規模導出Gephi格式的鏈接圖。(9)使用圖像中的EXIF元數據信息按地圖上的位置進行圖像地理搜索。(10)通過上傳文件進行搜索。(11)查看資源索引的所有字段,并顯示記錄的warc-header。

工具鏈接:https://github.com/netarchivesuite/solrwayback

 (三)網絡檔案的分析工具

Archives Research Compute Hub

Archives Research Compute Hub(ARCH)是由Archives Unleashed項目團隊開發的網絡應用程序,用于實現Archive-It網絡檔案的分布式計算分析。該工具已在2022年初完成一系列用戶體驗測試,并正與互聯網檔案館進一步合作。用戶可選擇相應的Archive-It網絡檔案進行探索,通過點擊按鈕創建數據集,ARCH可實現域頻率統計、超鏈接網絡圖和全文提取等功能;ARCH也擁有多個瀏覽器內可視化功能,可用于探索館藏內容和潛在數據輸出。

工具鏈接:https://github.com/internetarchive/arch

 ArchiveSpark

ArchiveSpark是由互聯網檔案館于2015年開發的Web存檔框架/工具包/庫/API,用于促進高效的數據處理、提取以及網絡檔案集合的派生。該工具基于Apache Spark(一種流行的大數據處理框架)實現,通過應用過濾器和工具派生語料庫,從原始數據中提取信息,并以更易于訪問的格式存儲,同時反映每個派生值的數據沿襲。其用例豐富,包括:選擇數據子集并提取如標題、實體等所需屬性;對過濾/提取/派生的數據展開分析;為下游應用生成超鏈接或知識圖譜;處理存檔網頁并提取嵌入資源;從互聯網檔案館Wayback Machine遠程下載 WARC/CDX 數據等。

工具鏈接:https://github.com/helgeho/ArchiveSpark

 Archives Unleashed Toolkit

Archives Unleashed Toolkit是Archives Unleashed項目團隊近年開發的開源平臺,提供一種使用Apache Spark從網絡檔案中提取和分析數據的方法。其工作流程涵蓋從館藏分析到理解和處理館藏的全過程:在生成及結果方面,支持館藏分析(如提取頂級域名)、文本分析(如提取按關鍵字過濾的純文本)、鏈接分析(如導出到Gephi)、二進制分析(如提取圖像信息)、文本文件(html、text、css、js、json、xml)分析;在篩選結果方面,包括RDD過濾器和數據框過濾器,并提供相應結果處理的詳細指導。

工具鏈接:https://github.com/archivesunleashed/au

 Archives Unleashed Notebooks

Archives Unleashed Notebooks是Archives Unleashed團隊于2019年開發的Archives Unleashed Toolkit衍生工具,主要包括使用Toolkit處理網絡檔案的筆記本。該工具為研究人員提供了一系列使用Toolkit 分析網絡檔案的功能,包括數據清理、數據轉換、網絡分析、情感分析等,并支持以交互方式探索和過濾由Toolkit生成的域計數信息、提取的全文和網絡可視化數據。此外,該工具采用用戶友好的界面,旨在便利需要使用大數據處理技術分析網絡檔案的非技術背景研究人員。

工具鏈接:https://github.com/archivesunleashed/notebooks

 (四)網絡檔案的管理工具

WarcPartitioner

WarcPartitioner是由互聯網檔案館網絡數據工程師Helge Holzmann于2016年開發的Web存檔工具,主要用于Web ARChive(WARC)文件的分區。該工具基于Hadoop/MapReduce,按照MIME類型(用于標識互聯網上文件格式的標簽)和年份對大型WARC文件進行分區,具體包括兩個階段:首先依據指定大小或文件數將文件中的網絡檔案拆分為不含有任意大小標題的文件;其次將分區文件合并到有效的WARC/ARC文件中,并設置文件標題格式。

工具鏈接:https://github.com/helgeho/WarcPartitioner

 webarchive-indexing

webarchive-indexing由IIPC的Ilya Kreymer于2015年開發,支持在Hadoop、EMR或本地文件系統上批量索引WARC/ARC文件。該項目包含多個MapReduce作業,用于從WARC/ARC文件的輸入列表創建共享url索引,具體包括三個步驟:首先將單個WARC/ARC文件存儲為CDX格式的索引文件,CDX索引文件包含網絡檔案的URL、時間戳等信息,支持快速定位與檢索;其次,通過采樣技術將CDX文件拆分為單個純文本文件,并轉換為序列文件以支持后續作業;最后,使用拆分文件(步驟二生成)從各個CDX文件(步驟一生成)創建ZipNum集群,在此格式中,所有CDX行均被gzip壓縮并連接,每個拆分文件均具有一個索引文件和二級索引文件,通過連接二級索引以形成最終的二進制索引。由于WARC/ARC文件數量眾多,上述步驟的腳本均在支持處理TB甚至PB級的文件數量的Hadoop或Amazon EMR環境中運行;同時,由于MRJob庫的靈活性,腳本也可在本地機器上運行以構建索引集群。

工具鏈接:https://github.com/ikreymer/webarchive-indexing

 httrack2warc

httrack2warc由澳大利亞國家圖書館的研究團隊開發,是一種能夠將HTTrack存檔轉換為WARC格式的工具,通過讀取HTTrack緩存目錄(hts-cache)和任何可用的日志文件來重建原始請求和響應的近似值。在格式轉換的過程中,可能會出現因使用HTTrack操縱的文件名而導致現有鏈接斷開的問題,為解決此問題,httrack2warc可以從HTTrack路徑合成重定向記錄到重建的原始實時URL中,之后通過設置Web服務器便可以將所有請求重定向到新的基于WARC格式的存檔中。最后使用pywb等復現工具對所攝取的WARC文件進行復現。

工具鏈接:https://github.com/nla/httrack2warc

 MemGator

MemGator由歐道明大學網絡科學和數字圖書館研究小組開發,是在Go語言環境下的跨平臺CLI(command-line interface,NETCore命令行界面,一種跨平臺工作方式的主要工具)和服務器,其命令行界面允許以所有支持的格式檢索時間圖等內容。在CORS支持下,方便用戶從JavaScript客戶端進行使用。

MemGator據其特征能夠實現以下功能,首先作為二進制文件能夠用于各種平臺,可以用作CLI或作為Web服務運行,當作為Web服務運行時,會公開可自定義的端點,包括TimeMap、TimeGate、Memento、About和Monitor等,輸出結果主要以LINK、JSON和CDXJ三種格式提供。其次,在運行過程中通過服務器發送事件(SSE),即服務器可以隨時將更新的數據流式傳輸給客戶端,而無需發出初始請求,用戶則能夠實現實時的可視化與監控;最后,在運行方式上,MemGator采取并發并行的方式,即運行時將每個任務拆分成多個子任務,而后利用所有可用的CPU并行執行,過程中會基于概率對歸檔優先級進行選擇與限制,并且會自動排除此前上游存檔出現的故障,予以檢測和休眠。

工具鏈接:https://github.com/oduwsdl/MemGator

 OutbackCDX

OutbackCDX由澳大利亞圖書館的研究團隊開發,是基于RocksDB的Web歸檔索引(CDX)服務器,支持增量更新和索引壓縮。其可以實現的功能包括加載、刪除、查詢網絡檔案;可用作OpenWayback,PyWb和Heritrix的后端,實現文件記錄的讀??;通過設置環境變量來啟用訪問控制;在內存使用過多或需要更多性能的情況下可以調整內存的使用情況,防止負載過多。值得一提的是,在默認情況下,OutbackCDX是不安全的,需要采用外部授權方法,例如防火墻規則、反向代理;或啟用Generic JWT和Keycloak進行授權,其中用戶可以使用JSON Web令牌對修改索引和訪問控制規則的授權進行控制,而OutbackCDX可以使用Keycloak作為身份驗證服務器來保護API,用戶則可以根據需要與客戶端角色選項卡對應:①創建或刪除索引記錄②創建、修改或刪除訪問規則③創建、修改或刪除訪問策略。此外,OutbackCDX可通過HMAC算法實現與網絡服務器或云存儲提供商的結合使用。

工具鏈接:https://github.com/nla/outbackcdx

 The Archive Browser

The Archive Browser由 Dag Agren進行開發,是一個僅限Mac OS系統的專有應用程序,可以讓用戶瀏覽并提取存檔的內容。其次,基于The Unarchiver可以處理大量不同的存檔格式,常見格式例如Zip、RAR、7-zip、Tar、Gzip和Bzip2以及StuffIt、DiskDoubler、LZH、ARJ和ARC等舊格式,還可以處理其他類型的格式如CD和DVD圖像,例如ISO、BIN、MDF、NRG和CDI等格式,及許多Windows自解壓文件,甚至可以從Flash SWF文件中提取媒體。此外,The Archive Browser可以較好地處理不同的文件名編碼,向用戶顯示更多有關存檔及其內容的信息。

工具鏈接:https://archivebrowser.c3.cx

 三、結語

通過對上述網絡檔案資源利用和開發設計技術工具的介紹,對網絡檔案資源利用和開發設計的系列產品的開發主體、時間、主要特點、具體功能等已得到一定認識。不同網絡檔案資源開發工具各有千秋、各有側重,在不同的使用場景下盡展風華。相信相關工具會隨著實踐的進一步深入而更加靈活、便捷、高效,為網絡檔案資源開發利用貢獻更多技術力量。歡迎大家持續關注后續推出的網絡檔案資源存檔的系列介紹,同時歡迎各位讀者朋友們在評論區留言、互動,共同探討網絡檔案資源存檔的系列問題。


圖文來源“檔案那些事”微信公眾號,如有侵權請聯系隨時進行刪除 !


国产婷婷色一区二区三区_人妻少妇精品久久_亚洲av永久无码精品天堂久久