深網

基本解釋

整個Web看似雜亂無章,但如果按其所蘊涵信息的“深度”可以劃分為SurfaceWeb和DeepWeb兩大部分。SurfaceWeb是指通過超鏈接可以被傳統搜索引擎索引到的頁面的集合。DeepWeb是指Web中不能被傳統的搜索引擎索引到的那部分內容。廣義上來說,DeepWeb的內容主要包含4個方面:

(1)通過填寫表單形成對后臺在線數據庫的查詢而得到的動態頁面;

(2)由于缺乏被指向的超鏈接而沒有被搜索引擎索引到的頁面,大約占整個比例的21.3%;

(3)需要注冊或其它限制才能訪問的內容;

(4)Web上可訪問的非網頁文件,比如圖片文件、PDF和Word文檔等。

而在實際中應用中,人們則更關注于DeepWeb中的第一部分內容。其原因不難理解,這部分內容對結構化數據的集成更有意義,可以采用的技術也更豐富。DeepWeb數據集成也主要是指對結構化信息的集成,我們同時把Web中可訪問的在線數據庫稱為Web數據庫或WDB。這些內容只有在被查詢時才會由Web服務器動態生成頁面,把結果返回給訪問者,因此沒有超鏈接指向這些頁面,這是和那些可以被直接訪問的靜態頁面的根本區別。隨著Web相關技術的日益成熟和DeepWeb所蘊含信息量的快速增長,通過對web數據庫的訪問逐漸成為獲取信息的主要手段,而對DeepWeb的研究也越來越受到人們的關注。

命名

伯格曼在The Journal of Electronic Publishing上發表一篇關于深網的重大論文中提到,吉爾.艾爾斯沃夫曾經使用“隱形網”這一術語表示那些沒有被任何搜索引擎索引注冊的網站。伯格曼還引用法蘭克·加西亞在1996年1月的一篇文章:

這些網站可能已經被合理地設計出來了,但是他們卻沒有被任何搜索引擎編列索引,以至于事實上沒有人能找到他們。我可以這樣對這些不可見的網站說,你們是隱藏了的。我稱之為隱形網。

早期另一個使用“隱形網”這一術語的是一家叫做“個人圖書館軟件”公司的布魯斯·芒特和馬修·B·科爾,當他們公司在1996年12月推出和發行的一款軟件時,他們對深網工具的有過這樣的一番描述。

現在普遍接受的深網這一特定術語首次使用在2001年伯格曼的研究中。

區塊星球登載此文出于傳遞信息目的,并不意味著贊同其觀點或證實其描述。本文不構成投資建議。投資者據此操作,風險自擔。
欧美日韩亚洲第一区