国产成人免费网站-在线不卡免费视频-日本r级无打码中文-欧美第一夜-www欧美com-婷婷六月综合-欧美一级免费看-欧美国产精品一区二区三区-日韩av免费-欧美日韩综合在线观看-亚洲第一色图-人人插人人草-人妻少妇精品中文字幕av-一级国产精品-国产精品久久一区二区三区-都市激情 亚洲色图-欧美一级性视频

企億推信息網(wǎng)
專注網(wǎng)絡(luò)推廣服務(wù)

搜索引擎蜘蛛抓取規(guī)則離不開用戶搜索需求

搜索引擎的基礎(chǔ)是擁有大量網(wǎng)頁的信息數(shù)據(jù)庫,它是決定搜索引擎整體質(zhì)量的重要指標(biāo)。如果搜索引擎的Web信息量較小,那么供用戶選擇的搜索結(jié)果較少;而大量的Web信息可以更好地滿足用戶的搜索需求。

為了獲取大量的Web信息數(shù)據(jù)庫,搜索引擎必須收集網(wǎng)絡(luò)資源,本文的工作就是通過搜索引擎的Web爬蟲,對Internet上的每個Web頁面進(jìn)行信息的抓取和抓取。這是一個爬行和收集信息的程序,通常被稱為蜘蛛或機(jī)器人。

盡管搜索引擎蜘蛛有不同的名稱,但它們的爬行和爬行規(guī)則基本相同:

(1)當(dāng)搜索引擎抓取網(wǎng)頁時,會同時運(yùn)行多個蜘蛛程序,根據(jù)搜索引擎地址庫中的網(wǎng)址瀏覽抓取網(wǎng)站。地址庫中的網(wǎng)址包括用戶提交的網(wǎng)址、大型導(dǎo)航臺的網(wǎng)址、手工采集的網(wǎng)址、蜘蛛抓取的新網(wǎng)址等。

(2)搜索引擎蜘蛛在進(jìn)入允許抓取的網(wǎng)站時,一般會采取深度優(yōu)先、寬度優(yōu)先、高度優(yōu)先三種策略進(jìn)行爬行和遍歷,以抓取更多的網(wǎng)站內(nèi)容。

深度優(yōu)先爬行策略是搜索引擎蜘蛛在網(wǎng)頁中找到一個鏈接,向下爬行到下一個網(wǎng)頁的鏈接,向下爬行到該網(wǎng)頁中的另一個鏈接,直到?jīng)]有未爬行的鏈接,然后返回到個網(wǎng)頁,向下爬行到另一個鏈。

在上面的例子中,搜索引擎蜘蛛到達(dá)網(wǎng)站主頁,找到優(yōu)等網(wǎng)頁A、B、C的鏈接并將其爬行出來,然后依次爬行下優(yōu)等網(wǎng)頁A1、A2、A3、B1、B2和B3,在爬行第二級網(wǎng)頁后,爬行第三級網(wǎng)頁A4、A5,A6,盡量爬行所有網(wǎng)頁。

搜索引擎蜘蛛抓取規(guī)則離不開用戶搜索需求(圖1)

較好優(yōu)先級爬行策略是根據(jù)一定的算法劃分網(wǎng)頁的重要程度,主要通過網(wǎng)頁排名、網(wǎng)站規(guī)模、響應(yīng)速度等來判斷網(wǎng)頁的重要程度,搜索引擎爬行并獲取較高的優(yōu)先級。只有當(dāng)PageRank達(dá)到一定級別時,才能對其進(jìn)行爬網(wǎng)和抓取。當(dāng)實(shí)際的蜘蛛抓取網(wǎng)頁時,它會將網(wǎng)頁的所有鏈接收集到地址數(shù)據(jù)庫中,并對其進(jìn)行分析,然后選擇PR較高的鏈接進(jìn)行抓取。網(wǎng)站規(guī)模大,通常大型網(wǎng)站可以從搜索引擎中獲得更多的信任,而且大型網(wǎng)站更新頻率快,蜘蛛會先爬行。網(wǎng)站的響應(yīng)速度也是影響蜘蛛爬行的一個重要因素。在較好優(yōu)先級爬行策略中,網(wǎng)站響應(yīng)速度快,可以提高爬行器的工作效率,因此爬行器也會優(yōu)先對響應(yīng)速度快的網(wǎng)站進(jìn)行爬行。

這幾種爬行策略各有利弊。例如,深度優(yōu)先一般選擇合適的深度,以避免落入大量的數(shù)據(jù)中,從而限制了頁面的捕獲量;寬度優(yōu)先隨著捕獲頁面的增加,搜索引擎需要排除大量無關(guān)的頁面鏈接,爬行效率會變低;較好優(yōu)先級忽略了許多小網(wǎng)站的頁面,影響了互聯(lián)網(wǎng)信息差異化展示的發(fā)展,幾乎進(jìn)入大網(wǎng)站的流量,小網(wǎng)站難以發(fā)展。

在搜索引擎蜘蛛的實(shí)際爬行中,這三種爬行策略通常同時使用。經(jīng)過一段時間的爬行,搜索引擎蜘蛛可以爬行互聯(lián)網(wǎng)上的所有網(wǎng)頁。然而,由于Internet的巨大資源和搜索引擎的有限資源,通常只對Internet上的一部分網(wǎng)頁進(jìn)行抓取。

蜘蛛抓取網(wǎng)頁后,對網(wǎng)頁的值是否達(dá)到抓取標(biāo)準(zhǔn)進(jìn)行測試。當(dāng)搜索引擎爬行到網(wǎng)頁時,它會判斷網(wǎng)頁中的信息是否是垃圾信息,如大量重復(fù)的文本內(nèi)容、亂碼、與包含的內(nèi)容高度重復(fù)等,這些垃圾蜘蛛不會抓取,它們只是爬行。

搜索引擎判斷網(wǎng)頁的價值后,將包含有價值的網(wǎng)頁。該采集過程是將采集到的網(wǎng)頁信息存儲到信息數(shù)據(jù)庫中,根據(jù)一定的特征對網(wǎng)頁信息進(jìn)行分類,并以URL為單位進(jìn)行存儲。

搜索引擎的爬行和爬行是提供搜索服務(wù)的基本條件。隨著Web數(shù)據(jù)的大量出現(xiàn),搜索引擎能夠更好地滿足用戶的查詢需求。

未經(jīng)允許不得轉(zhuǎn)載:啟新網(wǎng)站SEO優(yōu)化 » 搜索引擎蜘蛛抓取規(guī)則離不開用戶搜索需求
分享到: 更多 (0)
加載中~
五台县| 于田县| 商河县| 辰溪县| 搜索| 光山县| 庄河市| 开封县| 武隆县| 九江市| 兴业县| 白玉县| 咸丰县| 文登市| 庆云县| 临猗县| 太谷县| 扶余县| 辽宁省| 庄河市| 琼结县| 遵义县| 綦江县| 阳谷县| 平舆县| 南木林县| 淮阳县| 台州市| 定结县| 梁河县| 开化县| 浦北县| 泰和县| 涪陵区| 庆元县| 信丰县| 玉环县| 温州市| 浦城县| 甘南县| 监利县|