高清视频在线观看免费播放器-伊人日本-色九月综合-18禁止看的免费污网站-免费观看性行为视频的网站-天天碰天天操-久久精品国产欧美日韩99热-中文字幕在线视频不卡-国产偷人妻精品一区二区在线-国内精品久-伊人影院在线看-密臀av一区-久久综合五月丁香久久激情-福利一区福利二区-gg国产精品国内免费观看-国产精品 高清 尿 小便 嘘嘘

當前位置: 首頁 >綜合 > 正文

淺談網絡爬蟲技術

2023-06-01 14:13:01 來源:中國保密協會科學技術分會
一、網絡爬蟲技術概述

網絡爬蟲又叫網絡蜘蛛、網絡機器人等,可以將其理解為一個在互聯網上自動提取網頁信息并進行解析抓取的程序。網絡爬蟲不僅能夠復制網頁信息和下載音視頻,還可以做到行為鏈執行與網站的模擬登錄。身處大數據時代,不論是人工智能還是數據分析,都需要有海量的數據在背后做支撐,如果單單是依靠人力去手工采集,不僅成本高昂而且效率低下,在這一需求下,自動化且高效可并發執行的網絡爬蟲便擔起了獲取數據的重任。

二、網絡爬蟲基本原理

理論上來說,任何編程語言都可以用來編寫網絡爬蟲,只有難易之分。因為網絡爬蟲本質上只是對目標服務器發起HTTP請求,并對HTTP響應做出處理,提取關鍵信息進行清洗入庫。這里的服務器可以理解為要爬取的網站站點,爬蟲程序發起一次HTTP請求,網站服務器對請求做出一次響應,就構成了一次網絡爬蟲行為,但是僅僅發起請求是不完整的,還需要將網站返回回來的信息進行數據解析和數據清洗,將最終需要的數據存儲到數據庫或是本地文件里才算是完成了一整套的爬蟲流程。

如圖1所示,完整的爬蟲流程應當是編寫的網絡爬蟲在發起請求之后,目標服務器返回指定的請求響應,通過對請求響應返回的響應體進行解析,找到需要的信息進行數據存儲。如果需要翻頁或者進行跳轉,則從當前頁面或者響應體中提取出鏈接再次發起請求。


(資料圖)

圖 1 網絡爬蟲流程

通常來說,開發一個網絡爬蟲主要有兩個途徑,一個是根據請求包和解析包從頭開始爬蟲編寫,另一個是基于現行的爬蟲框架,進行框架化開發。

1.腳本編寫爬蟲

Python實現了許多第三方庫來幫開發者完成這個操作,比如github上開源的requests庫便是發起HTTP請求的利器,這就省去了實現請求程序的時間,bs4解析庫更是讓開發者只需要專注于網頁信息的定位,操作網站返回的主體信息就可以了。開發重心也就從協議處理轉化到了具體網頁的數據提取。不過如果爬蟲編寫者是要對有著反爬蟲措施的網站進行數據采集,則需要花費精力去應對反爬蟲手段,諸如JavaScript逆向、代碼混淆或者指紋風控之類的手段。

2.基于框架開發爬蟲

如今流行的網絡爬蟲框架Scrapy,其基于異步Twisted引擎,將爬蟲請求的每個階段都進行了拆分,并建立了鉤子能夠讓開發者在每一階段進行定制化開發,可以大大加快網絡爬蟲的開發速度,并且其異步特性可以很好地實現并發爬取。

Scrapy框架模塊化和程序化的編寫方式,符合團隊合作的風格,相較于腳本編寫爬蟲,更易于集體開發和維護。但缺點是需要進行第三方的拓展時不如直接進行腳本編寫方便,如今的爬蟲大多需要進行JS逆向、驗證碼識別之類的操作,外接其他編程語言進行開發,這需要對Scrapy有著深入了解才能做到程序穩定運行。

三、網絡爬蟲分類

實際開發中根據具體的代碼實現與爬蟲架構,網絡爬蟲可以被分為通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲與深層網絡爬蟲。

1.通用網絡爬蟲(General Purpose Web Crawler)

通用網絡爬蟲又叫全網爬蟲,顧名思義,它的目標數據是整個互聯網,爬取的數據極為豐富,因此常用于搜索引擎當中。它們往往從一些種子URL出發,輾轉爬取最終拓展到整個網絡。在爬蟲流程里講過,一個爬蟲程序的設計離不開發起請求,解析頁面和內容存儲三個方面。既然要存儲海量的互聯網數據,那這類爬蟲對于爬蟲的性能和數據的存儲空間就會具有高要求,而且因為URL數量過多,通用網絡爬蟲常常會忽略爬行頁面的順序,并且采取并發的模式來提高爬取速度。

正是因為它要爬取海量的數據,所以此類爬蟲的爬取策略常常需要進行嚴格的設計與實踐。就目前而言,深度優先爬取策略和廣度優先爬取策略是較為常見的。不過真正應用于實踐當中的通用網絡爬蟲策略往往會非常復雜,并且穿插各類算法在其中。

(1) 深度優先:按照頁面深度進行排序,一次訪問下一級URL,直到觸底無法深入。

(2) 廣度優先:按照頁面內容目錄層次進行劃分,爬取完同一層次的URL才會繼續進入下一層進行爬取。

2.聚焦網絡爬蟲(Focused Crawler)

聚焦網絡爬蟲更加適用于日常的爬蟲需求,并不需要爬蟲程序去獲取整個互聯網的資源,那是搜索引擎該做的事。它專注于某一主題,選擇性爬取網頁上與開發者已經定義的規則相匹配的數據資源,能夠滿足對于特定網站或者領域的信息爬取工作。

聚焦網絡爬蟲的爬取策略有4種:

(1) 基于內容評價:將用戶輸入的信息作為主題進行爬取,頁面包含用戶輸入信息則認為主題相關。

(2) 基于鏈接評價:根據頁面結構信息分析爬取的URL重要性,根據重要程度進行爬取優先級的排序。

(3) 基于增強學習:利用概率統計中的貝葉斯分類器,根據網頁內容和鏈接文本對URL進行分類,計算出URL的權重,以決定爬取順序。

(4) 基于語境圖:結合機器學習系統,計算當前頁面到相關的網頁的距離,距離越近的頁面的URL訪問越優先。

3.增量式網絡爬蟲(Incremental Web Crawler)

增量式網絡爬蟲主要目的是長久地維持一個數據庫,對于其中數據的穩健性和實時性具有高要求。簡單來說,它對已經爬取過的網頁頁面采取增量式更新,再次爬取的時候就會僅僅爬取新出現的或者發生改變的數據,對于沒有發生變化的頁面或數據則不會爬取。

此類爬蟲常用的策略有三:

(1) 統一更新:每隔一段時間將所有的頁面再次訪問一遍,以達到更新數據的目的。

(2) 個體更新:根據個體網站的數據變化頻率來指定重新訪問的時間。

(3) 分類更新:將網頁區分為數據變化迅速的和數據變化緩慢的,以不同頻率訪問這兩類網頁。

4.深層網絡爬蟲(Deep Web Crawler)

深層網絡主要指的是沒辦法直接訪問到的頁面,這類網頁信息通常需要滿足一定的要求才可以瀏覽,隱藏在一些表單之后,不能通過靜態鏈接直接獲取。例如日常生活中遇到的一些必須登錄注冊后才可以訪問的網站便屬于深層網絡的范疇。這類爬蟲的需求也極其旺盛,不過只需要搭配GET和POST請求便可以訪問,主要難點在于破解POST提交信息時候的網頁數據加密,即JavaScript加密參數。

四、網絡爬蟲與搜索引擎

首先,搜索引擎的制作離不開網絡爬蟲,如百度搜索引擎又叫作百度爬蟲(BaiduSpider),谷歌搜索引擎又被稱為谷歌機器人(Googlebot),而且通用網絡爬蟲有時候也可以用來指代搜索引擎,是否搜索引擎就是網絡爬蟲呢?答案是否定的。搜索引擎是一項綜合性的技術,網絡爬蟲是實現搜索引擎的比必不可少的一環,爬蟲只為搜索引擎提供數據,除此之外還有建立全文索引,進行倒排文件以及提供查詢服務等技術糅合在里邊。

除此之外,搜索引擎更關注的是大而全,為大多數用戶提供檢索服務,所以有些冷門的沒有被列入索引的網站就沒辦法被實時獲取到,而網絡爬蟲則可以通過個人定制,爬取一些搜索引擎關照不到的地方,典型的案例便是深層網絡爬蟲以及在robots.txt中明確禁止搜索引擎爬取的網站,而理論上開發者編寫的網絡爬蟲可以到達世界上的任何網站。

雖然開發者日常編寫的網絡爬蟲遠不及搜索引擎那般復雜與精密,但是卻能夠讓人了解到搜索引擎內部的工作原理。而且搜索引擎也可以看作是日常編寫的一個個定向聚焦的網絡爬蟲聚合而來的,當搜索引擎沒辦法完成定向的數據搜集工作的時候,編寫一個自己的網絡爬蟲就顯得極為重要了。

五、網絡爬蟲技術的危害

由于網絡爬蟲可以模擬正常用戶的訪問,所以可以完成下單購物、搶票秒殺等行為,而且其是從協議層面實現的,拋開了電腦端和移動端的一系列復雜行為,速度遠快于正常用戶,會擠占正常用戶的需求。此外,網絡爬蟲常被用來爬取公開的數據,但是爬取行為依然會占用正常的服務器資源。而且許多爬蟲是追求效率的,是不加節制地,多線程、分布式地去進行數據爬取,對網站造成類似DDOS的攻擊,使得正常用戶也無法訪問到數據。

要從互聯網上根絕網絡爬蟲也是不可能的,因為網絡爬蟲已經成為了互聯網生態的一部分,搜索引擎便是最大的網絡爬蟲。網站要防止的是來自個人或組織的不加節制的爬蟲行為,通過不斷提高爬蟲門檻,建立反爬蟲措施,可以很大程度增加網絡爬蟲的爬取成本,降低網絡爬蟲帶來的危害。

參考文獻

[1]Tianyi Ma,Ziyang Zhang. Medical Consultation System based on Python Web crawler[C]//.Proceedings of 2021 2nd International Conference on Electronics, Communications and Information Technology (CECIT 2021).,2021:772-776.DOI:10.26914/c.cnkihy.2021.065511.

[2]Addo Prince Clement,Dorgbefu Jnr. Maxwell,Kulbo Nora Bakabbey,Akpatsa Samuel Kofi,Ohemeng Asare Andy,Dagadu Joshua Caleb,Boansi Kufuor Oliver,Kofi Frimpong Adasa Nkrumah. Video Ads in Digital Marketing and Sales: A Big Data Analytics Using Scrapy Web Crawler Mining Technique[J]. Asian Journal of Research in Computer Science,2021.

[3]Ma Xiaoju,Yan Min. Design and Implementation of Craweper Based on Scrapy[J]. Journal of Physics: Conference Series,2021,2033(1).

[4]Deng Kaiying,Chen Senpeng,Deng Jingwei. On optimisation of web crawler system on Scrapy framework[J]. International Journal of Wireless and Mobile Computing,2020,18(4).

[5]Wang Wei,Yu Lihua. UCrawler: A learning-based web crawler using a URL knowledge base[J]. Journal of Computational Methods in Sciences and Engineering,2021,21(2).

標簽:

返回頂部
高清视频在线观看免费播放器-伊人日本-色九月综合-18禁止看的免费污网站-免费观看性行为视频的网站-天天碰天天操-久久精品国产欧美日韩99热-中文字幕在线视频不卡-国产偷人妻精品一区二区在线-国内精品久-伊人影院在线看-密臀av一区-久久综合五月丁香久久激情-福利一区福利二区-gg国产精品国内免费观看-国产精品 高清 尿 小便 嘘嘘
  • <cite id="ecweg"><pre id="ecweg"></pre></cite>
    <rt id="ecweg"><acronym id="ecweg"></acronym></rt>
  • <rt id="ecweg"></rt>
    欧美中日韩在线| 午夜宅男在线视频| 日本国产在线播放| 韩国日本在线视频| 亚洲天堂2018av| 97超碰人人爱| 男女午夜激情视频| 午夜av中文字幕| 国产精品视频一二三四区| 男女视频网站在线观看| 成人性做爰aaa片免费看不忠| 亚州精品一二三区| 国内精品国产三级国产99| 成人毛片一区二区| 色婷婷.com| 青青草视频在线免费播放| 国产熟人av一二三区| www亚洲国产| 国语对白做受xxxxx在线中国| 红桃视频 国产| 国产午夜伦鲁鲁| 超薄肉色丝袜足j调教99| 国产成人久久婷婷精品流白浆| 国产欧美精品一二三| 国产精品沙发午睡系列| 国产a级片免费看| 国产成人久久婷婷精品流白浆| 欧美h视频在线观看| 两根大肉大捧一进一出好爽视频| theporn国产精品| 国产福利一区视频| 91成人综合网| 国内av免费观看| 一级在线免费视频| 久久综合色视频| 4444亚洲人成无码网在线观看| 一区二区三区欧美精品| 国产精品少妇在线视频| 亚洲国产精品成人天堂| 婷婷中文字幕在线观看| 亚洲国产精品毛片av不卡在线| 国产精品videossex国产高清| 久久久九九九热| 9久久婷婷国产综合精品性色 | 男女爱爱视频网站| 欧美美女一级片| 91淫黄看大片| 午夜精品久久久内射近拍高清| 97干在线视频| 全黄性性激高免费视频| 97在线免费视频观看| √天堂资源在线| www.色就是色.com| 欧美大片久久久| 亚洲一区二区三区四区精品| av免费一区二区| 在线观看日本www| 国产精品999.| 日韩人妻一区二区三区蜜桃视频| 三年中文高清在线观看第6集 | 中文字幕网av| 奇米视频888| 午夜啪啪免费视频| 国产一二三四五| 高清欧美精品xxxxx| 少妇人妻大乳在线视频| 免费看国产曰批40分钟| 久久久久久久久久久久久久国产| www.国产区| 亚洲 欧美 另类人妖| 午夜免费一级片| 国产精品视频一二三四区| 日韩伦理在线免费观看| 成人小视频在线看| 911福利视频| 伊人网在线免费| 欧美变态另类刺激| 妓院一钑片免看黄大片| 超碰在线免费av| 嫩草影院中文字幕| 成人亚洲视频在线观看| 992kp免费看片| 国产精品专区在线| 日韩不卡一二三| 青青草综合在线| 日韩亚洲在线视频| 91亚洲一区二区| 欧美 日韩 亚洲 一区| 九色porny自拍| 日韩免费在线观看av| 午夜dv内射一区二区| 熟妇熟女乱妇乱女网站| 一女被多男玩喷潮视频| 天天做天天干天天操| 国产精品久久久久久久乖乖| 婷婷丁香激情网| 91黄色在线看| 国产永久免费网站| 69堂免费视频| 免费cad大片在线观看| 天天爽人人爽夜夜爽| 国产精品日韩三级| 不卡的在线视频| 国产人妻777人伦精品hd| 亚洲精品20p| 午夜肉伦伦影院| 青草网在线观看| 日日夜夜精品视频免费观看| www.日日操| 岛国大片在线播放| 日本黄网站色大片免费观看| 精品少妇无遮挡毛片| 欧美成人高潮一二区在线看| 在线无限看免费粉色视频| 波多野结衣天堂| 日本一区二区黄色| 日韩精品在线观看av| 日本不卡一区二区三区四区| 亚洲一区日韩精品| 无码人妻丰满熟妇区毛片| 国产男女免费视频| 4444亚洲人成无码网在线观看| 91视频福利网| 一级日本黄色片| 国产三级精品三级在线| 欧美日韩在线观看不卡| 青青在线视频观看| 欧美黄网站在线观看| 丁香花在线影院观看在线播放| 9191国产视频| 乱熟女高潮一区二区在线| 亚洲黄色网址在线观看| 中文字幕第一页亚洲| 亚洲欧美一二三| a级网站在线观看| 香蕉视频xxxx| 亚洲精品天堂成人片av在线播放| 久久久久久久免费视频| 超碰10000| 无码 制服 丝袜 国产 另类| 九色自拍视频在线观看| 亚洲自偷自拍熟女另类| aⅴ在线免费观看| 97公开免费视频| jizz18女人| 国产福利片一区二区| 久久www视频| 久久精品国产sm调教网站演员| 久久综合九色综合88i| 国产美女无遮挡网站| 久久久精品麻豆| 欧美精品色视频| 加勒比成人在线| 激情综合网俺也去| 天天av天天操| a级黄色一级片| 中文字幕国内自拍| 99热这里只有精品7| 老太脱裤子让老头玩xxxxx| 国产精品亚洲a| 日日夜夜精品视频免费观看| 欧美在线观看视频免费| 欧洲熟妇精品视频| 欧美精品一区二区性色a+v| 国产美女主播在线播放| 老熟妇仑乱视频一区二区| 国内av一区二区| 国产成人无码a区在线观看视频| 成人性生生活性生交12| 女女同性女同一区二区三区按摩| www.射射射| 99精品视频免费版的特色功能| 国产在线精品91| 人人妻人人澡人人爽精品欧美一区| 国内精品视频一区二区三区| 国内外成人免费在线视频| 丝袜人妻一区二区三区| 日韩高清第一页| 阿v天堂2017| 丰满女人性猛交| 色国产在线视频| 日日碰狠狠添天天爽超碰97| 麻豆md0077饥渴少妇| 日韩精品免费播放| 国产二区视频在线| 91手机视频在线| 久草福利视频在线| 男人天堂999| 岛国大片在线播放| www.99riav| 青娱乐国产精品视频| 亚洲天堂2018av| 在线观看的毛片| 六月激情综合网| 阿v天堂2017| 给我免费播放片在线观看| 无套内谢丰满少妇中文字幕 | 免费黄频在线观看| 999精彩视频| 成人免费视频久久|