在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

寫網絡爬蟲程序的難度是怎么分等級的

Wildesbeast ? 來源:今日頭條 ? 作者:猿人學 ? 2020-02-05 11:49 ? 次閱讀

寫爬蟲,是一個非常考驗綜合實力的活兒。有時候,你輕而易舉地就抓取到了想要的數據;有時候,你費盡心思卻毫無所獲。

好多Python爬蟲的入門教程都是一行代碼就把你騙上了“賊船”,等上了賊船才發現,水好深~比如爬取一個網頁可以是很簡單的一行代碼:

r = requests.get('http://news.baidu.com')

非常的簡單,但它的作用也僅僅是爬取一個網頁,而一個有用的爬蟲遠遠不止于爬取一個網頁。

一個有用的爬蟲,只需兩個詞來衡量:

數量:能否抓全所有該類數據

效率:抓完所有數據需要多久一天還是一個月

但要做到這兩個詞,卻是要下很多功夫。自己下功夫是一方面,也很重要的是你要抓全的目標網站給你出了多少難題。綜合起來,就寫一個爬蟲有多少難度。

網絡爬蟲難度一:只需爬取html網頁但要上規模

這里我們舉個新聞爬蟲的例子。大家都用過百度的新聞搜索吧,我就拿它的爬蟲來講講實現上的難度。

新聞網站基本上不設防,新聞內容都在網頁的html代碼里了,抓全一個網頁基本上就是一行的事情。似乎聽上去很簡單,但對于一個搜索引擎級的爬蟲,就不那么簡單了,要把幾千幾萬家新聞網站的新聞都及時抓取到也不是一件容易的事情。

我們先看看新聞爬蟲的簡單流程圖:

從一些種子網頁開始,種子網頁往往是一些新聞網站的首頁,爬蟲抓取網頁,從中提取網站URL放到網址池再進行抓取。這樣就從幾個網頁開始,不斷擴展到其它網頁。爬蟲抓取的網頁也越來越多,提取出的新網網址也會成幾何級數增長。

如何能在最短時間抓取更多網址?

這就是其中一個難度,這不是目標網址帶來的,而是對我們自身自愿的考驗:

我們的帶寬夠嗎

我們的服務器夠嗎,單臺不夠就要分布式

如何能及時抓取到最新的新聞?

這是效率之外的另一個難度,如何保證及時性?幾千家新聞網站,時刻都在發布最新新聞,爬蟲在織網式抓取“舊”新聞的同時,如何兼顧獲取“新”新聞呢?

如何存儲抓取到的海量新聞?

爬蟲織網式的爬取,會把每個網站幾年前幾十年前的新聞網頁都給翻出來,從而獲得海量的網頁需要存儲。就是存儲上的難度。

如何清理提取網內容?

從新聞網頁的html里面快速、準確提取想要的信息數據,比如標題、發布時間、正文內容等,這又帶來內容提取上的難度。

網絡爬蟲難度二:需要登錄才能抓到想要的數據

人是貪婪的,想要的數據無窮盡,但是很多數據不是你輕易就可以獲得的。有一大類數據就是需要賬戶登錄后才能看到,也就是說,爬蟲請求時必須是登錄狀態才能抓取數據。

如何獲取登錄狀態?

老猿前面已經說過了,http協議的性質決定了登錄狀態就是一些cookies,那么如何獲得登錄狀態就是一個非常有難度的問題。

有些網站登錄過程很簡單,把賬戶、密碼發給服務器,服務器驗證通過返回表示已登錄的cookies。這樣的網站,比較容易實現自動登錄,爬蟲運行過程全程無需人工干預,你就有更多時間喝茶、聊天、上猿人學看python。

如何處理驗證碼?

然而,網站們既然要求你登錄了,他們就不會這么輕易放過你,要做的更絕才能讓小猿們善罷甘休,那就是上驗證碼!

沒錯,就是變態的驗證碼。

有的運用社會工程,進行人工識別驗證碼;也有,通過圖像處理技術,尤其如今火熱的深度學習人工智能的技術,來自動識別驗證碼。

那么,當你寫爬蟲時遇到驗證碼該怎么辦?

網絡爬蟲難度三:異步加載甚至JavaScript解密

前面的兩個難度,都是靠我們研究數據加載過程,然后用Python代碼可以重現出來,進行抓取的。

而遇到達第三個難度時,研究數據加載過程會讓你十分痛苦、近乎崩潰。異步加載流程和服務器來來回回好多次,最后得到的數據還要通過JavaScript解密才能看到,這都是壓垮小猿們的最后一根稻草。

有沒有終極大招可以破解呢?

網絡爬蟲難度四:APP的抓取

APP連包都抓不到

抓包是寫爬蟲組裝請求數據的基礎條件,對APP抓包的繁復度遠超網站,APP對代理抓包的檢測,對網絡請求庫的混淆,使用socket通信等阻擋了相當部分爬蟲選手。

請求Token參數的加密

APP請求參數的組裝是一個黑盒,不一窺參數的組裝流程,請求不到數據;APP repsonse回來的數據可能是二進制或編碼過,不知道如何解碼還原,抓下來數據也只能望洋興嘆。

要能正確抓取APP數據就需要具備網絡安全行業的初中級知識。

總結了一下這爬蟲的一些難度,明年應該會結合一些實際示例來講解如何破解這些不同程度的難題。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 代碼
    +關注

    關注

    30

    文章

    4837

    瀏覽量

    69124
  • python
    +關注

    關注

    56

    文章

    4811

    瀏覽量

    85076
  • 爬蟲
    +關注

    關注

    0

    文章

    82

    瀏覽量

    7023
收藏 人收藏

    評論

    相關推薦

    IP地址數據信息和爬蟲攔截的關聯

    IP地址數據信息和爬蟲攔截的關聯主要涉及到兩方面的內容,也就是數據信息和爬蟲。IP 地址數據信息的內容豐富,包括所屬地域、所屬網絡運營商、訪問時間序列、訪問頻率等。 從IP地址信息中可以窺見
    的頭像 發表于 12-23 10:13 ?108次閱讀

    華為聯合發布《自智網絡等級測評白皮書》

    近日,由TM Forum主辦的Innovate Asia峰會在泰國曼谷舉行。在峰會期間,TM Forum和華為聯合產業伙伴共同發布了《自智網絡等級測評白皮書》,并為首批通過自智網絡等級
    的頭像 發表于 11-09 15:59 ?703次閱讀

    觸摸屏驅動板無法燒程序的相關原因

    每次聽到別人說是什么原因導致觸摸屏驅動板無法燒程序,就很想去討論一下。今天就跟大家聊聊到底是什么原因導致的。
    的頭像 發表于 10-21 11:19 ?341次閱讀

    全球視野下的海外爬蟲IP:趨勢、機遇與風險

    在全球視野下,海外爬蟲IP的使用呈現出一系列趨勢,同時也伴隨著機遇與風險。
    的頭像 發表于 10-15 07:54 ?277次閱讀

    海外爬蟲IP的合法邊界:合規性探討與實踐

    海外爬蟲IP的合法邊界主要涉及合規性探討與實踐。
    的頭像 發表于 10-12 07:56 ?280次閱讀

    如何利用海外爬蟲IP進行數據抓取

    利用海外爬蟲IP進行數據抓取需要綜合考慮多個方面。
    的頭像 發表于 10-12 07:54 ?264次閱讀

    詳細解讀爬蟲多開代理IP的用途,以及如何配置!

    爬蟲多開代理IP是一種在爬蟲開發中常用的技術策略,主要用于提高數據采集效率、避免IP被封禁以及獲取地域特定的數據。
    的頭像 發表于 09-14 07:55 ?563次閱讀

    瀚海微SD NAND存儲功能描述(23)速度等級測量條件和要求

    應用程序提供余量。 注:2級至6級在默認速度模式下以20MHz測量,10級在高速模式下以40MHz測量 注意事項:最低性能是在SD總線使用率達到100%時(訪問時不假設有空閑時間),因此不定期卡會降低性能。 各轉速等級性能參數
    的頭像 發表于 09-05 10:24 ?385次閱讀

    浪涌保護器怎么區分等級

    浪涌保護器(Surge Protection Device,簡稱SPD)是一種用于保護電氣設備免受浪涌電流(Surge)損害的裝置。浪涌電流是由于電氣系統中的瞬態過電壓或過電流引起的,可能對設備造成嚴重損害。浪涌保護器通過限制浪涌電流的幅度和持續時間,從而保護電氣設備免受損害。 一、浪涌保護器的分類 按保護對象分類 浪涌保護器可以根據保護對象的不同分為以下幾類: (1)電源浪涌保護器:用于保護電源系統的設備,如變壓器、發電機、電動機等。 (2)信號
    的頭像 發表于 07-13 14:48 ?1091次閱讀

    網絡爬蟲,Python和數據分析

    電子發燒友網站提供《網絡爬蟲,Python和數據分析.pdf》資料免費下載
    發表于 07-13 09:27 ?2次下載

    數據采集方法有哪些?工具有哪些?

    數據采集是數據分析和數據科學的基礎,它涉及到從各種來源收集、整理和存儲數據的過程。以下是一些常見的數據采集方法和工具,以及它們的特點和應用場景。 網絡爬蟲 網絡爬蟲是一種自動化的
    的頭像 發表于 07-01 15:35 ?1650次閱讀

    阿里云內部全面推行AI代碼

    阿里云正在內部全面推行 AI 編程,使用通義靈碼輔助程序代碼、讀代碼、查 BUG、優化代碼等。
    的頭像 發表于 04-07 09:22 ?606次閱讀

    臺灣電價全面調整,大戶調漲幅度最大,民生用電不分等級全面上調

    臺灣電力公司目前需要通過提升電價來彌補資金虧空,以免陷入資不抵債的困境。從四月開始,民生與產業用電價格上調的概率較大。根據中國臺灣經濟部門的初步計劃,為了使低功率用戶的電價恢復至合理水平
    的頭像 發表于 03-10 12:22 ?1157次閱讀

    濕敏元器件存儲及使用規范

    到6級不等,每個級別代表不同的濕敏程度。較低的級別表示材料或產品對濕度變化更加敏感,可能需要更為嚴格的控制和保護措施,以避免損壞或性能下降。 器件容易受潮導致分層及部分損壞,為了避免器件損壞, 對不同材質器件濕敏進行要求,因此而劃分等級如下圖: 器件拆封
    的頭像 發表于 03-10 11:18 ?6458次閱讀
    濕敏元器件存儲及使用規范

    全球新聞網封鎖OpenAI和谷歌AI爬蟲

    分析結果顯示,至2023年底,超半數(57%)的傳統印刷媒體如《紐約時報》等已關閉OpenAI爬蟲,反之電視廣播以及數字原生媒體相應地分別為48%和31%。而對于谷歌人工智能爬蟲,32%的印刷媒體采取相同措施,電視廣播和數字原生媒體的比率分別為19%和17%。
    的頭像 發表于 02-27 15:31 ?941次閱讀
    主站蜘蛛池模板: 久久久久久青草大香综合精品 | 能在线观看的一区二区三区 | 一区卡二区卡三区卡视频 | 日本sese | 高清视频黄色录像免费 | 五月婷色| 又粗又长又大又黄的日本视频 | 成人免费午间影院在线观看 | 香蕉久久精品 | 久久久www免费人成看片 | 国产精品一区二区三区四区 | 婷婷色在线播放 | 性夜黄a爽爽免费视频国产 羞羞答答xxdd影院欧美 | 四虎永久免费在线观看 | 免费观看一级特黄欧美大片 | 亚洲欧洲第一页 | 永久在线免费 | 看全黄大片狐狸视频在线观看 | 免费观看黄色网址 | 色丁香在线观看 | 夜夜爱夜夜做 | 黄网站色在线视频免费观看 | 久久精品人人爽人人爽 | 人人爽天天爽夜夜爽qc | 九九人人 | 唐人社电亚洲一区二区三区 | 7m视频精品凹凸在线播放 | 好男人www社区影视在线 | 在线播放真实国产乱子伦 | 狼色网| 欧美日韩一区二区三区视频 | 色婷婷一区二区三区四区成人 | 夜夜爽8888 | 2021精品国产综合久久 | 亚洲经典一区二区三区 | 香淫| 五月天婷婷在线观看高清 | 天堂资源在线8 | 1024人成网站色 | 欧美人成一本免费观看视频 | 福利视频网站 |