91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Python中BeatifulSoap解析HTML的三個實用小技巧詳解

jf_f8pIz0xS ? 來源:CSDN技術社區 ? 作者:LaoYuanPython ? 2021-04-15 13:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、BeautifulSoup簡介

BeautifulSoup是Python爬蟲應用解析Html的利器,是Python三方模塊bs4中提供的進行HTML解析的類,可以認為是一個HTML解析工具箱,對HTML報文中的標簽具有比較好的容錯識別功能。lxml是一款html文本解析器,BeautifulSoup構建對象時需要指定HTML解析器,推薦使用lxml。

BeautifulSoup和lxml安裝命令:

1pip install -i https://pypi.tuna.tsinghua.edu.cn/simple bs4

2pip install -i https://pypi.tuna.tsinghua.edu.cn/simple lxml

加載BeautifulSoup:

1from bs4 import BeautifulSoup

BeatifulSoap解析HTML報文的常用功能:

通過BeautifulSoup對象可以訪問標簽對應的html元素、并進一步訪問標簽的名字、屬性、html元素標簽對中的內容。

案例:

1from bs4 import BeautifulSoup

2import urllib.request

3def getURLinf(url):

4header = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36’}

5req = urllib.request.Request(url=url,headers=header)

6resp = urllib.request.urlopen(req,timeout=5)

7html = resp.read().decode()

8soup = BeautifulSoup(html,‘lxml’)

9return (soup,req,resp)

10soup,req ,resp = getURLinf(r‘https://blog.csdn.net/LaoYuanPython/article/details/111303395’)

11print(soup.p)

12print(soup.link)

13print(soup.title)

14print(soup.link.attrs)

15print(soup.link[‘rel’])

通過標簽的contents屬性,可以訪問其下嵌套的所有下級HTML元素,這些該標簽下的子標簽對應的HTML元素放到一個contents 指向的列表中。

如:print(soup.body.contents)

可以訪問標簽對應的父、子、兄弟及祖先標簽信息;

使用strings屬性迭代訪問除標簽外的所有內容;

可以使用find、find_all、find_parent、find_parents等系列方法查找滿足特定條件的標簽;

使用select通過css選擇器定位特定標簽。

具體的大家可以參考老猿博客的免費專欄《爬蟲:https://blog.csdn.net/laoyuanpython/category_9103810.html》或付費專欄《Python爬蟲入門:https://blog.csdn.net/laoyuanpython/category_10762553.html》的相關介紹。

二、一些解析技巧

在HTML解析時,如果通過簡單的tag、或單個tag屬性(如id、class)或文本一次搜索或select定位是最簡單的,而有些情況需要使用組合方法才能處理。

2.1、通過標簽的多個屬性組合定位或查找

經常有些要定位的標簽有很多,按單個屬性查找也有很多,得使用多個屬性查找。如:

1《div id=“article_content” class=“article_content clearfix”》

2。。.。。.

3《/div》

4《div id=“article_content” class=“article_view”》

5。。.。。.

6《/div》

7《div id=“article_view” class=“article_view”》

8。。.。。.

9《/div》

上面的html文本中有多個id為article_content的div標簽,如果使用:

1》》》 text=“”“```html

2《div id=”article_content“ class=”article_content clearfix“》

3。。.。。.

4《/div》

5《div id=”article_content“ class=”article_view“》

6。。.。。.

7《/div》

8《div id=”article_view“ class=”article_view“》

9。。.。。.

10《/div》”“”

11》》》 s = BeautifulSoup(text,‘lxml’)

12》》》 s.select(‘div#article_content’)

13[《div class=“article_content clearfix” id=“article_content”》。。.。。.《/div》,

14《div class=“article_view” id=“article_content”》。。.。。.《/div》]

15》》》

就會返回兩條記錄。這時候就可以使用多標簽屬性定位的如下4種語句:

1》》》s.select(‘div#article_content[class=“article_content clearfix”]’)

2[《div class=“article_content clearfix” id=“article_content”》。。.。。.《/div》]

3》》》s.select(‘div[id=“article_content”][class=“article_content clearfix”]’)

4[《div class=“article_content clearfix” id=“article_content”》。。.。。.《/div》]

5》》》s.find_all(“div”,id=“article_content”,class_=‘article_content clearfix’)

6[《div class=“article_content clearfix” id=“article_content”》。。.。。.《/div》]

7》》》s.find_all(“div”,“#article_content”,class_=‘article_content clearfix’)

8[《div class=“article_content clearfix” id=“article_content”》。。.。。.《/div》]

以上四種方式是等價的,因為id可以用#來標記,class在查找時需要和Python關鍵字class區分,因此有上述不同方法,注意select的每個屬性必須用中括號括起來,不同屬性的中括號之間不能有空格,如果有空格表示的就不是查找同一標簽的屬性,空格后的屬性表示前一個屬性對應標簽的子孫標簽的屬性。

2.2、利用tag標簽關系定位內容

tag標簽關系包括父子、兄弟、祖先等關系,有時要查找或定位的內容本身不是很好定位,但結合其他標簽關系(主要是父子、祖先關系)則可以唯一確認。

案例:

這是CSDN的博文中關于博主個人信息的部分報文:

1《div class=“data-info d-flex item-tiling”》

2《dl class=“text-center” title=“1055”》

3《a href=“https://blog.csdn.net/LaoYuanPython” data-report-click=‘{“mod”:“1598321000_001”,“spm”:“1001.2101.3001.4310”}’ data-report-query=“t=1”》

4《dt》《span class=“count”》1055《/span》《/dt》

5《dd class=“font”》原創《/dd》

6《/a》

7《/dl》

8《dl class=“text-center” data-report-click=‘{“mod”:“1598321000_002”,“spm”:“1001.2101.3001.4311”}’ title=“22”》

9《a href=“https://blog.csdn.net/rank/writing_rank” target=“_blank”》

10《dt》《span class=“count”》22《/span》《/dt》

11《dd class=“font”》周排名《/dd》

12《/a》

13《/dl》

14《/div》

以上報文中,如果要取博主的原創文章數和周排名,原創文章數和博主周排名的tag標簽完全相同,二者都在span標簽內,標簽的屬性及值都相同,只是span標簽的父標簽dt標簽的兄弟標簽dd標簽的string的中文內容才能區分。對于這種情況,首先要通過祖先標簽《div class=“data-info d-flex item-tiling”》定位到祖先標簽,再在祖先標簽內通過中文字符串定位到要訪問屬性的兄弟標簽的子標簽,然后通過該子標簽找到其父標簽的父標簽,再通過該父標簽的dt子標簽的span子標簽訪問具體取值。

示例代碼如下:

1》》》 text=“”“

2《div class=”data-info d-flex item-tiling“》

3《dl class=”text-center“ title=”1055“》

4《a href=”https://blog.csdn.net/LaoYuanPython“ data-report-click=‘{”mod“:”1598321000_001“,”spm“:”1001.2101.3001.4310“}’ data-report-query=”t=1“》

5《dt》《span class=”count“》1055《/span》《/dt》

6《dd class=”font“》原創《/dd》

7《/a》

8《/dl》

9《dl class=”text-center“ data-report-click=‘{”mod“:”1598321000_002“,”spm“:”1001.2101.3001.4311“}’ title=”22“》

10《a href=”https://blog.csdn.net/rank/writing_rank“ target=”_blank“》

11《dt》《span class=”count“》22《/span》《/dt》

12《dd class=”font“》周排名《/dd》

13《/a》

14《/dl》

15《/div》”“”

16》》》 s = BeautifulSoup(text,‘lxml’)

17》》》 subSoup = s.select(‘[class=“data-info d-flex item-tiling”] [class=“font”]’)

18》》》 for item in subSoup:

19parent = item.parent

20if item.string==‘原創’:

21orignalNum = int(parent.select(‘.count’)[0].string)

22elif item.string==‘周排名’:

23weekRank = int(parent.select(‘.count’)[0].string)

24》》》 print(orignalNum,weekRank)

251055 22

26》》》

注意:上面的select使用的也是標簽的屬性來定位標簽,并且兩個中括號之間有空格,表明后一個要查找的標簽在前一個屬性對應標簽的子孫標簽范圍內。

2.3、分析前去除程序代碼避免干擾

在解析HTML報文時,絕大多數情況是需要分析有用的標簽信息,但作為技術文章,大部分的博文中都有代碼,這些代碼可能會對分析進行干擾。如本文中的代碼含有一些分析的HTML報文,如果獲取本文的完整HTML內容,這些報文在非代碼部分也會出現,此時要排除代碼的影響,可以將代碼先從分析內容中去除再來分析。

目前大多數技術平臺的博文編輯器都支持對代碼的標識,象markdown等編輯器代碼的標簽為code標檢,如果有其他編輯器用不同標簽的,只有確認了標簽名,都可以按下面介紹的類似方式來處理。

處理步驟如下:

獲取報文;

構建BeatifulSoap對象soup;

通過soup.code.extract()或soup.code.decompose()方式就從soup對象中去除了代碼部分,decompose方法與extract方法的區別就是decompose直接刪除對應對象數據而extract再刪除時將刪除對象單獨返回。

關于這部分內容的案例可以參考《https://blog.csdn.net/LaoYuanPython/article/details/114729045 n行Python代碼系列:四行程序分離HTML報文中的程序代碼》的詳細介紹。

三、小結

本文介紹了使用BeatifulSoap解析HTML報文的三個使用技巧,包括通過多屬性組合查找或定位標簽、通過結合多個標簽關系來定位標簽以及去除html報文中的代碼標簽來避免代碼對解析的影響。

編輯:lyn

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • HTML
    +關注

    關注

    0

    文章

    280

    瀏覽量

    43008
  • python
    +關注

    關注

    56

    文章

    4831

    瀏覽量

    87321
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    DC/DC轉換器選型的三個要點

    在上一篇《DC/DC 轉換器電路設計與開發 — 類型與工作原理》,我們介紹了 DC/DC 轉換器的類型以及降壓型 DC/DC 轉換器和升壓型 DC/DC轉換器的工作原理。本文將為大家分享 DC/DC 轉換器選型的三個要點,以及電感器選型的計算方法。
    的頭像 發表于 06-12 16:44 ?923次閱讀
    DC/DC轉換器選型的<b class='flag-5'>三個</b>要點

    半導體制造過程三個主要階段

    前段工藝(Front-End)、中段工藝(Middle-End)和后段工藝(Back-End)是半導體制造過程三個主要階段,它們在制造過程扮演著不同的角色。
    的頭像 發表于 03-28 09:47 ?3009次閱讀
    半導體制造過程<b class='flag-5'>中</b>的<b class='flag-5'>三個</b>主要階段

    如何檢測極管的三個

    可以用萬用表來初步確定極管的好壞及類型 (NPN 型還是 PNP 型 ),并辨別出e(發射極)、b(基極)、c(集電極)三個電極。
    發表于 03-08 16:40

    如何區分場效應管mos管三個引腳

    場效應管mos管三個引腳怎么區分
    發表于 03-07 09:20 ?0次下載

    Linux系統中最重要的三個命令

    Linux劍客是Linux系統中最重要的三個命令,它們以其強大的功能和廣泛的應用場景而聞名。這三個工具的組合使用幾乎可以完美應對Shell的數據分析場景,因此被統稱為Linux
    的頭像 發表于 03-03 10:37 ?472次閱讀

    使用DDS生成三個信號并在Vivado實現低通濾波器

    本文使用 DDS 生成三個信號,并在 Vivado 實現低通濾波器。低通濾波器將濾除相關信號。
    的頭像 發表于 03-01 14:31 ?1827次閱讀
    使用DDS生成<b class='flag-5'>三個</b>信號并在Vivado<b class='flag-5'>中</b>實現低通濾波器

    請問DLP4710 EVM-LC的RGB三個LED的參數是多少?

    DLP4710 EVM-LC的RGB三個LED 的參數是多少?用什么產品代替可以滿足功率和亮度的要求
    發表于 02-26 07:50

    如何使用Python實現PID控制

    PID控制(比例-積分-微分控制)是一種常見的反饋控制算法,廣泛應用于工業控制系統。在Python實現PID控制,我們可以遵循以下步驟: 1. 理解PID控制原理 PID控制器有三個
    的頭像 發表于 11-14 09:09 ?1658次閱讀

    Python解析:通過庫實現代理請求與數據抓取

    Python,有多個庫可以幫助你實現代理請求和數據抓取。這些庫提供了豐富的功能和靈活的API,使得你可以輕松地發送HTTP請求、處理響應、解析HTML/XML/JSON數據,以及進
    的頭像 發表于 10-24 07:54 ?501次閱讀

    簡述光刻工藝的三個主要步驟

    “ 光刻作為半導體的關鍵工藝,其中包括3大步驟的工藝:涂膠、曝光、顯影。三個步驟有一異常,整個光刻工藝都需要返工處理,因此現場異常的處理顯得尤為關鍵”
    的頭像 發表于 10-22 13:52 ?2307次閱讀

    自動發電控制系統具有三個基本功能

    自動發電控制系統(AGC)具有三個基本功能,這些功能在電力系統的運行和調度中發揮著重要作用。以下是這三個基本功能的詳細解析
    的頭像 發表于 10-03 15:05 ?1722次閱讀

    機械振動的三個基本要素

    機械振動是物體或質點在其平衡位置附近進行的往復運動。在物理學,機械振動是一種非常普遍的現象,它涉及到許多不同的物理過程和應用。機械振動的三個基本要素是:振幅、周期和頻率。 1. 振幅
    的頭像 發表于 09-26 14:55 ?2801次閱讀

    三個電流怎么判斷NPN還是PNP

    在判斷晶體管是NPN型還是PNP型時,主要依據是其內部半導體材料的排列方式以及電流在晶體管的流動方向。闡述如何根據三個電流(通常指的是發射極電流IE、基極電流IB和集電極電流IC)來判斷NPN和PNP晶體管。
    的頭像 發表于 09-14 15:44 ?4156次閱讀

    基本理想電路元件的三個特征是什么

    基本理想電路元件是構成電路的基本單元,它們具有三個基本特征:電壓-電流關系、能量轉換和電路參數。以下是對這三個特征的分析: 電壓-電流關系 理想電路元件的電壓-電流關系是其最基本的特征之一。這種關系
    的頭像 發表于 08-25 09:38 ?2449次閱讀

    對稱相電壓的特點是哪三個方面

    相電壓的特點。 一、對稱相電壓的基本概念 1.1 相電壓的定義 相電壓是指在電力系統,由三個相位組成的電壓。這
    的頭像 發表于 08-12 18:18 ?3285次閱讀
    主站蜘蛛池模板: 99久久99久久免费精品蜜桃 | 韩国三级理论在线看中文字幕 | 国产美女视频黄a视频免费全过程 | 美女视频黄的免费视频网页 | 欧美日本色 | 亚洲六月丁香六月婷婷花 | 色偷偷91综合久久噜噜 | 性做久久久久久久免费观看 | 黄 色 片 在 线 看 | 国产免费久久精品99 | 狠狠夜夜| 欧美色综合高清免费 | 美女扒开下面让男人捅 | 亚洲一区二区欧美 | 爱爱欧美 | 美国一级做a一级爱视频 | 亚洲一区二区三区精品视频 | 国产日本久久久久久久久婷婷 | 欧美51| 日本高清色图 | 欧美二级黄色片 | 视频精品一区二区三区 | 女人张开腿让男人桶免费最新 | 色偷偷人人 | 一区国产传媒国产精品 | 黄色的视频网站 | 欧美一欧美一区二三区性 | 日本三级午夜 | 亚洲欧美在线一区二区 | 欧美精品 在线播放 | www四虎在线高清 | 欧美视频不卡一区二区三区 | 日本黄在线观看 | 男人天堂网在线观看 | 777奇米影视一区二区三区 | 你懂的在线视频播放 | 亚洲欧美一区二区久久香蕉 | 1024国产你懂的日韩 | 国产一级特黄高清免费大片 | 影院午夜| 午夜色视频在线观看 |