豆豆小说阅读网,好看的小说完本推荐,玄幻小说排行榜完本

XPath(XML Path Language)是一門在XML文檔中查找信息的語言。

XPath 可用來在XML文檔中對元素和屬性進行遍歷。

XPath 是 W3C XSLT 標準的主要元素，并且 XQuery 和 XPointer 都構(gòu)建于 XPath 表達之上。

官方網(wǎng)址：http://lxml.de 官方文檔：http://lxml.de/api/index.html

注：XQuery 是用于 XML 數(shù)據(jù)查詢的語言（類似SQL查詢數(shù)據(jù)庫中的數(shù)據(jù)）

注：XPointer 由統(tǒng)一資源定位地址（URL）中#號之后的描述組成，類似于HTML中的錨點鏈接

python中如何安裝使用XPath:

①: 安裝 lxml 庫。

②: from lxml import etree

③: Selector = etree.HTML(網(wǎng)頁源代碼)

④: Selector.xpath(xpath選取規(guī)則)

1. 準備工作：

要使用XPath首先要先安裝lxml庫：

pip install lxml

2. XPath選取節(jié)點規(guī)則

表達式	描述
nodename	選取此節(jié)點的所有子節(jié)點。
/	從當前節(jié)點選取直接子節(jié)點
//	從匹配選擇的當前節(jié)點選擇所有子孫節(jié)點，而不考慮它們的位置
.	選取當前節(jié)點。
..	選取當前節(jié)點的父節(jié)點。
@	選取屬性。

XPath 運算符

運算符	描述	實例	返回值
\|	計算兩個節(jié)點集	//book \| //cd	返回所有擁有 book 和 cd 元素的節(jié)點集
+	加法	6 + 4	10
-	減法	6 - 4	2
*	乘法	6 * 4	24
div	除法	8 div 4	2
=	等于	price=9.80	如果 price 是 9.80，則返回 true。、\n 如果 price 是 9.90，則返回 false。
!=	不等于	price!=9.80	如果 price 是 9.90，則返回 true。\n 如果 price 是 9.80，則返回 false。
<	小于	price<9.80	如果 price 是 9.00，則返回 true。\n 如果 price 是 9.90，則返回 false。
<=	小于或等于	price<=9.80	如果 price 是 9.00，則返回 true。\n 如果 price 是 9.90，則返回 false。
>	大于	price>9.80	如果 price 是 9.90，則返回 true。\n如果 price 是 9.80，則返回 false。
>=	大于或等于	price>=9.80	如果 price 是 9.90，則返回 true。\n如果 price 是 9.70，則返回 false。
or	或	price=9.80 or price=9.70	如果 price 是 9.80，則返回 true。\n如果 price 是 9.50，則返回 false。
and	與	price>9.00 and price<9.90	如果 price 是 9.80，則返回 true。\n如果 price 是 8.50，則返回 false。
mod	計算除法的余數(shù)	5 mod 2	1

3. 解析案例：

首先創(chuàng)建一個html文件：my.html 用于測試XPath的解析效果

`我的常用鏈接`

使用XPath解析說明

# 導入模塊
from lxml import etree

# 讀取html文件信息（在真實代碼中是爬取的網(wǎng)頁信息）
f = open("./my.html",'r',encoding="utf-8")
content = f.read()
f.close()

# 解析HTML文檔，返回根節(jié)點對象
html = etree.HTML(content)
#print(html)  # 

# 獲取網(wǎng)頁中所有標簽并遍歷輸出標簽名
result = html.xpath("http://*")
for t in result:
    print(t.tag,end=" ")
#[html head title body h3 ul li a li a ... ... td]
print()

# 獲取節(jié)點
result = html.xpath("http://li") # 獲取所有l(wèi)i節(jié)點
result = html.xpath("http://li/a") # 獲取所有l(wèi)i節(jié)點下的所有直接a子節(jié)點
result = html.xpath("http://ul//a") # 效果同上（ul下所有子孫節(jié)點）
result = html.xpath("http://a/..") #獲取所有a節(jié)點的父節(jié)點
print(result)

# 獲取屬性和文本內(nèi)容
result = html.xpath("http://li/a/@href") #獲取所有l(wèi)i下所有直接子a節(jié)點的href屬性值
result = html.xpath("http://li/a/text()") #獲取所有l(wèi)i下所有直接子a節(jié)點內(nèi)的文本內(nèi)容
print(result) #['百度', '京東', '搜狐', '新浪', '淘寶']

result = html.xpath("http://li/a[@class]/text()") #獲取所有l(wèi)i下所有直接含有class屬性子a節(jié)點內(nèi)的文本內(nèi)容
print(result) #['百度', '搜狐', '新浪']

#獲取所有l(wèi)i下所有直接含有class屬性值為aa的子a節(jié)點內(nèi)的文本內(nèi)容
result = html.xpath("http://li/a[@class='aa']/text()") 
print(result) #['搜狐', '新浪']

#獲取class屬性值中含有shop的li節(jié)點下所有直接a子節(jié)點內(nèi)的文本內(nèi)容
result = html.xpath("http://li[contains(@class,'shop')]/a/text()") 
print(result) #['搜狐', '新浪']


# 按序選擇
result = html.xpath("http://li[1]/a/text()") # 獲取每組li中的第一個li節(jié)點里面的a的文本
result = html.xpath("http://li[last()]/a/text()") # 獲取每組li中最后一個li節(jié)點里面的a的文本
result = html.xpath("http://li[position()<3]/a/text()") # 獲取每組li中前兩個li節(jié)點里面的a的文本
result = html.xpath("http://li[last()-2]/a/text()") # 獲取每組li中倒數(shù)第三個li節(jié)點里面的a的文本
print(result) 

print("--"*30)
# 節(jié)點軸選擇
result = html.xpath("http://li[1]/ancestor::*") # 獲取li的所有祖先節(jié)點
result = html.xpath("http://li[1]/ancestor::ul") # 獲取li的所有祖先中的ul節(jié)點
result = html.xpath("http://li[1]/a/attribute::*") # 獲取li中a節(jié)點的所有屬性值
result = html.xpath("http://li/child::a[@) #獲取li子節(jié)點中屬性href值的a節(jié)點
result = html.xpath("http://body/descendant::a") # 獲取body中的所有子孫節(jié)點a
print(result) 

result = html.xpath("http://li[3]") #獲取li中的第三個節(jié)點    
result = html.xpath("http://li[3]/following::li") #獲取第三個li節(jié)點之后所有l(wèi)i節(jié)點
result = html.xpath("http://li[3]/following-sibling::*") #獲取第三個li節(jié)點之后所有同級li節(jié)點
for v in result:
    print(v.find("a").text)

解析案例

# 導入模塊
from lxml import etree

# 讀取html文件信息（在真實代碼中是爬取的網(wǎng)頁信息）
f = open("./my.html",'r')
content = f.read()
f.close()

# 解析HTML文檔，返回根節(jié)點對象
html = etree.HTML(content)

# 1. 獲取id屬性為hid的h3節(jié)點中的文本內(nèi)容
print(html.xpath("http://h3[@id='hid']/text()")) #['我的常用鏈接']


# 2. 獲取li中所有超級鏈接a的信息
result = html.xpath("http://li/a")
for t in result:
    # 通過xapth()二次解析結(jié)果
    #print(t.xpath("text()")[0], ':', t.xpath("@href")[0])

    # 效果同上，使用節(jié)點對象屬性方法解析
    print(t.text, ':', t.get("href"))

'''
#結(jié)果:
百度 : http://www.baidu.com
京東 : http://www.jd.com
搜狐 : http://www.sohu.com
新浪 : http://www.sina.com
淘寶 : http://www.taobao.com
'''

'''
HTML元素的屬性：
    tag：元素標簽名
    text：標簽中間的文本
HTML元素的方法：
    find()    查找一個匹配的元素
    findall() 查找所有匹配的元素    
    get(key, default=None) 獲取指定屬性值
    items（）獲取元素屬性，作為序列返回
    keys（）獲取屬性名稱列表
    value（）將元素屬性值作為字符串序列
'''


審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

信息

信息

+關(guān)注

關(guān)注
0

文章
407

瀏覽量
35866
數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7246

瀏覽量
91213
python

python

+關(guān)注

關(guān)注
56

文章
4825

瀏覽量
86297

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

python解析庫的使用--XPath

1. 準備工作：

2. XPath選取節(jié)點規(guī)則

3. 解析案例：

`我的常用鏈接`

評論