在我平時(shí)的工作中,偶爾會(huì)用 Java 做一些解析HTML的工作。有的時(shí)候我需要?jiǎng)h除所有的HTML標(biāo)簽,只保留純文字內(nèi)容。這個(gè)問題在做過一些爬蟲工作的朋友來說很簡單。下面來說說,我們平時(shí)使用到的集中解析的方法。
使用正則表達(dá)式
通過爬蟲爬到的HTML內(nèi)容,從程序角度來講,就是一個(gè)字符串。我們可以對(duì)其按照純文本處理的方式來處理。
我們在做文本處理的時(shí)候,第一個(gè)想到的就是正則表達(dá)式。從一個(gè)字符串中刪除HTML,對(duì)于正則來說,還是比較簡單的。畢竟還是有固定的格式,比如“<...>”。
我們常用的的正則就是 <[^>]>
或者 <.*?>
。
我們在使用正則的時(shí)候,需要注意的是正則默認(rèn)是貪婪匹配。也就是說,正則表達(dá)式 <.*>
能夠匹配到更多的HTML內(nèi)容,而不是單個(gè)標(biāo)簽。
現(xiàn)在,讓我們測試一下它是否能從HTML源中刪除標(biāo)簽。
正則測試刪除標(biāo)簽1
在我們測試刪除HTML標(biāo)簽之前,首先讓我們創(chuàng)建一個(gè)HTML例子,例如example1.html
。
< !DOCTYPE html >
< html >
< head >
< title >這是標(biāo)題< /title >
< /head >
< body >
< p >
如果應(yīng)用程序X沒有啟動(dòng),可能的原因是< br/ >
1. < a href="https://maven.apache.org" >Maven< /a >沒有安裝< br/ >
2. 磁盤空間不足< br/ >
3. 內(nèi)存不足
< /p >
< /body >
< /html >
現(xiàn)在,讓我們寫一個(gè)測試,用String.replaceAll()
來刪除HTML標(biāo)簽。
String html = ... // load example1.html
String result = html.replaceAll("< [^ >]` >", "");
System.out.println(result);
如果我們運(yùn)行這個(gè)測試方法,我們會(huì)看到結(jié)果。
這是標(biāo)題
如果應(yīng)用程序X沒有啟動(dòng),可能的原因是
1.Maven沒有安裝
2.磁盤空間不足
3.沒有足夠的內(nèi)存
輸出結(jié)果保留了剝離后的HTML的空白處。我們在處理提取的文本時(shí),可以很容易地刪除或跳過這些空行或空白處。
正則測試刪除標(biāo)簽2
我們剛才已經(jīng)看到了,通過使用Regex來刪除HTML標(biāo)簽是非常簡單。但是粗暴的使用這種方法會(huì)有很多問題,我們不能預(yù)測最終的結(jié)果會(huì)是怎么樣的。
例如,一個(gè)HTML文檔可能有` 或標(biāo)簽,而我們可能不希望在結(jié)果中出現(xiàn)它們的內(nèi)容。
此外,、
、甚至是
標(biāo)簽中的文本可能包含
<
或 >
字符。如果是這種情況,我們的正則方法可能會(huì)出錯(cuò)。
現(xiàn)在,讓我們看看另一個(gè)例子,比如example2.html
。
< !DOCTYPE HTML >
< html >
< head >
< title >這是標(biāo)題< /title >
< /head >
< script >
// some js function
< /script >
< body >
< p >
如果應(yīng)用程序X沒有啟動(dòng),可能的原因是< br/ >
< a
id="link"
href="http://maven.apache.org/" >
Maven
< /a > 沒有安裝< br/ >
磁盤空間不足 (< 1G) < br/ >
內(nèi)存不足(< 64MB)< br/ >
< /p >
< /body >
< /html >
現(xiàn)在我們有一個(gè)標(biāo)簽和
<
字符在標(biāo)簽內(nèi)。
如果我們對(duì)example2.html
使用同樣的方法,我們會(huì)得到如下內(nèi)容。
這是標(biāo)題
// some js function
如果應(yīng)用程序X沒有啟動(dòng),可能的原因是
Maven
沒有安裝
2. 磁盤空間不足 (
3. 內(nèi)存不足(
顯然,由于"<"字符的存在,我們丟失了一些文本。所以正則在處理文本的時(shí)候并不是萬能的。我們可以使用一些 HTML 解析器來做這些比較復(fù)雜的場景。
使用Jsoup
Jsoup 是一個(gè)流行的HTML解析庫,如果想要從一個(gè)HTML文檔中提取文本,我們可以簡單地調(diào)用Jsoup.parse(htmlString).text()
。
在項(xiàng)目中使用的時(shí)候,我們首先需要添加 jsoup 的依賴庫,我們這里就通過maven的方式引入。
< dependency >
< groupId >org.jsoup< /groupId >
< artifactId >jsoup< /artifactId >
< version >1.14.3< /version >
< /dependency >
我們用 example2.html
來測試一下。
String html = ... // load example2.html
System.out.println(Jsoup.parse(html).text());
如果我們讓這個(gè)方法運(yùn)行,它就會(huì)打印出來。
這是標(biāo)題 如果應(yīng)用程序X沒有啟動(dòng),可能的原因是 1.Maven沒有安裝 2.沒有足夠的(< 1G)磁盤空間 3.沒有足夠的(< 64MB)內(nèi)存
從輸出結(jié)果可知,Jsoup已經(jīng)成功地從HTML文檔中提取了文本。另外,元素中的文本已經(jīng)被忽略了。
此外,默認(rèn)情況下,Jsoup會(huì)刪除所有的文本格式和空白處,比如換行符。
使用HTMLCleaner
HTMLCleaner 也是一個(gè)HTML解析庫。
首先,我們需要在pom.xml
中添加HTMLCleaner 依賴。
< dependency >
< groupId >net.sourceforge.htmlcleaner< /groupId >
< artifactId >htmlcleaner< /artifactId >
< version >2.25< /version >
< /dependency >
我們可以設(shè)置[各種參數(shù)](http://htmlcleaner.sourceforge.net/parameters.php)來控制HTMLCleaner的解析行為。我們在這里使用HTMLCleaner在解析example2.html
時(shí)跳過元素。
String html = ... // load example2.html
CleanerProperties props = new CleanerProperties();
props.setPruneTags("script");
String result = new HtmlCleaner(props).clean(html).getText().toString();
System.out.println(result);
運(yùn)行一下,HTMLCleaner將產(chǎn)生這樣的輸出。
這是標(biāo)題
如果應(yīng)用程序X沒有啟動(dòng),可能的原因是:
1.Maven沒有安裝
2.沒有足夠的(< 1G)磁盤空間
3.內(nèi)存不足(< 64MB)
我們可以看到,元素中的內(nèi)容被忽略了,
標(biāo)簽轉(zhuǎn)換為提取的文本中的換行符。另外, HTMLCleaner 保留了HTML的空白內(nèi)容。
總結(jié)
在這篇文章中,我們學(xué)習(xí)了幾種去除HTML的方法,我們需要注意的是,正則在文本處理的過程中并不是萬能的。
`-
JAVA
+關(guān)注
關(guān)注
20文章
2982瀏覽量
106356 -
HTML
+關(guān)注
關(guān)注
0文章
278瀏覽量
39167 -
應(yīng)用程序
+關(guān)注
關(guān)注
38文章
3309瀏覽量
58439
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
三防漆固化后板返修的去除方法
基于HTML 標(biāo)記的信息隱藏方法
HTML,HTML標(biāo)準(zhǔn)有哪些?
動(dòng)態(tài)HTML,什么是動(dòng)態(tài)HTML
HTML DOM prompt()方法使用

JavaScript讓HTML靜態(tài)頁面?zhèn)髦档?b class='flag-5'>方法

去除阻焊膜的四種方法
一種澆口蝕刻后的感光膜去除方法

評(píng)論