技術(shù)無(wú)罪?江湖傳言,互聯(lián)網(wǎng)上50%以上的流量都是由爬蟲(chóng)創(chuàng)造的,很多人都表示:無(wú)爬蟲(chóng)就無(wú)互聯(lián)網(wǎng)的繁榮。也正因?yàn)榇耍W(wǎng)上各種爬蟲(chóng)教程風(fēng)靡不絕,惹各路大神小白觀之參與之。但是,無(wú)節(jié)制的背后往往隱藏著風(fēng)險(xiǎn),類(lèi)似“只因?qū)懥艘欢闻老x(chóng),公司200多人被抓!”、“程序員爬蟲(chóng)竟構(gòu)成犯罪?”等報(bào)道也時(shí)有發(fā)生。關(guān)于爬蟲(chóng)合法性的討論,CSDN也在此前的《爬蟲(chóng)到底違法嗎?這位爬蟲(chóng)工程師給出了答案》、《不要在爬蟲(chóng)犯罪的邊緣瘋狂試探!》等文章中進(jìn)行了探討——但是,關(guān)于爬蟲(chóng)的爭(zhēng)論一直甚囂塵上。
近日,美國(guó)法院駁回 LinkedIn 針對(duì)分析公司 HiQ 抓取其數(shù)據(jù)的申訴一事件,似乎又為網(wǎng)絡(luò)爬蟲(chóng)的自由添磚加了瓦。決議表明:任何可公開(kāi)獲得且未經(jīng)版權(quán)保護(hù)的數(shù)據(jù)都可供抓取!可以說(shuō),這是數(shù)據(jù)隱私和數(shù)據(jù)監(jiān)管時(shí)代的歷史性時(shí)刻。那么,作為開(kāi)發(fā)者的你,如何看到這一事件呢?關(guān)于爬蟲(chóng)的風(fēng)險(xiǎn)性又該怎么定論?
2019年末,美國(guó)上訴法院駁回了 LinkedIn 針對(duì)分析公司 HiQ 抓取其數(shù)據(jù)的申訴。
這項(xiàng)決議是數(shù)據(jù)隱私和數(shù)據(jù)監(jiān)管時(shí)代的歷史性時(shí)刻。這項(xiàng)決議表明,任何可公開(kāi)獲得且未經(jīng)版權(quán)保護(hù)的數(shù)據(jù)都可供網(wǎng)絡(luò)爬蟲(chóng)自由抓取。
但是抓取數(shù)據(jù)的商業(yè)用途仍然有限
然而,這項(xiàng)決議并沒(méi)有授予 HiQ 或其他網(wǎng)絡(luò)爬蟲(chóng)將抓取獲得的數(shù)據(jù)用于商業(yè)目的的自由。
例如,網(wǎng)絡(luò)爬蟲(chóng)可以在 YouTube 上搜索視頻標(biāo)題,但由于這些視頻已獲得版權(quán),因此不可以將 YouTube 視頻轉(zhuǎn)發(fā)到自己的網(wǎng)站上。
一般來(lái)說(shuō),無(wú)論你以何種方式獲取數(shù)據(jù),數(shù)據(jù)(包括視頻或音樂(lè)之類(lèi)的媒體文件數(shù)據(jù))的版權(quán)依然有效。
某些形式的網(wǎng)頁(yè)爬蟲(chóng)仍然是非法的
這項(xiàng)決議也沒(méi)有賦予網(wǎng)絡(luò)爬蟲(chóng)自由地從需要身份驗(yàn)證的站點(diǎn)獲取數(shù)據(jù)的權(quán)利。
例如,根據(jù)規(guī)定網(wǎng)絡(luò)爬蟲(chóng)不可以登錄到 Facebook 并下載用戶的數(shù)據(jù)。
該規(guī)則不包括那些要求用戶在認(rèn)證之前必須同意使用條款的網(wǎng)站,因?yàn)橥ǔ_@些服務(wù)條款都會(huì)禁止諸如自動(dòng)收集數(shù)據(jù)之類(lèi)的活動(dòng)。
但是,由于公開(kāi)站點(diǎn)無(wú)法要求用戶在訪問(wèn)數(shù)據(jù)之前同意任何服務(wù)條款,因此用戶可以自由使用網(wǎng)絡(luò)爬蟲(chóng)程序從站點(diǎn)收集的數(shù)據(jù)。
各個(gè)網(wǎng)站仍然可以使用技術(shù)來(lái)限制網(wǎng)絡(luò)爬蟲(chóng)
盡管如今各個(gè)公司不太可能通過(guò)法律途徑應(yīng)對(duì)網(wǎng)絡(luò)爬蟲(chóng)程序,但他們?nèi)匀豢梢酝ㄟ^(guò)其他方式限制網(wǎng)絡(luò)爬蟲(chóng)。
例如,各個(gè)網(wǎng)站可以使用“限速”等技術(shù)來(lái)防止爬蟲(chóng)程序一次下載太多網(wǎng)頁(yè)。此外,各個(gè)網(wǎng)站還可以使用 CAPTCHA 等技術(shù)來(lái)測(cè)試是用戶還是網(wǎng)絡(luò)爬蟲(chóng)正在請(qǐng)求該頁(yè)面。
這些技術(shù)通常用于防止惡意機(jī)器人導(dǎo)致網(wǎng)站超載,引起網(wǎng)站崩潰。但是,這些技術(shù)也可以廣泛用于限制網(wǎng)絡(luò)爬蟲(chóng)的自動(dòng)抓取。
LinkedIn可能會(huì)進(jìn)一步上訴
盡管美國(guó)上訴法院駁回了LinkedIn的請(qǐng)求,但他們可能還有最后一步棋:向美國(guó)最高法院提出上訴。
美國(guó)最高法院有權(quán)推翻上訴法院的判決,而且還可以撤銷(xiāo)網(wǎng)絡(luò)爬蟲(chóng)公開(kāi)使用非版權(quán)數(shù)據(jù)的合法化。但是,并非所有上訴至最高法院的決定都能得到實(shí)際的審查。
但是,我們?nèi)匀豢梢哉J(rèn)為最高法院很可能會(huì)審查本案的裁決。畢竟數(shù)據(jù)政策和相關(guān)的隱私問(wèn)題是相對(duì)較新的法律,而且會(huì)對(duì) LinkedIn 等公司產(chǎn)生重大的商業(yè)影響。
-
Web
+關(guān)注
關(guān)注
2文章
1284瀏覽量
70892 -
爬蟲(chóng)
+關(guān)注
關(guān)注
0文章
83瀏覽量
7394
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論