在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

讓AI和網絡機器人進行網頁抓取、收集數據等工作,有用嗎?

如意 ? 來源:讀芯術微信公眾號 ? 作者:讀芯術微信公眾號 ? 2020-10-23 16:13 ? 次閱讀

“互聯網上有很多數據”,這么說太保守了。事實上,2020年,“數字宇宙”預計將擁有40萬億字節(jié)或40澤字節(jié)(zettabytes)的信息,一個澤字節(jié)擁有的數據足以填滿大約五分之一曼哈頓大小的數據中心

可供分析的信息如此之多,將收集數據的任務留給AI就顯得合情合理了。網絡機器人能以令人難以置信的速度抓取網頁,提取所需的相關信息。不過,盡管許多數據科學家和營銷人員以一種完全合乎倫理的方式獲取和使用這些信息。但很遺憾,隨著網絡人工智能日益普及,網絡機器人還是逐漸被污名化了。

對人工智能的大部分負面印象是由好萊塢電影和科幻小說間接造成的,畢竟在這些作品中,即使最美好愜意的時候也要提防著AI。此外,某些web用戶以不道德的方式使用網絡機器人,導致即便是專業(yè)、誠心使用數據的人也備受打擊。

對于許多專業(yè)人士來說,網頁抓取仍然是必不可少的工具。那么,對于與網絡機器人的污名,我們能做些什么呢?

首先,網頁抓取是什么

你可以簡單地把網頁抓取行為理解為數據提取。盡管數據科學家和其他專業(yè)人士使用抓取來分析非常復雜的數字信息棧,但從網站復制粘貼文本的行為本身就可以被認作一種簡單的抓取形式。

然而,就算可以在網站上盡情訪問,由于可用信息太多,可能也要花費非常長的時間從來源處收集數據。大多數情況下,網頁抓取都是留給人工智能來完成的,人工智能會將檢索到的數據進行透徹分析以達到各種目的。雖然這對網絡爬蟲來說極為便利,但網站所有者和旁觀者都非常擔心人工智能在網絡上的“濫用”

使用網絡機器人進行網頁抓取會更好嗎

有這么多的信息要分析,求助于人工智能來收集數據理所當然。實際上,谷歌本身就是為感興趣的各方提供網頁抓取工具最可信的來源之一。例如,你可以使用其數據集搜索引擎快速訪問認為可以免費使用的數據,甚至能定制搜索,以了解這些信息是否可用于商業(yè)用途。完成這些任務只需要幾秒鐘。

如果沒有谷歌AI如此高效檢查每個網站的相關數據,恐怕無法實現這樣的速度。這是一個利用人工智能以純道德的方式為研究或商業(yè)收集有用信息的完美例子,其速度之快也證明了“網絡機器人”如何讓執(zhí)行網頁抓取任務變得如此容易。

人工智能流量變得如此普遍,如今已經占到互聯網流量的一半以上。即便如此,我們還是容易忽視其造成的影響。

有人認為,人工智能在互聯網流量中占主導地位令人擔憂。讓這一問題變得更糟的原因是,有一小部分人工智能流量是由“糟糕的機器人”組成的。即使抓取的意圖很好,方法也合乎道德,人工智能的污名還是不可避免。

使用網絡機器人來處理大量數據是合理的步驟。除了人工智能,在網頁數據抓取時考慮其他必要工具也很重要。

代理如何提供幫助

使用代理進行網絡抓取有很多優(yōu)點,匿名性正是其中之一。比方說,如果你想對一個競爭品牌進行調研,并利用這些信息來確定改善自己公司發(fā)展的最佳方案,你可能不想讓別人知道自己訪問了他們的網站。在這種情況下,使用代理既能訪問、檢查數據,又不會泄露身份,兩全其美。

做進一步探討之前,先來快速回顧一下代理服務器:

代理服務器的設計目的是充當用戶和web服務器之間的中間人。

功能多樣:個人和公司都能使用代理服務器來滿足特定需求。

代理的一個常見用途與網頁抓取有關:使用代理服務器可以繞過網站管理員設置的限制,從而大量收集數據。

那么問題來了,為什么要設置限制呢?這些數據不是可以在網上免費獲得嗎?對人類用戶來說,是的。這里有一個典型的例子。價格聚合商的整個商業(yè)模式是建立在準確信息之上的,它為“我在哪里能買到價格最低的X產品?”這個問題提供確切答案。

盡管這對客戶來說是一個省錢的好機會,但供應商對其他公司窺探他們的數據并不太感興趣,原因是聚合器的網絡爬蟲軟件(通常稱為“網絡機器人”或“網頁蜘蛛”)給網站帶來了額外的負載。因此,如果網站管理員懷疑給定的網絡活動不是由真正的用戶進行的,就會限制用戶訪問網站。

代理的另一個實際用途是逃避審查禁令。住宅代理(Residentialproxies),顧名思義,會顯示你是來自X國的真正用戶,你可自定義來自哪個國家。對住宅代理的需求很簡單:(可疑的)網絡機器人活動通常來自某些國家,所以即使是來自這些國家的真正用戶也經常遇到地域限制。

此外,當你試圖從數據源收集數據、卻因各種原因無法訪問時,使用代理尤其有用。在網絡抓取時有很多使用代理的方法,但為了在數字社區(qū)中建立信任,我們建議你堅持使用那些可以建立品牌信任和權威的方法。

利用人類可見性和可信賴的品牌來對抗人工智能的污名

目前,人工智能發(fā)展速度確實超過了上網人數增長速度。不過,互聯網在未來幾年將會如何發(fā)展還不得而知,因此沒有理由立即斷定這一趨勢不可逆轉,也不能斷定它代表著一種固有的消極趨勢。

要想扭轉網絡上有關人工智能流量的負面言論,最佳辦法就是讓互聯網上的人工智能使用恢復人性化。還需注意,要以建立信任的方式使用人工智能,無需考慮太多。

堅持使用由高認知度、可信賴的品牌提供的可信賴的產品和服務。

堅持合乎道德的網頁抓取操作。不要濫用信任,忽略網站上robots.txt文件,或在短時間內大量使用機器人程序。

以專業(yè)、負責的方式使用數據。核實你是否擁有將抓取獲得的數據用于預期目的的權限。

多多普及人工智能。多去和其他人說說如何以及為什么使用網絡抓取,讓人們對網絡抓取有更深的認識。人們對使用人工智能獲取、研究大量數據的好處了解得越多,對網頁抓取和網絡機器人持負面看法的可能性就越小。

通過純粹的人工操作來手動訪問網站數據或許讓人很放心,但由于信息太多,這幾乎不可能。可用的數據量幾乎無窮無盡,使用人工智能是我們?yōu)g覽網站和盡可能高效分析數據的最佳手段。不過,它或許還需要再加點兒“人情味”。
責編AJX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    212

    文章

    29421

    瀏覽量

    211309
  • AI
    AI
    +關注

    關注

    87

    文章

    34000

    瀏覽量

    275075
  • 網頁抓取
    +關注

    關注

    0

    文章

    3

    瀏覽量

    1947
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    詳細介紹機場智能指路機器人工作原理

    負責接收旅客的語音指令,以便機器人理解旅客的需求。 環(huán)境感知與信息融合 :這些傳感器收集到的信息會進行融合處理。例如,激光雷達提供的距離信息和攝像頭捕捉的視覺信息相結合,能讓機器人更準
    發(fā)表于 05-10 18:26

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】機器人入門的引路書

    ROS的全稱:Robot Operating System 機器人操作系統(tǒng) ROS的 目的 :ROS支持通用庫,是通信總線,協(xié)調多個傳感器 為了解決機器人里各廠商模塊不通用的問題,機器人
    發(fā)表于 04-30 01:05

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】+內容初識

    、軟件開發(fā)、系統(tǒng)集成環(huán)節(jié),讀者能夠全面了解一個完整的機器人應用開發(fā)過程。 實踐項目:除了案例分析,書中還設計了一些實踐項目,供讀者進行動手實踐。這些實踐項目涵蓋了從簡單的傳感器
    發(fā)表于 04-27 11:24

    大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械臂產品

    識別聯調。 進迭時空致力于為智能機器人提供完整全棧優(yōu)化的RISC-V AI軟硬件解決方案,第一代RISC-V AI CPU芯片K1已完成AI視覺感知、
    發(fā)表于 04-25 17:59

    復合機器人抓取精度的影響因素及提升策略

    復合機器人結合了移動機器人(如AGV)和機械臂的功能,廣泛應用于物流、制造領域。抓取精度是其核心性能指標之一,直接影響作業(yè)效率和產品質量。本文將探討復合
    的頭像 發(fā)表于 04-12 11:15 ?203次閱讀

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人的基礎模塊

    ,一次生成深度信息。 自主機器人定位任務的本質是對機器人自身狀態(tài)的估計問題,包括位置,朝向,速度問題。 路徑規(guī)劃旨在找到從起點到目標區(qū)域的路徑,確保路徑的可行性和最優(yōu)性。路徑規(guī)劃方法包括變分方法,圖搜
    發(fā)表于 01-04 19:22

    《具身智能機器人系統(tǒng)》第10-13章閱讀心得之具身智能機器人計算挑戰(zhàn)

    取特征點,涉及大量像素級比較運算;優(yōu)化機器人位姿,需要迭代求解大規(guī)模矩陣方程。書中提出了模塊化的硬件加速方案,闡述了如何以因子圖為通用模版,以求解非線性優(yōu)化問題為橋梁,面向多種機器人應用進行加速。 第11
    發(fā)表于 01-04 01:15

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人大模型

    需要專業(yè)程序員進行繁瑣的編程工作,這種方式不僅效率低下,還限制了機器人的應用場景。例如,在我們大學工程實訓課程中使用的數控機床,需要人為設定起點、終點、移動方向和移動距離參數,自動化
    發(fā)表于 12-29 23:04

    【「具身智能機器人系統(tǒng)」閱讀體驗】+數據在具身人工智能中的價值

    的第二個挑戰(zhàn)是 “數據孤島”。獲取如此全面的數據充滿了挑戰(zhàn),包括高成本、耗時要求和潛在的安全風險。大多數 EAI 機器人組織僅限于在特定的受控環(huán)境中收集數據。實體之間缺乏
    發(fā)表于 12-24 00:33

    《具身智能機器人系統(tǒng)》第1-6章閱讀心得之具身智能機器人系統(tǒng)背景知識與基礎模塊

    需要在實時性、精度和可靠性維度上進行優(yōu)化。我認為這種系統(tǒng)化的工程思維對構建復雜人工智能系統(tǒng)很有啟發(fā)。作為一名數據挖掘工作者,這本書我看到
    發(fā)表于 12-19 22:26

    ROS機器人開發(fā)更便捷,基于RK3568J+Debian系統(tǒng)發(fā)布!

    安全可靠。“實時性”、“安全性”是如今工業(yè)自動化行業(yè)的普遍追求,特別是對于AGV開發(fā),若AGV機器人的主控制器、雷達、攝像頭、GPS部件的控制、通信的實時性與安全性得不到保障,導致的后果將是核心數據泄露
    發(fā)表于 07-09 11:38

    Al大模型機器人

    理解能力強大: AI大模型機器人可以理解和生成自然語言,能夠進行復雜的對話和語言任務。它們能夠識別語言中的語義、語境和情感,并據此作出適當的回應。廣泛的知識儲備: 這些模型基于大規(guī)模的數據
    發(fā)表于 07-05 08:52

    碼垛機器人的組成和工作原理

    幾個部分組成: ?1、機身:碼垛機器人的機身通常由機械臂、底座、控制系統(tǒng)部件組成,用于支撐和移動物品。 ?2、抓取機構:碼垛機器人抓取
    的頭像 發(fā)表于 07-04 15:58 ?761次閱讀

    工業(yè)機器人數據采集遠程監(jiān)控平臺是什么

    工業(yè)機器人數據采集遠程監(jiān)控平臺是一種軟件系統(tǒng),旨在遠程監(jiān)控和管理工業(yè)機器人的運行狀態(tài)和生產數據。該平臺通過網絡連接到工業(yè)機器人,實時
    的頭像 發(fā)表于 06-20 16:05 ?699次閱讀

    工業(yè)機器人數據采集平臺是什么

    以實現以下功能: 1. 數據收集:通過傳感器、控制器或其他設備從機器人及其周邊設備收集數據。 2. 數據處理:對
    的頭像 發(fā)表于 06-17 10:03 ?609次閱讀
    主站蜘蛛池模板: 免费看啪啪的网站 | 欧美黄色三级视频 | 国产成人久视频免费 | 日本极度另类网站 | 国产精品久久久久网站 | 国模吧 | aika中文字幕永久在线 | 午夜三级福利 | 亚洲成人免费观看 | 亚洲香蕉电影 | 在线www | 高清人人天天夜夜曰狠狠狠狠 | 四虎国产精品成人永久免费影视 | 性色xxx | 精品一区二区国语对白 | 手机看片自拍 | 婷婷六月久久综合丁香一二 | 操碰人人 | 九九九精品午夜在线观看 | 四虎永久免费网站入口2020 | 天天爽天天爽 | 午夜精品视频 | 你懂的免费 | 小说老卫陈红张敏陈法蓉 | 色吧色吧色吧网 | 欧美三级大片在线观看 | 电源天堂 | 日本色黄视频 | 天天插天天插天天插 | 天天色资料| 91色爱| 亚洲欧美在线观看 | www.4虎| 亚洲欧美在线观看 | 欧美电影一区二区三区 | 国产高清成人 | 视频一区视频二区在线观看 | 国产成人无精品久久久久国语 | 日本免费一区二区视频 | ts人妖在线观看 | 日日骑夜夜操 |