在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

公開機器學習模型代碼可能會有哪些風險?

DPVg_AI_era ? 來源:lp ? 2019-03-08 09:26 ? 次閱讀

作為個人開發者,應不應該將自己的項目或模型、數據等進行開源?公開這些數據有哪些風險?本文作者是斯坦福大學博士,長期從事開源機器學習研究,經常接觸和處理敏感數據,他結合自己的經驗,為這個問題提供了一些建議。

公開機器學習模型代碼可能會有哪些風險?

OpenAI 最近因為創造了多項機器學習新任務的最優性能記錄,但卻不開放源代碼而遭到越來越多的指摘。OpenAI發推表示,“由于擔心這些技術可能被用做惡意目的,不會放出訓練后的模型代碼。“

對OpenAI這個決定的批評之聲不少,比如這樣會對其他團隊重現研究這些研究結果造成阻礙,而研究結果的可重現性是確保研究真實的基礎。而且,這樣做也可能導致媒體對人工智能技術產生一種由于未知而生的恐懼。

上面這段Twitter引起了我的注意。Anima Anandkumar在彌合機器學習的研究和實際應用之間的差距方面擁有豐富的經驗。我們是亞馬遜AWS的同事,最近還在一起討論了如何將機器學習技術從博士實驗室推向市場的問題。

Stephen Merity對社交媒體的回應進行了總結,他表示,機器學習社區在這方面的經驗其實不多:

OpenAI不公開模型源代碼是對是錯?這事各位可以自行判斷。不過在我看來,OpenAI在兩個方面做得不夠好,應該就是否可以檢測到虛假內容進行調查,并以多種語言發布模型,以對抗對英語產生的單語種偏見。

對于個人機器學習項目而言,下面給出一些關于是否應該公開發布模型或數據集的決策時的一些常見問題:

在開源我的模型之前是否應該三思?

是的。如果你的模型是基于私有數據構建的,則可以對其進行逆向工程以提取出這些數據。

如果我的模型100%來自公共數據,那我是否還要考慮將模型開源?

是的。如果要在新的語言環境重新發布數據,已發布的數據可能會變成敏感數據,而且,聚合后的數據(包括機器學習模型)可能比分散的各個數據點更加敏感。你需要考慮:重新構建數據或數據模型會產生哪些影響,要不要由我自己或我所在的組織公開發布?

即使單個數據點并非敏感數據,聚合數據被視為敏感也是很常見的情況。這是許多軍事組織的標準做法:當他們匯總來自一組來源的數據時,他們會根據其敏感程度重新評估該匯總信息。聚合通常是統計學或無監督機器學習的結果,但是基于該數據構建的監督模型同樣適用。

所以,你應該經常自問:我的模型中的聚合數據是否比單個數據點更為敏感?

我應該如何評估開源風險?

在安全性方面考慮,可以將每個策略視為“可被攻破的”。風險防范的基本目標是使攻破某些安全措施的成本高于被保護數據的價值。

所以要考慮的問題是,從你的研究論文中復制模型的成本,是否值得為那些想要出于負面目的使用這些技術的人付出這樣的努力?應該要明確這一點。這是決定是否將模型開源的一個重要因素。

我最近與Facebook進行了長時間的會談,討論的是出任一個職位,專門負責發現假新聞。從一個行內人的角度來看,我最想知道的是這樣一件事:我能否以編程的方式成功檢測這種模型輸出,以便對抗假新聞?

我認為在Facebook上打擊假新聞是任何人都可以做的最重要的事情之一,來自OpenAI的這項研究將會對此有所幫助。而且,如果能夠創建一個可以識別生成內容的模型池,那么假新聞可能會更難以蒙混通過自動檢測系統。

如果你能夠定量地證明,對項目數據的惡意使用可以進行更容易/更難的打擊,這也將是你做出是否開源的決策過程中的另一個重要因素。

這算是機器學習中的新問題嗎?

其實不算是,你可以從過去的經驗中學到很多東西。

如果你面臨類似的困境,請尋找具有深度知識的人來討論受影響最大的社區(最好是來自該社區內部的人士),以及過去遇到類似的機器學習問題相關問題的人。

我是否應該平衡機器學習的負面應用和正面應用?

是的。發布具有積極應用意義的模型,很容易對世界產生積極影響。而限制具有許多負面應用領域的模型的發布,很難對世界產生積極影響。

這其實是OpenAI的另一個失敗之處:缺乏多樣性。OpenAI比任何其他研究團隊都更多地發布了僅適用于英語模型和研究成果。從全球來看,英語每天僅占全世界對話的5%。在句子中的單詞順序、標準化拼寫和“單詞”作為機器學習功能單元上,英語是一個異類。

OpenAI的研究依賴于以下三個方面:單詞順序,單詞特征,拼寫一致性。這些研究能夠適用于世界上大多數語言嗎?我們不知道,因為沒有測試。OpenAI的研究確實表明,我們需要擔心這種類型的英語生成內容,但并沒有表明,今天的假新聞的流傳,更有可能通過除英語之外的其他100多種語言進行。

如果你不想進入假新聞等應用程序的灰色區域,那么可以選擇一個本質上更具影響力的研究領域,例如低資源語言中與健康相關的文本的語言模型。

我需要在多大程度上考慮項目應用實例的敏感性?

當我為AWS的命名實體解析服務開發產品時,必須考慮是否要將街道級地址識別為顯式字段,并可能將坐標映射到相應地址。我們認為這本身就是敏感信息,不應該在一般解決方案中進行產品化。

在任何研究項目中都要考慮這一點:是否能夠隱含或明確地識別出模型中的敏感信息?

只是因為其他人都開源了自己的模型,因此我也應該開源嗎?

當然不是,你應該對自己項目的影響力保持一份懷疑。無論你是否贊同OpenAI的決定,都應該做出明智的決定,而不是盲目跟隨他人。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1796

    文章

    47690

    瀏覽量

    240342
  • 開源
    +關注

    關注

    3

    文章

    3408

    瀏覽量

    42717
  • 機器學習
    +關注

    關注

    66

    文章

    8441

    瀏覽量

    133094

原文標題:斯坦福博士:個人開發者要不要開源項目模型和代碼?

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

    醫療領域,手術輔助機器人需要毫米級的精確控制,書中有介紹基于視覺伺服的實時控制算法,以及如何利用大模型優化手術路徑規劃。工業場景中,協作機器人面臨的主要挑戰是快速適應新工藝流程。具身智能通過在線
    發表于 12-24 15:03

    cmp在機器學習中的作用 如何使用cmp進行數據對比

    機器學習領域,"cmp"這個術語可能并不是一個常見的術語,它可能是指"比較"(comparison)的縮寫。 比較在機器
    的頭像 發表于 12-17 09:35 ?312次閱讀

    深度學習模型的魯棒性優化

    。異常值和噪聲可能會誤導模型的訓練,導致模型在面對新數據時表現不佳。 數據標準化/歸一化 :將數據轉換到同一尺度上,有助于模型更好地學習數據
    的頭像 發表于 11-11 10:25 ?389次閱讀

    AI大模型與深度學習的關系

    AI大模型與深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 一、深度學習是AI大模型的基礎 技術支撐 :深度學習
    的頭像 發表于 10-23 15:25 ?1288次閱讀

    AI大模型與傳統機器學習的區別

    AI大模型與傳統機器學習在多個方面存在顯著的區別。以下是對這些區別的介紹: 一、模型規模與復雜度 AI大模型 :通常包含數十億甚至數萬億的參
    的頭像 發表于 10-23 15:01 ?1060次閱讀

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    之前對《時間序列與機器學習》一書進行了整體瀏覽,并且非常輕松愉快的完成了第一章的學習,今天開始學習第二章“時間序列的信息提取”。 先粗略的翻閱第二章,內容復雜,充斥了大量的定義、推導計
    發表于 08-14 18:00

    【「時間序列與機器學習」閱讀體驗】+ 簡單建議

    這本書以其系統性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機器學習融合應用的宏偉藍圖。作者不僅扎實地構建了時間序列分析的基礎知識,更巧妙地展示了機器學習如何在這一領域發揮巨
    發表于 08-12 11:21

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    一些局限性。例如,模型可能無法完全理解文本中的深層含義和語境信息;同時,由于訓練數據可能存在偏差和噪聲,生成的答案也可能存在不準確或誤導性的情況。 總結以下,大語言
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

    上周收到《大語言模型應用指南》一書,非常高興,但工作項目繁忙,今天才品鑒體驗,感謝作者編寫了一部內容豐富、理論應用相結合、印刷精美的著作,也感謝電子發燒友論壇提供了一個讓我了解大語言模型機器
    發表于 07-21 13:35

    pycharm如何訓練機器學習模型

    PyCharm是一個流行的Python集成開發環境(IDE),它提供了豐富的功能,包括代碼編輯、調試、測試等。在本文中,我們將介紹如何在PyCharm中訓練機器學習模型。 一、安裝Py
    的頭像 發表于 07-11 10:14 ?948次閱讀

    【《軟件開發珠璣》閱讀體驗】居安思危之風險

    風險可能會增強或減少項目組合的總體價值,及商業目標的實現。 積極風險是機會,機會可以帶來諸多收益,例如時間縮短、成本下降、績效改進、市場份額增加或聲譽提升等。 消極風險是威脅,威脅
    發表于 07-09 12:48

    Al大模型機器

    豐富的知識儲備。它們可以涵蓋各種領域的知識,并能夠回答相關問題。靈活性與通用性: AI大模型機器人具有很強的靈活性和通用性,能夠處理各種類型的任務和問題。持續學習和改進: 這些模型可以
    發表于 07-05 08:52

    人工神經網絡與傳統機器學習模型的區別

    人工神經網絡(ANN)與傳統機器學習模型之間的不同,包括其原理、數據處理能力、學習方法、適用場景及未來發展趨勢等方面,以期為讀者提供一個全面的視角。
    的頭像 發表于 07-04 14:08 ?1564次閱讀

    深度學習中的模型權重

    在深度學習這一充滿無限可能性的領域中,模型權重(Weights)作為其核心組成部分,扮演著至關重要的角色。它們不僅是模型學習的基石,更是
    的頭像 發表于 07-04 11:49 ?2047次閱讀

    【大規模語言模型:從理論到實踐】- 閱讀體驗

    注意力機制的計算復雜度隨著序列長度的增加而迅速增長,這可能會成為模型訓練和推理時的瓶頸。 與計算效率類似,注意力機制在處理長序列時也會消耗大量的內存。這對于資源有限的設備或場景來說可能是一個問題。 盡管
    發表于 06-07 14:44
    主站蜘蛛池模板: 91av视频免费在线观看 | 四虎在线视频观看 | 久久亚洲欧美成人精品 | 欧美性一区二区三区 | 成人毛片一区二区三区 | 干人人| 国产精品午夜剧场 | 2021久久精品国产99国产精品 | 久久综合99 | 成年人的毛片 | 日韩免费看| 欧美拍拍 | 免费看美女禁处爆涌视频 | 日韩欧美国产电影 | 欧美一级艳片视频免费观看 | 天堂资源bt种子在线 | 国产1区二区| aaaa在线观看| 午夜高清视频 | 3344成年在线视频免费播放男男 | 欧美成人亚洲 | 色在线视频播放 | 4438x色| 四虎在线精品 | 性欧美巨大 | 黄色短视频软件 | 人成xxxwww免费视频 | 最近的中文字幕免费动漫视频 | 手机毛片在线 | 69xxxxx日本护士 | 免费网站直接看 | 久久久婷婷亚洲5月97色 | 日本www在线观看 | 把小嫩嫩曰出白浆 | 免费免费啪视频在线 | 色婷婷狠狠久久综合五月 | 亚洲三级网 | 四虎影院.com | 4hu44四虎在线观看 | 中文字幕在线天堂 | 国产精品99r8免费视频2022 |