在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大數據分析學習的挑戰:復雜性、不確定性及涌現性

454398 ? 來源:alpha007 ? 作者:alpha007 ? 2022-11-17 10:19 ? 次閱讀

來源:ST社區

科多分享的大數據分析學習與研究的新挑戰:對于習慣結構化數據研究的統計學來說,大數據分析顯然是一種嶄新的挑戰。

挑戰來自何方?來自于大數據的復雜性、不確定性和涌現性三個方面,其中復雜性最為根本。

大數據的復雜性

復雜性是大數據區別于傳統數據的根本所在,它主要表現為類型復雜性、結構復雜性和內在模式復雜性三個方面,從而使得大數據的存儲與分析產生多方面的困難。對于大數據的類型與結構的復雜性這里不再贅述,但它們決定了數據模式的多樣化,使得刻畫數據特征的模式不斷變化、呈幾何級數增加。統計學盡管長期以來研究復雜現象的數量特征,但所涉及的數據是結構化的,模式是固定化的,比起大數據要簡單得多。

因此,學習大數據,我們不僅要熟悉各種類型的數據模式,還要善于把握它們之間的相互關系與作用,善于綜合利用各方面的知識(包括文本挖掘、圖像處理、信息網絡技術、心理學、社會學等等)加以研究。已有一些學者提出利用網絡來描述異質數據間的關系,同時提出了目標數據的“元路徑(Meta-Path)”概率刻畫模式。同時,由于非結構化數據通常比結構化數據包含更多的無用信息和垃圾信息,因此需要運用特定的方法來去偽存真、去粗存精,例如通過搜索引擎從非結構化數據中檢索出有用的信息等等。

大數據的不確定性

網絡大數據通常是高維的,以往的統計學習方法往往難以產生令人滿意的效果。復雜性必然帶來不確定性。

大數據的不確定性表現為數據本身的不確定性、模型的不確定性和學習的不確定性,從而給大數據建模和學習造成困難。數據的不確定性既包括原始數據的不準確,也包括數據處理過程中由各種因素所造成的在不同維度、不同尺度上的不確定性。例如阿里巴巴數據官曾經介紹,區淘寶網上購物者的性別特征就可以有十幾種判斷。雖然傳統的統計學方法主要研究不確定性數據,但傳統數據的不確定性明顯不同于大數據的不確定性,面對海量、高維、多類型的不確定性數據,傳統的統計方法顯得力不從心,無論是數據的采集、存儲、建模還是查詢、檢索和挖掘,都需要創新方法。大數據的不確定性必然帶來數據處理與分析模型的不確定性,但要解決這一點非常困難,有人提出了“可能世界模型”,認為應該在一定的結構規范下刻畫出數據的每一種狀態,但這同樣極其困難,在實際應用中不可能存在這樣一種通用的模型結構,只能采取簡化的模型,例如獨立性假設、同分布假設等等,尤其是概率圖模型已在數據相關性建模等方面得到了廣泛的應用。

模型的不確定性又必然帶來大數據學習的不確定性,使得模型參數的學習很難找到最優解,找到一個局部最優解都很困難,通常只能采用近似的方法來替代。

隨著多核CPU/GPU的普及以及并行計算框架的研究,碎片化方法被普遍認為是解決網絡大數據問題的可行方法,但需要做的工作仍然非常多。近些年來,統計學習領域的非參數模型方法提供了一種自動學習思路,但計算過程依然復雜,如何應用到網絡大數據以及大數據培訓中仍然是個問題。

大數據的涌現性

涌現性是網絡大數據有別于其他數據的關鍵特性,是大數據動態變化、擴展、演化的結果,表現為模式的涌現性、行為的涌現性和智慧的涌現性,其在度量、研判與預測上的困難使得網絡數據難以被駕馭。

涌現性的背后是各種信息的交互作用,是產生新的人類行為方式、以及社會經濟規律的重要基礎。模式的涌現性是指網絡數據由于多尺度、異質性而表現出來的、在屬性和功能等方面既存在差異又相互關聯的特定模式特征,這種涌現性結果對于研究社會網絡模型、理解網絡瓦解原因具有重要意義。行為的涌現性則與數據的時序性有關,是社會網絡中個體行為基于時序分布的統計結果,表現為較大相似性個體之間容易建立社會關系,使得網絡在演化過程中自發形成相互分離的連通塊。這種涌現性對于研究更多的社會網絡模型、理解行為涌現規律具有重要意義。例如,著名網絡科學家巴拉巴斯(Barabasi)通過研究發現,人們發送郵件的數量存在著特定的時間分布特征。智慧的涌現性是指網絡數據在沒有全局控制和預先定義的情況下,來自大量個體的自發語義通過互相融合和連接可以形成為有特定意義的通用語義,整個過程隨著數據的變化而持續演進。這種涌現性對于理解網絡語義的形成與變化具有重要意義。

總體而言,盡管近些年與大數據研究密切相關的數據庫、數據挖掘、機器學習智能工程等領域都取得了很大的進展,但由于大數據的復雜性、不確定性和涌現性,使得相關研究成果難以被直接應用于學習大數據的分析研究之中。傳統的分析方法不能準確表示網絡大數據在異構性、交互性、時效性和突發性等方面的特點,傳統的“假設—模型—驗證”的統計方法受到了質疑,而從“數據”到“數據”的第四研究范式還沒有真正建立,因此亟需一個新的理論體系來指導,建立新的分析模型。

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 大數據
    +關注

    關注

    64

    文章

    8908

    瀏覽量

    137799
收藏 人收藏

    評論

    相關推薦

    AFE5808A串并變換之后數據錯位,輸出結果具有不確定性,為什么?

    AFE5808A串并變換之后數據錯位,輸出結果具有不確定性,求問可能的原因有哪些?
    發表于 01-01 07:23

    NVIDIA助力百度提升數據分析效能

    數據分析師、運營團隊以及銷售人員等。過去他們不得不編寫繁雜的查詢語句,由此耗費掉大量的時間與精力。百度廣告業務的重要復雜性,致使相關的業務數據每月會有超過 200 個迭代更新,用
    的頭像 發表于 11-20 10:06 ?260次閱讀

    科技云報到:數字化轉型,從不確定性確定性的關鍵路徑

    科技云報到:數字化轉型,從不確定性確定性的關鍵路徑
    的頭像 發表于 11-16 16:52 ?399次閱讀
    科技云報到:數字化轉型,從<b class='flag-5'>不確定性</b>到<b class='flag-5'>確定性</b>的關鍵路徑

    raid 在大數據分析中的應用

    RAID(Redundant Array of Independent Disks,獨立磁盤冗余陣列)在大數據分析中的應用主要體現在提高存儲系統的性能、可靠和容量上。以下是RAID在大數據分析
    的頭像 發表于 11-12 09:44 ?314次閱讀

    魯棒算法在數據處理中的應用

    一、魯棒算法的基本概念 魯棒算法是指在面對數據中的異常值、噪聲和不確定性時,仍能保持穩定性能的算法。這類算法的核心思想是提高算法對
    的頭像 發表于 11-11 10:22 ?600次閱讀

    魯棒在機器學習中的重要

    金融風險評估。這些應用場景對模型的魯棒提出了極高的要求。 魯棒的定義 魯棒通常被定義為系統在面對不確定性和變化時仍能保持其功能的能力。在機器
    的頭像 發表于 11-11 10:19 ?560次閱讀

    emc技術在大數據分析中的角色

    在當今這個數據驅動的世界中,大數據分析已經成為企業獲取洞察力、優化業務流程和提高競爭力的關鍵工具。隨著數據量的爆炸增長,企業面臨著如何有效存儲、處理和
    的頭像 發表于 11-01 15:22 ?336次閱讀

    云計算在大數據分析中的應用

    云計算在大數據分析中的應用廣泛且深入,它為用戶提供了存儲、計算、分析和預測的強大能力。以下是對云計算在大數據分析中應用的介紹: 一、存儲和處理海量數據 云計算提供了強大的存儲和計算能力
    的頭像 發表于 10-24 09:18 ?603次閱讀

    IP 地址大數據分析如何進行網絡優化?

    一、大數據分析在網絡優化中的作用 1.流量分析 大數據分析可以對網絡中的流量進行實時監測和分析,了解網絡的使用情況和流量趨勢。通過對流量數據
    的頭像 發表于 10-09 15:32 ?308次閱讀
    IP 地址<b class='flag-5'>大數據分析</b>如何進行網絡優化?

    計及多重不確定性的規模化電動汽車接入配電網調度方法及解決方案

    摘要:規模日益增長的電動汽車和可再生能源帶來的不確定性給配電網的安全運營帶來了嚴峻挑戰。為綜合考慮多重不確定性、平衡運營成本與系統可靠,首先,提出一種基于分布魯棒聯合機會約束的電動汽
    的頭像 發表于 09-14 15:26 ?438次閱讀
    計及多重<b class='flag-5'>不確定性</b>的規模化電動汽車接入配電網調度方法及解決方案

    機器學習數據分析中的應用

    隨著大數據時代的到來,數據量的爆炸增長對數據分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從
    的頭像 發表于 07-02 11:22 ?812次閱讀

     相對于人工的不確定性,機器人碼垛有何優勢

    ?在現代工業生產中,碼垛是一項至關重要的任務,它涉及到將不同形狀、大小和重量的物品進行有序地堆疊,以便于后續的運輸和儲存。然而,傳統的人工碼垛方式存在著諸多不確定性,這些不確定性可能源自工人的疲勞
    的頭像 發表于 06-19 14:45 ?298次閱讀

    什么是嵌入式實時系統的確定性?簡析EDMS中的確定性

    ETAS Deterministic Middleware Solution點擊跳轉(EDMS,前身為AOS) 確定性中間件解決方案,是一個中間件框架,旨在面向汽車領域內應用程序的獨特挑戰和需求
    的頭像 發表于 04-15 11:22 ?1311次閱讀
    什么是嵌入式實時系統的<b class='flag-5'>確定性</b>?簡析EDMS中的<b class='flag-5'>確定性</b>

    硬件工程師在可靠設計中所面臨的挑戰及解決之道

    Course硬件電路可靠設計HardwareEngineer硬件電路工程師在進行可靠設計時,常常會陷入一系列煩惱之中。這些挑戰包括成本、時間壓力、可靠預測的
    的頭像 發表于 03-23 08:16 ?1165次閱讀
    硬件工程師在可靠<b class='flag-5'>性</b>設計中所面臨的<b class='flag-5'>挑戰</b>及解決之道

    FMEA與智能機器人:提升機器人可靠與安全的關鍵

    隨著科技的飛速發展,智能機器人已經深入到我們生活的方方面面,從工業生產到家庭服務,從深海探險到太空探索,處處都有它們的身影。然而,隨著應用的日益廣泛,機器人系統的復雜性不確定性也在增加,如何確保
    的頭像 發表于 03-22 11:07 ?703次閱讀
    主站蜘蛛池模板: 在线种子资源网 | 在线观看黄色一级片 | 天天操精品| 久久久久国产一级毛片高清板 | 免费播放一区二区三区 | 亚州国产精品精华液 | 日韩欧美黄色 | 五月婷婷视频在线 | 午夜影院亚洲 | 日韩综合色 | 欧美色欧美亚洲高清在线观看 | 在线视频人人视频www | 欧美婷婷| 手机看片日韩永久福利盒子 | 国产区一区二区三区 | 成年午夜一级毛片视频 | 伊人成人在线 | 四虎一区二区三区精品 | 天堂网在线资源www最新版 | 色综合天天五月色 | 亚洲成人伊人网 | 色拍拍综合网 | www.天堂.com| 日韩一区二区三区在线 | 天天摸日日摸 | 国产美女一区 | 欧美一级特黄啪啪片免费看 | 久久观看视频 | 欧美极品xxxxⅹ另类 | 四级毛片在线播放 | 国产精品黄网站免费观看 | 国产欧美在线一区二区三区 | 欧美精品一区二区三区视频 | www.你懂的.com | 成人看片免费无限观看视频 | 久久中文字幕综合婷婷 | 亚洲成a人在线播放www | 一二三区乱码一区二区三区码 | 午夜性视频 | 日本免费在线一区 | 另类毛片|