在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據挖掘與機器學習項目特征工程實戰

lviY_AI_shequ ? 來源:未知 ? 作者:胡薇 ? 2018-08-09 10:09 ? 次閱讀

找特征這件事,Andrew Ng在深度學習網課中提到過,原課件見第3課結構化機器學習項目中的2.9和2.10兩節,筆記整理如下:

Andrew以Speech Recognition的場景為例,比較了pipeline和end-to-end兩種建模方式中特征工程的差異。

其中pipeline的搭建依賴于人工設計的特征,需要依賴于人類可以理解的音節,將一段音頻轉化為文字;而end-to-end模型基于大量的音頻素材,自動找出語音和文字間的關系,不依賴于音節而自動翻譯成文字。

總而言之,除去語音和圖像等特定場景,對于大部分生活中的機器學習項目,由于沒有足夠的訓練數據支撐,我們還無法完全信任算法自動生成的特征,因而基于人工經驗的特征工程依然是目前的主流。

人工經驗這件事比較虛,加之許多業界的項目由于隱私性的考慮,很少會透露底層的入模特征和計算邏輯,使得目前網絡上關于特征工程細節的文章少之又少。答主在這里結合自己這幾年在金融領域的建模經驗,介紹一些常見的數據源類型和特征計算方法,希望可以幫助剛入行或者想入行的從業者們開開腦洞。

(1)支付流水:通常包括支付賬戶、時間、金額、地點、目的、狀態等字段,可以反映出客戶的經濟實力和消費習慣。其中特別的,賬戶間的復雜交易關系和異常金額時間地點的支付行為,都可以在反欺詐場景中應用,視為團伙作案或者反洗錢的重要指標。

(2)財富管理:基金理財類產品的申購歷史記錄,體現出客戶的資金儲備和購買偏好。對于風險偏好較低的客戶,我們可以推薦小金庫這類收益穩定、波動較小的債券類產品;對于追求高收益的客戶,我們可以推薦在京東金融app上代銷的各類基金,以及智能投顧產品。

(3)貸款信息:伴隨著近幾年國內現金貸以及場景貸市場的迅速發展,國家也在大力推動各家資方信貸數據的治理與共享。基于一個客戶在各個平臺上的貸款申請、提現、還款信息,可以刻畫出這個客戶的還款意愿和征信表現,從而為其下一次的信貸申請決策提供建議。常見的,多個平臺申請和在貸以及當前有貸款發生90天以上逾期的用戶,都會被其他平臺列入自動拒絕的名單。

(4)App登錄:從SDK埋點獲取的各類app登錄數據中,我們可以分析出用戶在每個app上的停留時間,從而側面了解這個用戶的興趣愛好,甚至預測用戶的年齡和性別。例如京東、阿里等電商app登錄較頻繁的用戶,通常以女性居多,并且消費能力較強;而抖音、快手等小視頻app停留時間較長的,一般為年輕人群體。

(5)電商流水:從電商公司豐富的訂單流水數據中,可以挖掘出較為完整的客戶畫像。客戶Alice近一年內購買頻繁,但是平均單筆訂單金額較低,通常集中在生活用品以及水果生鮮,可以推斷出Alice應該是一位家庭婦女;而客戶Ben消費總金額較高,購買過車飾類產品,收貨地址集中在辦公場所,則大概率Ben是有車一族的白領青年。

(6)收貨地址:在信貸風控場景中,通常近一年內地址數量較少、地址穩定性高的用戶,貸款逾期風險更低;而對于地址變動頻繁或者涉黑的用戶,建議貸前申請直接拒絕,或者把這些收貨地址運用到貸后催收之中。

(7)運營商信息:數據市場上比較常見的第三方數據源,可以用作各個場景下的身份證、姓名、手機號的三要素核驗,以及利用在網時長和在網狀態判斷一個用戶是否有欺詐風險。

除去上面整理的簡單底層特征,在實際工作中數據分析師和算法工程師們還需要針對不同的業務場景,利用規則和模型構造一些復雜特征。

舉兩個實際的例子:

第一個例子,為了計算用戶的年收入,可以利用近一年內支付總金額+理財總余額-信貸總負債的大公式,通過線性回歸擬合出三個指標的系數,來得到每個用戶預測的收入水平;

第二個例子,給自己在做的模型打個小廣告,京東金融金融科技業務部基于京東集團商城、金融和物流三大自有數據源以及海量外部數據源,利用XGBoost、LightGBM、CatBoost等復雜集成樹類算法,計算得到玉衡分特征,用來衡量京東客戶在現金貸場景的信用等級,幫助服務的銀行和小貸公司搭建信貸智能決策系統。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8478

    瀏覽量

    133810

原文標題:在機器學習的項目中,特征是如何被找出來的

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    《AI Agent 應用與項目實戰》----- 學習如何開發視頻應用

    再次感謝發燒友提供的閱讀體驗活動。本期跟隨《AI Agent 應用與項目實戰》這本書學習如何構建開發一個視頻應用。AI Agent是一種智能應用,能夠根據用戶需求和環境變化做出相應響應。通常基于深度
    發表于 03-05 19:52

    《AI Agent 應用與項目實戰》第1-2章閱讀心得——理解Agent框架與Coze平臺的應用

    也好好抓住這次AI agent的廣闊應用前景,努力學習,厚積薄發。 作為一名數據挖掘工程師,在研讀《AI Agent 應用與項目
    發表于 02-19 16:35

    eda在機器學習中的應用

    機器學習項目中,數據預處理和理解是成功構建模型的關鍵。探索性數據分析(EDA)是這一過程中不可或缺的一部分。 1.
    的頭像 發表于 11-13 10:42 ?683次閱讀

    數據準備指南:10種基礎特征工程方法的實戰教程

    數據分析和機器學習領域,從原始數據中提取有價值的信息是一個關鍵步驟。這個過程不僅有助于輔助決策,還能預測未來趨勢。為了實現這一目標,特征
    的頭像 發表于 11-01 08:09 ?507次閱讀
    <b class='flag-5'>數據</b>準備指南:10種基礎<b class='flag-5'>特征</b><b class='flag-5'>工程</b>方法的<b class='flag-5'>實戰</b>教程

    特征工程實施步驟

    數據中提取數值表示以供無監督模型使用的方法(例如,試圖從之前非結構化的數據集中提取結構)。特征工程包括這兩種情況,以及更多內容。數據從業者通
    的頭像 發表于 10-23 08:07 ?642次閱讀
    <b class='flag-5'>特征</b><b class='flag-5'>工程</b>實施步驟

    【全新課程資料】正點原子《基于GD32 ARM32單片機項目實戰入門》培訓課程資料上線!

    ,掌握ARM32單片機項目的開發流程; 三、課程特色 1、基礎入門,循序漸進 從開發環境搭建和工程創建開始,逐步深入學習每一個外設的原理及應用。通過實戰
    發表于 09-24 18:06

    【全新課程資料】正點原子《ESP32基礎及項目實戰入門》培訓課程資料上線!

    您逐步實現功能,提高編程能力 四、適合群體 本課程會從基礎入門過渡到項目實戰,層層遞進,因此非常適合以下人群學習: (1)在校學生 (2)剛入職場的新晉工程師 (3)想轉崗ESP32
    發表于 09-24 17:59

    【全新課程資料】正點原子《ESP32物聯網項目實戰》培訓課程資料上線!

    正點原子《ESP32物聯網項目實戰》全新培訓課程上線啦!正點原子工程師手把手教你學!通過多個項目實戰,掌握ESP32物聯網
    發表于 09-24 17:05

    【「時間序列與機器學習」閱讀體驗】時間序列的信息提取

    個重要環節,目標是從給定的時間序列數據中提取出有用的信息和特征,以支持后續的分析和預測任務。 特征工程(Feature Engineering)是將
    發表于 08-17 21:12

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    提高機器學習模型效果與性能的過程。 而我對特征工程的理解就是從一堆數據里找出能表示這堆數據的最小
    發表于 08-14 18:00

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    數據中提取特征并將其轉化為交易策略,以及機器學習在其他金融領域(包括資產定價、資產配置、波動率預測)的應用。 全書彩版印刷,內容結構嚴整,條理清晰,循序漸進,由淺入深,是很好的時間序列
    發表于 08-07 23:03

    機器學習中的數據預處理與特征工程

    機器學習的整個流程中,數據預處理與特征工程是兩個至關重要的步驟。它們直接決定了模型的輸入質量,進而影響模型的訓練效果和泛化能力。本文將從
    的頭像 發表于 07-09 15:57 ?985次閱讀

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據
    的頭像 發表于 06-27 08:27 ?1874次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的經典算法與應用

    特征工程數據預處理全解析:基礎技術和代碼示例

    機器學習數據科學的世界里,數據的質量是建模成功與否的關鍵所在。這就是特征工程
    的頭像 發表于 06-26 08:28 ?647次閱讀
    <b class='flag-5'>特征</b><b class='flag-5'>工程</b>與<b class='flag-5'>數據</b>預處理全解析:基礎技術和代碼示例

    通過強化學習策略進行特征選擇

    來源:DeepHubIMBA特征選擇是構建機器學習模型過程中的決定性步驟。為模型和我們想要完成的任務選擇好的特征,可以提高性能。如果我們處理的是高維
    的頭像 發表于 06-05 08:27 ?541次閱讀
    通過強化<b class='flag-5'>學習</b>策略進行<b class='flag-5'>特征</b>選擇
    主站蜘蛛池模板: 国产人成精品香港三级古代 | 久久久成人影院 | 三级网站免费看 | 182.t v香蕉人人网站 | 特级aaa片毛片免费观看 | 色妞基地 | 插白浆| 四虎影院最新网址 | 天天夜约 | 久久午夜精品 | 久久综合色婷婷 | 诱人的老师bd高清日本在线观看 | 天天干天天拍天天射天天添天天爱 | 三级成人影院 | 88av视频在线 | 久久国产午夜精品理论片34页 | 久久国产乱子伦精品免费看 | 亚洲伊人久久大香线蕉结合 | 国产成人一区二区三中文 | 狠狠躁夜夜躁人人爽天天miya | 狼狼狼色精品视频在线播放 | 羞羞漫画喷水漫画yy漫画 | 欧美高清一区 | 黄乱色伦短篇小说h | 免费国产高清精品一区在线 | 久久免费手机视频 | 国产日韩欧美一区二区 | 黄 色 成 年人网站 黄 色 成 年人在线 | 欧美爽爽爽爽爽爽视频 | 教官的好爽好深h片段 | 日日躁夜夜躁狠狠天天 | 四虎影音在线观看 | 免费观看理论片毛片 | 色多多黄 | 四虎成人欧美精品在永久在线 | 亚洲伊人久久综合影院2021 | 国产美女视频免费 | 丁香六月五月婷婷 | 日韩精品一区二区三区免费视频 | 亚洲伊人精品综合在合线 | 天天狠天天天天透在线 |