實(shí)例分析關(guān)于百合網(wǎng)的混合云、大數(shù)據(jù)與機(jī)器學(xué)習(xí)實(shí)踐
大小:0.5 MB 人氣: 2017-10-10 需要積分:1
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
目標(biāo)與挑戰(zhàn)
百合網(wǎng)是一家實(shí)名認(rèn)證的婚戀網(wǎng)站,創(chuàng)立至今十年,目前注冊(cè)用戶9500萬(wàn)。擔(dān)任百合網(wǎng)CTO的楊溢欣,負(fù)責(zé)百合網(wǎng)的線上技術(shù),以及部分項(xiàng)目的產(chǎn)品、運(yùn)營(yíng)等工作,下轄團(tuán)隊(duì)成員100多人,包括客戶端、服務(wù)端的研發(fā)工程師,算法研究員,測(cè)試、運(yùn)維團(tuán)隊(duì),產(chǎn)品、運(yùn)營(yíng)團(tuán)隊(duì)等。
目前,百合網(wǎng)在探索如何將品牌擴(kuò)展到整個(gè)婚戀生態(tài)圈,除了婚紗照、婚禮、情感咨詢、婚介等,甚至還有金融、理財(cái)、婚禮成本相關(guān)的規(guī)劃。
業(yè)務(wù)的快速擴(kuò)張也意味著技術(shù)部門(mén)的新挑戰(zhàn)。楊溢欣認(rèn)為,對(duì)于百合網(wǎng),基于良好的技術(shù)視野設(shè)計(jì)架構(gòu)、采用敏捷開(kāi)發(fā)控制進(jìn)度、優(yōu)化團(tuán)隊(duì)間溝通等方面都很重要。基于公司億級(jí)的用戶群和婚戀產(chǎn)業(yè)鏈領(lǐng)導(dǎo)者的定位,百合網(wǎng)技術(shù)部門(mén)強(qiáng)調(diào)數(shù)據(jù)驅(qū)動(dòng),要求團(tuán)隊(duì)勇于創(chuàng)新:
用快速、敏捷的方式完成產(chǎn)品需求,并注意各種技術(shù)積累,以讓各功能、算法和模塊在不同的項(xiàng)目里可以復(fù)用,提升開(kāi)發(fā)效率;通過(guò)技術(shù)驅(qū)動(dòng)的方式,嘗試在婚戀、情感這種領(lǐng)域,用互聯(lián)網(wǎng)、機(jī)器學(xué)習(xí)、多媒體的技術(shù)去創(chuàng)新。
目標(biāo)的實(shí)現(xiàn)并不容易。具體而言,挑戰(zhàn)主要來(lái)自以下幾個(gè)方面:
用戶量大、活躍度高引起的各種服務(wù)器的性能和穩(wěn)定性問(wèn)題,尤其是雙11、情人節(jié)這樣的時(shí)間節(jié)點(diǎn);作為嚴(yán)肅交友應(yīng)用,用戶畫(huà)像、匹配度和雙向選擇相關(guān)的算法問(wèn)題;產(chǎn)品需求的快速迭代問(wèn)題。
問(wèn)題的最終解決,也意味著云計(jì)算和大數(shù)據(jù)技術(shù)從開(kāi)始探索到成熟應(yīng)用。楊溢欣將百合網(wǎng)解決問(wèn)題的技術(shù)架構(gòu)分三個(gè)階段:
業(yè)務(wù)決定技術(shù)的架構(gòu),業(yè)務(wù)變更頻繁,技術(shù)與業(yè)務(wù)的耦合度很高,但是很少的人就可以維護(hù)一個(gè)大型業(yè)務(wù);
分層分平臺(tái)的架構(gòu),將共性功能抽象成組件,多個(gè)組件組成平臺(tái),與業(yè)務(wù)層分離,這樣前端業(yè)務(wù)開(kāi)發(fā)更靈活,后端管理也集中,可以做到服務(wù)治理,業(yè)務(wù)負(fù)載隨時(shí)可擴(kuò)容;
大數(shù)據(jù)及虛擬化的架構(gòu),數(shù)據(jù)體量促使架構(gòu)必須升級(jí),基于大數(shù)據(jù)的計(jì)算融匯到各個(gè)業(yè)務(wù)中,系統(tǒng)部署的復(fù)雜度增大,所以采用虛擬化技術(shù),實(shí)現(xiàn)程序構(gòu)建,打包,發(fā)布,部署,容錯(cuò)自動(dòng)化,基礎(chǔ)層引入云,實(shí)現(xiàn)彈性部署。
百合網(wǎng)混合云實(shí)踐
在楊溢欣看來(lái),云計(jì)算在最近兩三年已經(jīng)進(jìn)入成熟期,現(xiàn)在的云計(jì)算可以成為開(kāi)展新業(yè)務(wù)的很好的技術(shù)平臺(tái),成為百合網(wǎng)婚戀生態(tài)圈的一個(gè)基石。
百合網(wǎng)各種業(yè)務(wù)的發(fā)展非常快,對(duì)快速部署、對(duì)可擴(kuò)展性的要求非常高。云計(jì)算支持極快地完成從開(kāi)發(fā)到部署的工作,能聚焦到真正的算法、架構(gòu)上,不用太操心底層的東西。
云計(jì)算提供一種很靈活地分配資源的方式,特別是新的業(yè)務(wù)開(kāi)始的時(shí)候,可以先分配一些比較小的資源,隨著業(yè)務(wù)的擴(kuò)張,可以迅速擴(kuò)展到很大的服務(wù)容量,既可以優(yōu)化成本結(jié)構(gòu),又無(wú)需擔(dān)心突發(fā)的高并發(fā)流量導(dǎo)致業(yè)務(wù)中斷。
云計(jì)算可以說(shuō)是成長(zhǎng)型公司業(yè)務(wù)發(fā)展的一個(gè)基石,會(huì)為運(yùn)維和各種算法、技術(shù)上的實(shí)現(xiàn)提供很扎實(shí)的基礎(chǔ),在未來(lái)的三到五年之內(nèi),絕大部分的互聯(lián)網(wǎng)應(yīng)用且使用云計(jì)算。
技術(shù)選型
實(shí)踐階段,綜合考慮技術(shù)穩(wěn)定性、服務(wù)品質(zhì)、成本、主機(jī)以外的附加服務(wù)等因素,百合網(wǎng)調(diào)研測(cè)試過(guò)國(guó)內(nèi)外所有主流的云計(jì)算技術(shù),最終認(rèn)為騰訊云能提供穩(wěn)定的技術(shù)、高質(zhì)量的服務(wù),綜合水平位于行業(yè)的頂級(jí)位置。另一方面,百合網(wǎng)經(jīng)營(yíng)多年,已經(jīng)有大量的服務(wù)器、存儲(chǔ)資源以及數(shù)據(jù),所以需要對(duì)混合云部署和應(yīng)用的支持。
騰訊云發(fā)布的“黑石”產(chǎn)品非常適合已有大量托管服務(wù)器、又希望擁抱云計(jì)算的公司。此外騰訊還開(kāi)放了內(nèi)部使用的一些技術(shù)和基礎(chǔ)設(shè)施,以及一些SaaS服務(wù)。由于騰訊和百合都是社交類應(yīng)用,面對(duì)類似的技術(shù)問(wèn)題,我們的技術(shù)和基礎(chǔ)設(shè)施復(fù)用很方便,比如IM消息、安全、反垃圾、多媒體、CDN等方面都有合作。
在楊溢欣看來(lái),騰訊云的一個(gè)特色是社交出身,百合也是做社交出身的,所以雙方應(yīng)用的底層有一部分技術(shù)是相通的。以CDN為例,騰訊有大量看圖片跟視頻的需求,百合也是一樣,騰訊在全國(guó)布了大量的節(jié)點(diǎn),終端節(jié)點(diǎn)離用戶是很近,將節(jié)點(diǎn)以及積累的圖片/視頻加速技術(shù)開(kāi)放出來(lái)成為CDN服務(wù),既可以節(jié)約成本,也可以為用戶提供更好的網(wǎng)絡(luò)。
上云挑戰(zhàn)與解決
當(dāng)然,由于具體業(yè)務(wù)的差異性,上云的挑戰(zhàn)不可避免,這就需要云服務(wù)團(tuán)隊(duì)專業(yè)的技術(shù)支持。楊溢欣介紹了兩個(gè)例子。
在最早討論云服務(wù)遷移方案時(shí),百合網(wǎng)發(fā)現(xiàn)考慮到已有服務(wù)器和托管機(jī)房,引入云服務(wù)時(shí)在網(wǎng)絡(luò)架構(gòu)上有很大的挑戰(zhàn)——可能導(dǎo)致增加大量成本、或者導(dǎo)致網(wǎng)絡(luò)品質(zhì)下降,并增加單點(diǎn)故障率。百合網(wǎng)要求整個(gè)遷移過(guò)程穩(wěn)定、可逆,保證現(xiàn)場(chǎng)出問(wèn)題可以回滾。后來(lái)雙方的架構(gòu)師開(kāi)了一天會(huì),做頭腦風(fēng)暴,并在深夜確定了一套穩(wěn)健而高效的方案,其中的部分需求也融入到了騰訊云后來(lái)的產(chǎn)品里。
百合網(wǎng)使用了騰訊云的CDN服務(wù),以讓全國(guó)各地都能有最快的網(wǎng)絡(luò)連接速度。而同時(shí),百合使用了WebP壓縮編碼,其效率比傳統(tǒng)的JPEG高30%。但WebP格式比較新,騰訊云一開(kāi)始并不支持。雙方又一次技術(shù)合作,騰訊云在很短的時(shí)間內(nèi)完成了相關(guān)的開(kāi)發(fā)、支持和部署。解決這些挑戰(zhàn),不僅提升了百合的服務(wù)質(zhì)量和開(kāi)發(fā)效率,也通過(guò)騰訊云的技術(shù)演進(jìn),對(duì)所有的互聯(lián)網(wǎng)公司提供了潛在的便利。
上云經(jīng)驗(yàn)
從與騰訊云的合作結(jié)果,百合網(wǎng)認(rèn)為,騰訊云是一家獨(dú)特的云計(jì)算技術(shù)提供商,有獨(dú)特的一套技術(shù)體系,特別是社交相關(guān)的技術(shù),能夠?yàn)閯?chuàng)業(yè)的公司會(huì)做各種各樣的功能,同時(shí)也具有專業(yè)的團(tuán)隊(duì)和服務(wù)。
對(duì)于企業(yè)如何選擇云計(jì)算技術(shù),楊溢欣認(rèn)為,最好的辦法是參考各種互聯(lián)網(wǎng)公司公開(kāi)的架構(gòu),仔細(xì)思考這些架構(gòu)設(shè)計(jì)的原理。因?yàn)樵朴?jì)算的架構(gòu)跟傳統(tǒng)的架構(gòu)是不太一樣的,一般傳統(tǒng)的書(shū)或者是講座會(huì)稍微偏落后一些,一定要看一下最新的公司,特別是創(chuàng)業(yè)公司,因?yàn)閯?chuàng)業(yè)公司是最早擁抱云計(jì)算的公司,在一、兩年之內(nèi)快速地起來(lái),他們的架構(gòu)實(shí)現(xiàn)對(duì)創(chuàng)業(yè)公司很有幫助的。
而對(duì)于云計(jì)算技能的提升以及云計(jì)算問(wèn)題的解決,楊溢欣表示,可以去參加云計(jì)算服務(wù)商的開(kāi)發(fā)者大會(huì),會(huì)有很多過(guò)來(lái)人分享在云計(jì)算使用過(guò)程的架構(gòu),以及實(shí)施中遇到的很多問(wèn)題,這對(duì)于技術(shù)選型和問(wèn)題解決來(lái)說(shuō)都會(huì)有啟發(fā)。
大數(shù)據(jù)與人工智能實(shí)踐
大數(shù)據(jù)對(duì)于百合網(wǎng)的作用,楊溢欣用iOS之于蘋(píng)果的重要性來(lái)類比。百合網(wǎng)提出的心靈匹配算法(可以看到兩個(gè)人心靈的契合程度),不僅僅是一個(gè)心理學(xué)模型,更是一個(gè)算法模型。然而,婚戀不同于電商,要求你情我愿,雙向匹配的實(shí)現(xiàn)難度更高。
匹配模型與實(shí)現(xiàn)
“心靈匹配算法”是基于百合網(wǎng)與北師大心理學(xué)院、中科院心理所、北京大學(xué)人格與社會(huì)心理學(xué)研究所多年的研究成果,集合機(jī)器智能學(xué)習(xí)理論,基于中國(guó)用戶的心理特征、興趣愛(ài)好以及海量行為數(shù)據(jù),采用聚類算法結(jié)合協(xié)同過(guò)濾算法搭建的心靈匹配智能推薦引擎。
楊溢欣認(rèn)為,婚戀匹配的難度是電商推薦難度的平方:如果電商基于user、item推薦成功的概率是P,則雙向匹配成功的概率則是P*P。此外,電商推薦的item是嚴(yán)重冷熱不均的,而百合需要保證item的被推薦次數(shù)處于冷熱合理的區(qū)間。
對(duì)百合網(wǎng)來(lái)說(shuō),對(duì)用戶匹配的難度和技術(shù)含量相當(dāng)高。所以我們采用了一些很大量的大數(shù)據(jù)的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的手段,比如說(shuō)我們的用戶屬性,直接提供的用戶屬性共有160多項(xiàng),加上用戶行為分析得出來(lái)的數(shù)據(jù),可能是1000項(xiàng)左右的數(shù),每個(gè)用戶有這樣的屬性,包括有大量的用戶行為。我們嘗試這些用戶行為和屬性,為用戶尋找到最匹配的另一半。
百合網(wǎng)的算法需要考慮基本的用戶畫(huà)像、單向推薦模型(即經(jīng)典的user/item推薦,基于用戶屬性和用戶行為),用戶的活躍、溝通方式模型(基于用戶行為),雙方成功建立聯(lián)系的模型(基于行為與一部分屬性),以及用戶對(duì)收發(fā)信的偏好模型等等因素。其中一部分環(huán)節(jié)可以參考標(biāo)準(zhǔn)、流行的模型,比如“單向推薦”模型結(jié)合了協(xié)同過(guò)濾、決策樹(shù)等。有一部分技術(shù)是獨(dú)特的,百合網(wǎng)正在申請(qǐng)專利。
談及數(shù)據(jù)的預(yù)處理的挑戰(zhàn)和處理,楊溢欣介紹:一來(lái)百合一直在做新功能和產(chǎn)品體驗(yàn)的改進(jìn),導(dǎo)致不同時(shí)期,用戶的特征和行為會(huì)有天然的區(qū)別;二來(lái)百合有將近一億用戶,用戶的性別、年齡段、職業(yè)和受教育程度等都決定了有不同的用戶訴求和使用習(xí)慣。所以在處理的時(shí)候要采用一些分類器和離群點(diǎn)檢測(cè)的方法,結(jié)合信息熵,針對(duì)性的調(diào)整數(shù)據(jù)、采樣方式和模型。
深度學(xué)習(xí)應(yīng)用
在深度學(xué)習(xí)方面,百合網(wǎng)也嘗試了一些應(yīng)用,目前主要是在圖像領(lǐng)域,人臉識(shí)別、匹配等等,這是DL非常擅長(zhǎng)的領(lǐng)域,他認(rèn)為這些對(duì)婚戀應(yīng)用來(lái)講也很重要。百合網(wǎng)嘗試了人臉識(shí)別和人臉打分,供擇偶參考,同時(shí)還有美顏的嘗試(取代PS),不過(guò)需要保證讓網(wǎng)友可控,并保證不會(huì)太失真。
另外,百合網(wǎng)也正在設(shè)計(jì)將深度學(xué)習(xí)應(yīng)用于自然語(yǔ)言文本方面的一些工作。楊溢欣介紹,婚戀匹配方面,深度學(xué)習(xí)處于原理論證階段,因?yàn)樯婕暗降奶卣鞅容^具體,并且需要考慮社會(huì)學(xué)、心理學(xué)和產(chǎn)品體驗(yàn)的一些問(wèn)題。
大數(shù)據(jù)架構(gòu)
大數(shù)據(jù)架構(gòu),百合網(wǎng)基于開(kāi)源的Hadoop體系,包括HDFS、YARN、MapReduce、HBase、Hive、Pig等,實(shí)時(shí)處理的部分用Spark,這和流行的框架基本一致。
事實(shí)上,百合網(wǎng)使用的大部分基礎(chǔ)設(shè)施都來(lái)自開(kāi)源項(xiàng)目,也都是業(yè)界流行的,從LVS、HAProxy、MongoDB、Redis、Kafka、ZooKeeper、Spark、Mahout到Hadoop的一套東西,等等。正在引入Docker,最近還關(guān)注在深度學(xué)習(xí)中使用Google新開(kāi)源的TensorFlow。
此外,百合網(wǎng)也在探索公有云上的大數(shù)據(jù)。楊溢欣認(rèn)為,公有云上的大數(shù)據(jù)分析系統(tǒng)是非常有前途的,因?yàn)槔碚撋现v它可以讓計(jì)算和負(fù)載均勻很多,并采用專用硬件,形成較大的成本優(yōu)勢(shì),還能通過(guò)彈性服務(wù)提供更快的速度和擴(kuò)展性。
不過(guò)云上的大數(shù)據(jù)系統(tǒng)需要更加成熟——百合網(wǎng)在試用中發(fā)現(xiàn)包括AWS的EMR在內(nèi),穩(wěn)定性、特別是使用較長(zhǎng)時(shí)間之后的性能都有進(jìn)步空間。
未來(lái):支持婚戀VR的探索
2016年初,百合網(wǎng)還投資了一家叫做蘭亭數(shù)字的VR公司,希望讓VR技術(shù)在婚戀行業(yè)之中得到應(yīng)用。百合網(wǎng)認(rèn)為,VR技術(shù)在婚戀體驗(yàn)上有更深一層的效果,例如婚禮全景記錄,會(huì)很好的一個(gè)效果。這同樣對(duì)基礎(chǔ)IT提出更多的需求。
百合網(wǎng)現(xiàn)在的發(fā)展目標(biāo)是做好婚戀全產(chǎn)業(yè)鏈,從戀愛(ài)到婚姻,有非常多的線上線下用戶需求,需要圍繞大數(shù)據(jù),提供敏捷、高彈性的技術(shù)架構(gòu)。既有性能、數(shù)據(jù)量、計(jì)算量方面的要求,又需要保證研發(fā)速度。既需要控制成本,又需要高可擴(kuò)展性。這其實(shí)是云計(jì)算比較擅長(zhǎng)的事情。
楊溢欣表示,百合網(wǎng)對(duì)云計(jì)算有比較高的期望。套用“面向方面”的概念,希望一些公用的、可伸縮的應(yīng)用層功能可以通過(guò)SaaS等方式更多的提供出來(lái),百合愿意與騰訊共同開(kāi)發(fā)。這樣可以讓互聯(lián)網(wǎng)應(yīng)用開(kāi)發(fā)專注于其獨(dú)特的技術(shù)部分,敏捷、快速、穩(wěn)定、高效,提高整個(gè)行業(yè)的生產(chǎn)效率。
?
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
實(shí)例分析關(guān)于百合網(wǎng)的混合云、大數(shù)據(jù)與機(jī)器學(xué)習(xí)實(shí)踐下載
相關(guān)電子資料下載
- IBM Security可落地經(jīng)驗(yàn)助企業(yè)構(gòu)筑現(xiàn)代化安全屏障 123
- 如何創(chuàng)建FPGA控制的機(jī)器人手臂 49
- 機(jī)器學(xué)習(xí)需要掌握的九種工具盤(pán)點(diǎn) 16
- 淺談污水處理廠智慧水務(wù)智能配電能效平臺(tái)的設(shè)計(jì)及應(yīng)用 30
- AI大模型對(duì)數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展趨勢(shì) 64
- 中軟國(guó)際AIGC模型工廠、場(chǎng)景案例及“昇騰云+混合云一體機(jī)”方案成功發(fā)布 74
- Hugging Face被限制訪問(wèn) 404
- 《人工智能在指揮和控制系統(tǒng)中的決策支持》 133
- 生成式人工智能和機(jī)器學(xué)習(xí)正在這9個(gè)學(xué)科中打造未來(lái) 216
- 大規(guī)模個(gè)性化定制研究綜述! 271