作者:京東零售 王家興
一、個(gè)人簡(jiǎn)介
我是21屆校招生,博士畢業(yè)于中國(guó)科學(xué)院-自動(dòng)化研究所。2021入職博士管培生,現(xiàn)任京東零售-技術(shù)研發(fā)與數(shù)據(jù)中心-智能平臺(tái)部-智能算法部-商品圖譜研發(fā)組算法應(yīng)用工程師。當(dāng)前我的工作焦點(diǎn)是低資源情況下大模型的訓(xùn)練與規(guī)模化應(yīng)用。近期發(fā)表頂級(jí)國(guó)際會(huì)議ICLR、AAAI和EMNLP各一篇,提交專(zhuān)利8項(xiàng)。
從學(xué)生到職場(chǎng)技術(shù)人,在這場(chǎng)充滿挑戰(zhàn)和機(jī)遇的修煉中,我走過(guò)很多彎路,也有一些粗淺的感悟。本文中給大家分享的觀點(diǎn)和解釋其實(shí)很多是拾人牙慧的。進(jìn)入公司以后接受到很多的培訓(xùn),對(duì)技術(shù)人在公司里的發(fā)展做了很好的總結(jié)。聽(tīng)完以后頗有感觸,發(fā)現(xiàn)自己實(shí)踐中犯過(guò)的錯(cuò)誤都被老師們指出來(lái)了,有很多困惑也得到了解答。下文的分享與諸君共勉。
二、行穩(wěn): 做好當(dāng)下,結(jié)果第一
讀書(shū)和加入京東以來(lái)的這十幾年,我感觸最深的一個(gè)點(diǎn)就是要做好當(dāng)下。我個(gè)人是一個(gè)思維比較跳脫,想法算是比較多的人。總是喜歡瞎折騰,喜歡想東想西。有時(shí)候有點(diǎn) “這山望見(jiàn)那山高” 的意思。
我本科的專(zhuān)業(yè)是偏電力的控制工程,做過(guò)那個(gè)電動(dòng)汽車(chē)的無(wú)線充電。但是后來(lái)美國(guó)交換的時(shí)候看到了別人在做足式機(jī)器人控制,這個(gè)東西對(duì)于當(dāng)時(shí)的我來(lái)說(shuō)簡(jiǎn)直是太酷了,再加上當(dāng)時(shí)Boston Dynamics的人形機(jī)器人爆火。我就趕緊選上了機(jī)器人學(xué),以及后續(xù)的非線性控制的課程。 但是這個(gè)控制課到后面就是比較抽象難于理解的非線性微分方程和微分幾何了,比較艱深了。這時(shí)候大概就是15、16年了,AI開(kāi)始火起來(lái)了,我又一想,哎,搞機(jī)器人大腦好像比搞身體更有想象力啊,然后就開(kāi)始機(jī)器學(xué)習(xí)。后來(lái)讀研究生,讀博士我其實(shí)仍然還延續(xù)著類(lèi)似的做法,一開(kāi)始做應(yīng)用、做推薦。然后又覺(jué)得貝葉斯方法通用,常青樹(shù),開(kāi)始研究貝葉斯方法。然后又是一些moment matching 方法, 有g(shù)lobal optima,有全局解,很棒啊。這樣看起來(lái)是涉獵廣泛但實(shí)際上卻是淺嘗輒止。本科時(shí)期或許還可以混得過(guò)去,到了研究生期間問(wèn)題就暴露無(wú)遺了。因?yàn)楝F(xiàn)在的要求不是比誰(shuí)知識(shí)更廣博,不是通過(guò)組合一些已有的東西去組成一個(gè)似是而非的東西,而是真正地要深入地去鉆研,去解決一個(gè)問(wèn)題,要用結(jié)果來(lái)說(shuō)話。就是因?yàn)檫@樣一直處在選題、權(quán)衡、調(diào)整的循環(huán)中,我文章就出的很慢啊,讀博的整個(gè)過(guò)程前期放飛自我,后期真的是壓力山大。這是我親身實(shí)踐過(guò)的彎路,也是我讀書(shū)階段給我最大的教訓(xùn):確定好當(dāng)下要做的事情,明確一個(gè)目標(biāo),就要絕不動(dòng)搖地把重點(diǎn)放在努力執(zhí)行上,用最終的結(jié)果去說(shuō)話。
很巧的是,來(lái)到公司以后,聽(tīng)了公司技術(shù)專(zhuān)家的培訓(xùn)課程,老師也提到了這樣的一句話: “這個(gè)世界上根本沒(méi)有正確的選擇,我們只不過(guò)是要努力奮斗使當(dāng)初的選擇變得正確。” 我個(gè)人還是很被觸動(dòng)的。雖然也有說(shuō)法說(shuō) “選擇比努力更重要”的,但是對(duì)我這樣現(xiàn)階段技術(shù)人來(lái)說(shuō),多數(shù)情況都是在當(dāng)下有明確的需求任務(wù)、或者目前信息還不足以進(jìn)行完美預(yù)見(jiàn)的,那這樣的話踏實(shí)專(zhuān)心干活就好了。這樣一種立足當(dāng)下,腳踏實(shí)地的態(tài)度可讓我減少大量無(wú)意義的內(nèi)耗,專(zhuān)注于工作,事事有回應(yīng),件件有著落。解決好業(yè)務(wù)需求,去交付結(jié)果并贏得認(rèn)可,才能成為一個(gè)比較靠譜的人。
三、致遠(yuǎn):業(yè)務(wù)為本、技術(shù)驅(qū)動(dòng)
那作為一個(gè)同時(shí)也比較有理想的技術(shù)人,我們也不僅僅只做安排好的事情,低頭耕地,也會(huì)抬頭看天。我總會(huì)聽(tīng)到“技術(shù)驅(qū)動(dòng)” 這個(gè)詞。看到新聞里各種技術(shù)創(chuàng)新的政策引導(dǎo),比如今年7月浙江省的這個(gè)《關(guān)于引導(dǎo)企業(yè)從“產(chǎn)品驅(qū)動(dòng)”向“技術(shù)驅(qū)動(dòng)”創(chuàng)新模式轉(zhuǎn)型,強(qiáng)化企業(yè)核心技術(shù)創(chuàng)新能力的建議》;聽(tīng)到劉總提到技術(shù)驅(qū)動(dòng)是降低成本,提高效率和體驗(yàn)的重要手段;看到比如推薦系統(tǒng)這樣的技術(shù)已經(jīng)極大地改變了現(xiàn)代信息傳遞的模式和通路。但是實(shí)際工作中,好像很多時(shí)候我們經(jīng)常是在接各種各樣的需求,在各個(gè)排期之間奔波,似乎離技術(shù)驅(qū)動(dòng)這樣的“星辰大海”比較遙遠(yuǎn);這個(gè)問(wèn)題其實(shí)也困擾了我很久,后來(lái)接受了公司的各種培訓(xùn)以及Leader的指導(dǎo)后終于可能開(kāi)始初窺門(mén)徑。
公司解決問(wèn)題的整體流程是業(yè)務(wù)-產(chǎn)品-研發(fā),即業(yè)務(wù)運(yùn)營(yíng)本身的需求提到產(chǎn)品,產(chǎn)品與研發(fā)設(shè)計(jì)解決方案,然后以產(chǎn)品的形式返回給業(yè)務(wù)使用。初看下來(lái)研發(fā)確實(shí)是承接需求的一方,但是如果作為研發(fā)我們?cè)谕瓿蓸I(yè)務(wù)需求的時(shí)候,嘗試去深入理解業(yè)務(wù)邏輯,思考當(dāng)前業(yè)務(wù)需求的來(lái)源是什么,后面還可能會(huì)出現(xiàn)什么問(wèn)題,從技術(shù)的角度看是否有散點(diǎn)的需求可以合并解決,從后面走到前面,想到前面,就可能可以實(shí)現(xiàn)業(yè)務(wù)需求與技術(shù)探究的有機(jī)結(jié)合。就會(huì)給我們技術(shù)人以更大施展和騰挪的空間。
去年開(kāi)始,我開(kāi)始接觸一個(gè)重點(diǎn)項(xiàng)目。 在當(dāng)時(shí)建設(shè)系統(tǒng)的時(shí)候,為保證輸出的質(zhì)量,會(huì)對(duì)重保的部分?jǐn)?shù)據(jù)結(jié)果進(jìn)行人工審核。這一時(shí)期其實(shí)我們的主要需求是優(yōu)化準(zhǔn)召,但是有人工審核這肯定是就是未來(lái)可以優(yōu)化的點(diǎn)嘛,結(jié)合當(dāng)時(shí)大語(yǔ)言模型發(fā)展如火如荼發(fā)展的態(tài)勢(shì),我們嘗試了基于LLM訓(xùn)練判別器來(lái)進(jìn)行自動(dòng)預(yù)審核過(guò)濾來(lái)降低人工審核的成本。這個(gè)其實(shí)一定程度上說(shuō)我們是走在了業(yè)務(wù)需求的前面,因?yàn)樾时旧磉€不是當(dāng)下業(yè)務(wù)亟待解決的問(wèn)題。但是業(yè)務(wù)方也還是非常樂(lè)于見(jiàn)到我們做這樣子的嘗試,給了我們很多的空間和支持。
模型判別可以獲得令人滿意的效果,然而,這仍不足以大規(guī)模應(yīng)用。由于采用了大語(yǔ)言模型作為基礎(chǔ),模型推理耗時(shí)嚴(yán)重,使用A-100推理1000W條數(shù)據(jù)約需接近50h。為此,我們又主動(dòng)對(duì)模型進(jìn)行了蒸餾壓縮,將其壓縮六倍+,而精度幾乎不下降。 成果也得以應(yīng)用到了很多個(gè)比較重要的業(yè)務(wù)場(chǎng)景。雖然這只是一個(gè)比較小的case哈,但是對(duì)我們來(lái)說(shuō)它是我針對(duì)業(yè)務(wù)運(yùn)營(yíng)進(jìn)行技術(shù)驅(qū)動(dòng)的一次重要嘗試,當(dāng)然這還是一個(gè)比較初級(jí)的實(shí)踐優(yōu)化了系統(tǒng)的一個(gè)小環(huán)節(jié)。一定程度上展現(xiàn)了“想在業(yè)務(wù)前面”的價(jià)值。所以說(shuō),主動(dòng)、深入理解業(yè)務(wù)邏輯,預(yù)見(jiàn)業(yè)務(wù)發(fā)展的潛在需求,可以為后續(xù)技術(shù)手段的探究和運(yùn)用留出比較大的空間,方便讓技術(shù)的力量滲透到業(yè)務(wù)的每一個(gè)角落。
四、致遠(yuǎn):技術(shù)突破,行業(yè)影響
以上是從技術(shù)驅(qū)動(dòng)業(yè)務(wù)的角度的一個(gè)小小的感悟,對(duì)于我們個(gè)人技術(shù)能力的提升和突破來(lái)講,我們多少都有一些技術(shù)使命感,就希望我們做出來(lái)一個(gè)技術(shù)點(diǎn),在行業(yè)上是特別領(lǐng)先的。那么如何去在自己的領(lǐng)域上進(jìn)行一些創(chuàng)新突破,提升自己,以及公司的技術(shù)影響。這個(gè)是一個(gè)很系統(tǒng)性,很復(fù)雜的工程,需要廣博的基礎(chǔ)知識(shí)、很好的提煉問(wèn)題的能力、獨(dú)到的解決思路、持之以恒的努力等等。在這一點(diǎn)上我也在摸索和向大家學(xué)習(xí)中,僅分享持續(xù)學(xué)習(xí)和技術(shù)問(wèn)題提煉兩個(gè)小點(diǎn)來(lái)拋轉(zhuǎn)引玉一下吧。
持續(xù)學(xué)習(xí): 作為技術(shù)人永遠(yuǎn)不能忽視技術(shù)能力的提升。特別是比如像我們所在的AI這個(gè)快速變化的技術(shù)領(lǐng)域,持續(xù)學(xué)習(xí)非常必要的,專(zhuān)業(yè)力永遠(yuǎn)是立身之本。我們要密切關(guān)注行業(yè)動(dòng)向,了解并學(xué)習(xí)前沿科技,提升對(duì)技術(shù)的敏銳度,勇于嘗試和布局;積極參與學(xué)術(shù)活動(dòng)和技術(shù)論壇,保持同行的交流,避免陷入閉門(mén)造車(chē)的困境,長(zhǎng)期地去修煉好自己的內(nèi)功。
深入思考: 在日常工作中常有的一種感覺(jué)是支持業(yè)務(wù)的過(guò)程中找不到有價(jià)值的技術(shù)點(diǎn)去深究。 那這個(gè)時(shí)候感覺(jué)就還是需要對(duì)手上的業(yè)務(wù)進(jìn)行持續(xù)、深入的思考了。京東的平臺(tái)很大,業(yè)務(wù)場(chǎng)景很復(fù)雜,其實(shí)抽象出很有意義的探究問(wèn)題的概率是蠻大的。 就比如之前遇到的一個(gè)業(yè)務(wù)問(wèn)題,一個(gè)看似簡(jiǎn)單的二分類(lèi)問(wèn)題,其實(shí)也蘊(yùn)含著很多很有意義的技術(shù)點(diǎn),比如他的正、負(fù)樣本天然地就嚴(yán)重不均衡,很難直接訓(xùn)練模型用于正例的抽取,這就是非常經(jīng)典的label imbalance問(wèn)題。 我們那個(gè)問(wèn)題中判別是成對(duì)進(jìn)行的,要兩兩判別兩個(gè)SKU中間是不是存在某種聯(lián)系,可以將prompt和商品標(biāo)題緩存來(lái)加速模型的推理,這就蘊(yùn)含著最近LLM推理很火的Prefix Cache思想。訓(xùn)練好的模型上線使用還有模型輕量化等等一系列后續(xù)的任務(wù)。這都是我們進(jìn)行突破的機(jī)會(huì)。經(jīng)過(guò)仔細(xì)的分析、解構(gòu)和抽象,很多業(yè)務(wù)問(wèn)題是包含有很深刻的、值得討論的技術(shù)問(wèn)題的。用這樣的實(shí)際問(wèn)題切入進(jìn)行深究,很多時(shí)候會(huì)比在研究機(jī)構(gòu)那種follow paper型的搞法效率更高、理解更到位。京東給我們提供了足夠大的舞臺(tái),我們接下來(lái)要看怎么把這個(gè)表演去完成。
我在做大模型應(yīng)用的過(guò)程中就被模型訓(xùn)練速度慢困擾了很久。因?yàn)槲覀冇蟹浅6嗟膱?chǎng)景有訓(xùn)練的需求,待訓(xùn)練模型參數(shù)量很大,訓(xùn)練數(shù)據(jù)很多,我們還需要做大量的實(shí)驗(yàn)來(lái)獲得最優(yōu)的策略設(shè)置。在計(jì)算資源緊張的情況下還真的是很頭疼。在模型固定的情況下,業(yè)務(wù)實(shí)踐中通常會(huì)隨機(jī)采樣部分?jǐn)?shù)據(jù)訓(xùn)練來(lái)緩解這個(gè)問(wèn)題。但是更深入地思考后,就會(huì)出現(xiàn)新的疑問(wèn):這些方式是選取樣本的合理策略嗎?能保證原有模型效果的保留嗎?還有沒(méi)有更好的方式?基于這樣的一個(gè)問(wèn)題和這樣的一個(gè)思考,結(jié)合大量相關(guān)工作的啟發(fā),我們?cè)O(shè)計(jì)了一種新的動(dòng)態(tài)數(shù)據(jù)選擇的方法。僅保留信息量最大的數(shù)據(jù)子集進(jìn)行訓(xùn)練來(lái)減少計(jì)算消耗,實(shí)現(xiàn)降本提速。隨后也從理論上證明了這樣訓(xùn)練模型大概率最終會(huì)收斂到與常規(guī)訓(xùn)練相同的損失,確保了其可行性。這個(gè)工作也被頂級(jí)會(huì)議ICLR錄用了。
但是還沒(méi)有結(jié)束,我們還可以更進(jìn)一步。大模型效果與訓(xùn)練樣本量的冪率關(guān)系(Power Scaling Law)是海量算力需求的核心因素。如圖所示,橫軸是訓(xùn)練的樣本量,縱軸是驗(yàn)證損失。增加10^8訓(xùn)練數(shù)據(jù),模型Loss僅下降0.05。這一規(guī)律意味著任何進(jìn)一步的減少誤差嘗試都可能需要增加一個(gè)數(shù)量級(jí)的樣本。既然上面我們發(fā)現(xiàn)用少量的樣本訓(xùn)練也可以達(dá)到接近的效果,那么是不是可以通過(guò)數(shù)據(jù)選擇來(lái)突破冪率形式,實(shí)現(xiàn)如下圖所示的指數(shù)形式的新Scaling Law呢?那這樣就是非常有影響力的問(wèn)題了。
最后,雖然今天聊了很多技術(shù)驅(qū)動(dòng)和創(chuàng)新,但我們不能進(jìn)行不切實(shí)際的創(chuàng)新,還要站在業(yè)務(wù)的視角思考技術(shù)的價(jià)值。技術(shù)驅(qū)動(dòng)并非單純創(chuàng)新探究, 重點(diǎn)仍是交付價(jià)值;技術(shù)影響也非紙上談兵或拿著錘子找釘子,而是發(fā)源與對(duì)實(shí)際業(yè)務(wù)問(wèn)題的探究。
五、未來(lái)期望
以上就是我的一些小小的心得。 那么隨著大模型和類(lèi)通用智能技術(shù)的出現(xiàn),我們正處于一場(chǎng)技術(shù)革命的前沿。現(xiàn)在是時(shí)候扎根在業(yè)務(wù)應(yīng)用中。在京東這個(gè)廣闊的平臺(tái)去實(shí)現(xiàn)自己的價(jià)值,以技術(shù)來(lái)驅(qū)動(dòng)生產(chǎn)環(huán)節(jié)優(yōu)化、流程升級(jí)以及產(chǎn)品更新。最終實(shí)現(xiàn)集團(tuán)“以技術(shù)為本,致力于更高效和可持續(xù)的世界”的使命。
審核編輯 黃宇
-
大模型
+關(guān)注
關(guān)注
2文章
3062瀏覽量
3908
發(fā)布評(píng)論請(qǐng)先 登錄
電子穩(wěn)像器 / 視頻去抖
思考驅(qū)動(dòng)創(chuàng)新,創(chuàng)新驅(qū)動(dòng)發(fā)展:基于假設(shè)(Assumption)的思考技術(shù)
創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略下的實(shí)施戰(zhàn)術(shù):創(chuàng)新思考技術(shù)
中國(guó)智造 行穩(wěn)致遠(yuǎn)
英特爾的六大技術(shù)支柱:打造最具領(lǐng)導(dǎo)力產(chǎn)品的“根基”
港口無(wú)人駕駛需要行穩(wěn)致遠(yuǎn),也要唯快不破
致遠(yuǎn)OA系統(tǒng)排名狀況_致遠(yuǎn)OA辦公系統(tǒng)怎么選
郭永航市長(zhǎng)一行來(lái)訪致遠(yuǎn)電子

芯所向 行致遠(yuǎn) —— 集睿致遠(yuǎn)2023年產(chǎn)品發(fā)布會(huì)成功舉辦

行穩(wěn)致遠(yuǎn) 厚積薄發(fā) | 一圖看懂概倫電子2023年三季報(bào)

中興通訊首席運(yùn)營(yíng)官謝峻石:行穩(wěn)致遠(yuǎn),進(jìn)而有為
踏歌智行榮登“2023 Venture 50 風(fēng)云榜” 行穩(wěn)致遠(yuǎn) 未來(lái)可期

喜訊 | 行穩(wěn)致遠(yuǎn),進(jìn)而有為!ZLG致遠(yuǎn)電子榮獲“中國(guó)汽車(chē)軟件領(lǐng)軍企業(yè)”

評(píng)論