新華網(wǎng)北京2月13日電 題:戴文淵:“百模大戰(zhàn)”不是太多,而是遠(yuǎn)遠(yuǎn)不夠
記者 陳聽雨
每位即將分娩的孕產(chǎn)婦都可能面臨一項(xiàng)重要抉擇,順產(chǎn)還是剖腹產(chǎn)?在醫(yī)學(xué)高度發(fā)達(dá)的今天,這個(gè)決定往往會(huì)在孕期的最后才做出,且很大程度上依賴醫(yī)生的豐富經(jīng)驗(yàn)。
然而,在長(zhǎng)春市婦產(chǎn)醫(yī)院,帶著對(duì)生命的敬畏,醫(yī)生通過AI技術(shù)更精確地預(yù)測(cè)新生兒體重,為分娩方式提供更科學(xué)的決策支持。
醫(yī)生將收過往集到的所有孕婦體檢指標(biāo)數(shù)據(jù)輸入電腦中,最終構(gòu)建出“新生兒體重預(yù)測(cè)模型”。這一模型能夠提高胎兒體重估值的準(zhǔn)確度,在這個(gè)過程中,一切由AI自動(dòng)完成,這真的可靠嗎?
結(jié)果出乎醫(yī)生的意料。
原本依靠經(jīng)驗(yàn)預(yù)估的新生兒體重誤差,最高可達(dá)1斤左右(新生兒體重平均6-7斤);而應(yīng)用“新生兒體重預(yù)測(cè)模型”后,所有案例的誤差幾乎被控制在了200克以內(nèi),比臨床醫(yī)學(xué)已經(jīng)達(dá)到的精確度更高。
“新生兒體重預(yù)測(cè)模型”由長(zhǎng)春市婦產(chǎn)醫(yī)院的醫(yī)生基于人工智能企業(yè)第四范式的AutoML技術(shù)及產(chǎn)品構(gòu)建。在第四范式創(chuàng)始人、CEO戴文淵看來,人工智能時(shí)代,企業(yè)需要新技術(shù)的賦能,從而需要人工智能技術(shù)公司,這是時(shí)代賦予第四范式的機(jī)遇,“毫無疑問,我們抓住了這個(gè)機(jī)遇?!贝魑臏Y說。
穿過第四范式頗具科幻感的環(huán)形展廳,仿佛穿越了人工智能發(fā)展的數(shù)次潮起與變革,AI大模型、生成式AI技術(shù)在2023年引爆全球,2024年國(guó)內(nèi)市場(chǎng)迅速掀起“百模大戰(zhàn)”,2025年“百模大戰(zhàn)”開啟下半場(chǎng),對(duì)此,戴文淵在接受新華網(wǎng)科技頻道獨(dú)家專訪時(shí)說,“AI大模型是需要數(shù)據(jù)灌溉的,是整個(gè)時(shí)代,是國(guó)家的廣闊市場(chǎng)給我們創(chuàng)造了機(jī)遇?!?/p>
圖為在第四范式創(chuàng)始人、CEO戴文淵接受新華網(wǎng)專訪
從算力競(jìng)爭(zhēng)到高質(zhì)量數(shù)據(jù)競(jìng)爭(zhēng)
除醫(yī)學(xué)領(lǐng)域,AI技術(shù)還在更多其他領(lǐng)域有著廣泛的落地應(yīng)用。戴文淵舉例說,比如利用AI幫助商業(yè)銀行實(shí)現(xiàn)反欺詐。在引入AI之前,大部分銀行由專家撰寫反欺詐的業(yè)務(wù)規(guī)則,在過去幾十年的時(shí)間內(nèi),這些業(yè)務(wù)規(guī)則大致累積了上千條,這意味著,當(dāng)一筆交易發(fā)生時(shí),銀行會(huì)通過上千條規(guī)則來判斷這筆交易是否存在欺詐。
“AI技術(shù)在賦能銀行時(shí),我們將過去十幾年的數(shù)據(jù)全部交給AI去分析,AI在其中發(fā)現(xiàn)了大概20億條規(guī)律,從1000到20億,對(duì)于整個(gè)行業(yè)是一個(gè)巨大的進(jìn)步?!贝魑臏Y說,每一年,都有成百上千個(gè)不同但類似的案例在各行各業(yè)發(fā)生,把業(yè)務(wù)的規(guī)模做得越來越大,AI的參數(shù)量做得越來越大,模型做得越來越準(zhǔn),讓業(yè)務(wù)效果變得越來越好。
在戴文淵看來,人工智能產(chǎn)業(yè)的主基調(diào)一直是快速向前發(fā)展,“對(duì)于中國(guó)AI行業(yè)來說,到了越來越好的階段,進(jìn)入越來越適合的發(fā)展節(jié)奏?!?/p>
對(duì)此他詳細(xì)解釋,前幾年,因?yàn)橛行?shù)據(jù)量尚未被充分開發(fā),所以只要把算力往上加,模型的效果就能繼續(xù)提升。但近年來,很多AI大模型都遇到了瓶頸,加算力效果并不提升。這是因?yàn)椋墒紸I非常需要純凈的數(shù)據(jù),要讓模型提升,就需要輸入越來越多且越來越好的數(shù)據(jù)。如果新輸入的一批數(shù)據(jù)比原先的數(shù)據(jù)質(zhì)量差,很可能數(shù)據(jù)越多,模型的質(zhì)量反而變差。
“中國(guó)AI的優(yōu)勢(shì)在哪?在產(chǎn)業(yè),有AI真正可以落地的需求。雖然我們的算力資源可能不具有絕對(duì)優(yōu)勢(shì),但現(xiàn)階段,算力已不再是最核心的瓶頸,AI發(fā)展的瓶頸已從算力瓶頸轉(zhuǎn)變?yōu)楦哔|(zhì)量數(shù)據(jù)的瓶頸,進(jìn)入到高質(zhì)量數(shù)據(jù)的競(jìng)爭(zhēng)后,就會(huì)進(jìn)入中國(guó)AI產(chǎn)業(yè)喜歡的節(jié)奏?!贝魑臏Y說。
他認(rèn)為,之所以中國(guó)AI產(chǎn)業(yè)能大有作為,是因?yàn)橹袊?guó)市場(chǎng)的行業(yè)門類齊全,各行業(yè)AI落地的需求巨大?!爸灰盐覀兊乃懔Τ浞峙芷饋恚诿總€(gè)細(xì)分賽道,我們的目標(biāo)都是提升有效參數(shù)量,有效參數(shù)越多,模型越準(zhǔn),業(yè)務(wù)就會(huì)越好,這樣就形成了良性閉環(huán),在每個(gè)賽道我們都要設(shè)計(jì)出這樣的良性閉環(huán)?!?/p>
“100個(gè)大模型,遠(yuǎn)遠(yuǎn)不夠”
截至2024年7月,我國(guó)已完成備案并上線的生成式AI大模型數(shù)量接近200個(gè)。2024年1至11月,大模型相關(guān)中標(biāo)項(xiàng)目的盤點(diǎn)結(jié)果顯示,國(guó)內(nèi)大模型中標(biāo)項(xiàng)目共728個(gè),中標(biāo)總金額為17.1億元,分別是2023年全年數(shù)據(jù)的3.6倍、2.6倍?!鞍倌4髴?zhàn)”打響,大模型賽道的競(jìng)爭(zhēng)進(jìn)入卷生態(tài)、拼獲客的階段。
“我認(rèn)為‘百模大戰(zhàn)’不是壞事,是好事。在很多國(guó)家不會(huì)出現(xiàn)‘百模大戰(zhàn)’,因?yàn)楦揪筒豢赡芾?00個(gè)AI團(tuán)隊(duì)。在中國(guó)能‘百模大戰(zhàn)’甚至‘千模大戰(zhàn)’,說明中國(guó)有人才,雖然現(xiàn)在中國(guó)的人口紅利開始消退,但受過高等教育的人口紅利正在崛起?!贝魑臏Y說。
如今,千行百業(yè)都在基于自身核心業(yè)務(wù)對(duì)AI的需求向更具體的應(yīng)用層轉(zhuǎn)變,這些轉(zhuǎn)變的背后,蘊(yùn)藏著企業(yè)對(duì)有效的AI產(chǎn)品賦能自身核心價(jià)值的真實(shí)需求。
“我認(rèn)為各行業(yè)的人士,首先應(yīng)該思考的是行業(yè)需要什么,企業(yè)自身的核心競(jìng)爭(zhēng)力是什么?而不是先問應(yīng)該買多少塊卡,模型參數(shù)量做到多少?!贝魑臏Y以零售業(yè)舉例稱,比如零售企業(yè)的目標(biāo)是提升供應(yīng)鏈效率,那么確定目標(biāo)定后,要看供應(yīng)鏈效率提升需要什么樣的AI模型,建立這樣AI模型,需要什么樣的數(shù)據(jù),這些數(shù)據(jù)需要什么樣的算法,算法需要跑在多大的算力上,這樣逐層梳理清楚, AI也就在這個(gè)產(chǎn)業(yè)落地,并且創(chuàng)造價(jià)值了?!?/p>
從AI賦能千行百業(yè)智能化轉(zhuǎn)型的角度來看,戴文淵信心十足,“我們的產(chǎn)業(yè)門類是齊全的,規(guī)模是巨大的,這兩點(diǎn)分別對(duì)應(yīng)著有需求和有數(shù)據(jù),百模大‘戰(zhàn)’根本就不成立,如果只有100個(gè)大模型,對(duì)中國(guó)來說其實(shí)是太少了,遠(yuǎn)遠(yuǎn)不夠?!?/p>
“不期待超級(jí)英雄”
戴文淵曾打過比方說,“可以把當(dāng)前的人工智能技術(shù)視為一名實(shí)習(xí)生,初期工作成果可能并不完美,但他們確實(shí)能夠分擔(dān)部分工作,AI的學(xué)習(xí)到達(dá)一定階段后,或許就能勝任更加復(fù)雜和重要的工作任務(wù)。”
然而面對(duì)AI技術(shù)和工作模式的快速優(yōu)化與迭代,戴文淵卻并不期待現(xiàn)象級(jí)產(chǎn)品的誕生。
“我不否定現(xiàn)象級(jí)產(chǎn)品,如果能夠出現(xiàn)現(xiàn)象級(jí)產(chǎn)品,那一定是好的,但是我并不去期待這件事情的發(fā)生?!彼f,“有時(shí)候可能大家都希望橫空出世一個(gè)超級(jí)英雄,超越了過去的所有榜樣,但實(shí)際上,最終整個(gè)AI產(chǎn)業(yè)的蓬勃發(fā)展不可能靠一兩個(gè)人、一兩個(gè)產(chǎn)品,而是靠每一個(gè)人、在每一條細(xì)分賽道上辛勤耕耘?!?/p>
都說弱冠之年,尚不知虛名有何用。然而,戴文淵卻在2004代表上海交大獲得了ACM國(guó)際大學(xué)生程序設(shè)計(jì)競(jìng)賽總決賽冠軍,21歲便開始在國(guó)際計(jì)算機(jī)領(lǐng)域嶄露頭角。
作為上海交大2002級(jí)ACM班上最耀眼的明星,戴文淵深知,在人工智能領(lǐng)域,注定不止一顆閃閃發(fā)光的星。如今四十出頭的他,自認(rèn)為在AI行業(yè)已經(jīng)不算年輕人。
“每一代人都有自己的價(jià)值,現(xiàn)在的年輕人越來越厲害,環(huán)境越來越好,接受到的教育也是優(yōu)質(zhì)的,他們完全應(yīng)該比我們做得更好。而我需要做的,是能夠更好地支持更多優(yōu)秀的年輕人,第四范式發(fā)展到今天,很多重要成果都是一些剛剛畢業(yè)一兩年的員工做出的。在十幾、二十幾年前,這樣的人才在中國(guó)非常稀缺,但今天,我們國(guó)家已經(jīng)培養(yǎng)出了大量科班出身的AI人才,未來的高手就在他們中間?!贝魑臏Y說。