- +1
星環(huán)科技創(chuàng)始人孫元浩:大模型在特定領(lǐng)域只是本科生,有3個(gè)限制
·“大模型雖然在理解人類自然語(yǔ)言、歸納生成文本圖像上有驚人的表現(xiàn),但它無法理解行業(yè)術(shù)語(yǔ),也不能執(zhí)行行業(yè)的特定任務(wù),更無法針對(duì)行業(yè)做分析、推理和決策?!?/u>
·“向量數(shù)據(jù)庫(kù)就是大語(yǔ)言模型的海馬體(存放記憶)。它的基本功能是把非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)成高維向量,然后提供進(jìn)一步的搜索?!?/u>

星環(huán)科技創(chuàng)始人、CEO孫元浩。
“當(dāng)我們用大模型在行業(yè)中落地的時(shí)候,很快就發(fā)現(xiàn)了一個(gè)挑戰(zhàn)——大模型雖然在理解人類自然語(yǔ)言、歸納生成文本圖像上有驚人的表現(xiàn),但它無法理解行業(yè)術(shù)語(yǔ),也不能執(zhí)行行業(yè)的特定任務(wù),更無法針對(duì)行業(yè)做分析、推理和決策?!?月26日,星環(huán)科技(688031.SH)創(chuàng)始人、CEO孫元浩在上海舉行的向星力·未來數(shù)據(jù)技術(shù)峰會(huì)(FDTC)上談到,“在特定領(lǐng)域中,大模型還不能像一個(gè)專家一樣,它目前只相當(dāng)于一個(gè)本科生或本科低年級(jí)的水平,只能作為一個(gè)實(shí)習(xí)生,專業(yè)知識(shí)庫(kù)以及行業(yè)深度知識(shí)的缺乏,讓它沒辦法解決特定行業(yè)的業(yè)務(wù)問題。”
為何如此?孫元浩認(rèn)為其原因是,不管是通用模型還是微調(diào)后的行業(yè)大模型,目前都面臨3個(gè)限制:
第一,訓(xùn)練需要時(shí)間,而且時(shí)間比較長(zhǎng),可能會(huì)有半年或一年。但在訓(xùn)練后,資訊、實(shí)時(shí)新聞、市場(chǎng)行情等快速變化的信息無法內(nèi)置到模型中,需要一個(gè)外部的機(jī)制和存儲(chǔ)去存放實(shí)時(shí)信息。
第二,不管是通用還是行業(yè)大模型,輸入都有限制,這個(gè)限制取決于它的算力和工程化難度。所以一般來說,大模型的輸入都有token(字符)的設(shè)置,GPT-3的限制是4096個(gè)token(標(biāo)識(shí)符),相當(dāng)于大概1024個(gè)漢字;GPT-4是大概24000多個(gè)漢字,32000多個(gè)token。也就意味著,如果要把一個(gè)上市公司的年報(bào)全部放進(jìn)去,可能就超過這個(gè)限制,不能進(jìn)行分析。所以,需要一個(gè)外掛存儲(chǔ)來存放這些輸入的信息。
第三,因?yàn)榇竽P陀袝r(shí)精準(zhǔn)度不夠,出現(xiàn)“幻覺”,所以需要一個(gè)知識(shí)庫(kù)來校正結(jié)果,需要一個(gè)機(jī)制來補(bǔ)充大模型,讓它能夠給出準(zhǔn)確的答案和更實(shí)時(shí)的信息。
向量數(shù)據(jù)庫(kù)就是大語(yǔ)言模型的海馬體
“向量數(shù)據(jù)庫(kù)(vector databases)承擔(dān)了中間存儲(chǔ)的角色?!睂O元浩認(rèn)為,向量數(shù)據(jù)庫(kù)就是大語(yǔ)言模型的海馬體(存放記憶)。它的基本功能是把非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)成高維向量,然后提供進(jìn)一步的搜索。
伴隨著AI大模型的應(yīng)用需求提升,向量數(shù)據(jù)庫(kù)也成為最近的投資熱點(diǎn)。在今年3月的英偉達(dá)GTC大會(huì)上,黃仁勛首次提及向量數(shù)據(jù)庫(kù),并強(qiáng)調(diào)對(duì)于構(gòu)建專有大型語(yǔ)言模型的組織而言,向量數(shù)據(jù)庫(kù)至關(guān)重要。
據(jù)東北證券研報(bào)介紹,向量數(shù)據(jù)庫(kù)是專門用來存儲(chǔ)和查詢向量的數(shù)據(jù)庫(kù),其存儲(chǔ)的向量來自于對(duì)文本、語(yǔ)音、圖像、視頻等的向量化,它的一個(gè)很重要的功能是拓展大模型的時(shí)間邊界和空間邊界。擴(kuò)展時(shí)間邊界指,向量數(shù)據(jù)庫(kù)能夠使大模型擁有“長(zhǎng)期記憶”??臻g邊界指,向量數(shù)據(jù)庫(kù)能夠協(xié)助解決目前企業(yè)最擔(dān)憂的大模型泄露隱私問題。
“大語(yǔ)言模型興起之后,以其為基礎(chǔ)呈現(xiàn)了成千上萬(wàn)種應(yīng)用,那么就需要一個(gè)高可擴(kuò)展的向量數(shù)據(jù)庫(kù)來存放更多信息,同時(shí)要能夠提供高速檢索。因?yàn)榇笳Z(yǔ)言模型本身受限于算力,它的計(jì)算邏輯是一直預(yù)測(cè)下一個(gè)單詞,所以算力需求比較大,速度會(huì)變慢,要提供毫秒級(jí)的響應(yīng),才能跟得上響應(yīng)速度?!睂O元浩說。
向量數(shù)據(jù)庫(kù)的工作原理可以理解為:第一,把最新的信息、經(jīng)常變化的信息(如產(chǎn)品信息、市場(chǎng)行情信息、供應(yīng)鏈信息)、以及個(gè)人相關(guān)信息(如分析習(xí)慣,如對(duì)一只股票的分析步驟、看哪些基本面等)幾類信息放進(jìn)向量數(shù)據(jù)庫(kù);第二,放數(shù)據(jù)的過程中,通過嵌入(embedding,將一個(gè)內(nèi)容實(shí)體映射為低維向量,從而可以獲得內(nèi)容之間的相似度)把它變成一個(gè)高維向量(向量為幾百維到幾千維,現(xiàn)在通常是1536維)。
最后,當(dāng)提問或與大模型對(duì)話時(shí),先把這個(gè)問題轉(zhuǎn)成高維向量,進(jìn)行語(yǔ)義搜索,找到相關(guān)的信息,然后再把它拼接成提示詞發(fā)給大語(yǔ)言模型,最后語(yǔ)言模型生成答案。
讓大模型變成行業(yè)專家
利用向量數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù)(可以高效地存儲(chǔ)和查詢節(jié)點(diǎn)之間的關(guān)系和屬性,應(yīng)用在社交網(wǎng)絡(luò)、知識(shí)圖譜等場(chǎng)景),即可構(gòu)建特定領(lǐng)域大模型的應(yīng)用。
孫元浩在現(xiàn)場(chǎng)演示,“這個(gè)是我們目前用的70億參數(shù)的開源大模型,我們問它中糧集團(tuán)今年的玉米收儲(chǔ)價(jià)是多少?它不知道。我們?cè)賳査孪Ma(chǎn)豬飼料的主要合作上下游企業(yè)有哪些?它也只是泛泛地回答,沒有行業(yè)知識(shí)。我們用農(nóng)業(yè)知識(shí)圖譜等補(bǔ)充以后,它可以立刻告訴你最新的收儲(chǔ)價(jià)是3元人民幣,以及這個(gè)價(jià)格的影響。另外,它也直接回答了豬飼料主要的供應(yīng)商是正大集團(tuán)?!?/p>
通過這樣一個(gè)工具,就可以解決大模型的幾個(gè)大問題:第一,把實(shí)時(shí)的知識(shí)、變化的知識(shí)放到大模型中。第二,校正結(jié)果的準(zhǔn)確性,極大提升精度,即使不經(jīng)過微調(diào),也可以利用工具去構(gòu)建這樣的知識(shí)圖譜,增強(qiáng)大模型的能力。
在未來數(shù)據(jù)技術(shù)峰會(huì)上,星環(huán)科技也推出了這一工具。據(jù)孫元浩介紹,這一工具的前端可以組織成智能客服的顯示,也可以是API(應(yīng)用程序編程接口)的顯示。中間層提供知識(shí)圖譜的構(gòu)建工具,提供樣本倉(cāng)庫(kù)、向量數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù)。末端即金融行業(yè)大模型“無涯”,以及可作為數(shù)據(jù)查詢和分析的智能助手的“求索”大模型。
在現(xiàn)場(chǎng)演示中,“無涯”可以“回答”金融量化領(lǐng)域的各類問題,例如政策和研報(bào)分析、新聞解讀、輿情分析等,能夠?qū)€(gè)股、債券、基金、商品等各類市場(chǎng)事件進(jìn)行復(fù)盤和推演。
“求索”大模型則作為數(shù)據(jù)查詢和分析的智能助手,為數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)及業(yè)務(wù)人員提供服務(wù),希望讓非專業(yè)用戶在不需要學(xué)習(xí)和掌握數(shù)據(jù)庫(kù)編程語(yǔ)言的前提下,就可以通過自然語(yǔ)言按需查詢數(shù)據(jù)。
星環(huán)科技成立于2013年,2022年10月在科創(chuàng)板掛牌上市,大數(shù)據(jù)平臺(tái)和分布式數(shù)據(jù)庫(kù)是其核心產(chǎn)品。
“未來在每一個(gè)領(lǐng)域,如金融、政府、能源、交通等,我認(rèn)為都需要誕生很多領(lǐng)域或行業(yè)的大模型,它們具有專家的能力,能夠在上面構(gòu)造復(fù)雜的應(yīng)用。”孫元浩說。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




