欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

星環(huán)科技創(chuàng)始人孫元浩:大模型在特定領(lǐng)域只是本科生,有3個限制

澎湃新聞記者 邵文
2023-05-27 21:24
來源:澎湃新聞
? 未來2% >
聽全文
字號

·“大模型雖然在理解人類自然語言、歸納生成文本圖像上有驚人的表現(xiàn),但它無法理解行業(yè)術(shù)語,也不能執(zhí)行行業(yè)的特定任務(wù),更無法針對行業(yè)做分析、推理和決策?!?/u>

·“向量數(shù)據(jù)庫就是大語言模型的海馬體(存放記憶)。它的基本功能是把非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)成高維向量,然后提供進(jìn)一步的搜索。”

星環(huán)科技創(chuàng)始人、CEO孫元浩。

“當(dāng)我們用大模型在行業(yè)中落地的時候,很快就發(fā)現(xiàn)了一個挑戰(zhàn)——大模型雖然在理解人類自然語言、歸納生成文本圖像上有驚人的表現(xiàn),但它無法理解行業(yè)術(shù)語,也不能執(zhí)行行業(yè)的特定任務(wù),更無法針對行業(yè)做分析、推理和決策。”5月26日,星環(huán)科技(688031.SH)創(chuàng)始人、CEO孫元浩在上海舉行的向星力·未來數(shù)據(jù)技術(shù)峰會(FDTC)上談到,“在特定領(lǐng)域中,大模型還不能像一個專家一樣,它目前只相當(dāng)于一個本科生或本科低年級的水平,只能作為一個實習(xí)生,專業(yè)知識庫以及行業(yè)深度知識的缺乏,讓它沒辦法解決特定行業(yè)的業(yè)務(wù)問題?!?/p>

為何如此?孫元浩認(rèn)為其原因是,不管是通用模型還是微調(diào)后的行業(yè)大模型,目前都面臨3個限制:

第一,訓(xùn)練需要時間,而且時間比較長,可能會有半年或一年。但在訓(xùn)練后,資訊、實時新聞、市場行情等快速變化的信息無法內(nèi)置到模型中,需要一個外部的機(jī)制和存儲去存放實時信息。

第二,不管是通用還是行業(yè)大模型,輸入都有限制,這個限制取決于它的算力和工程化難度。所以一般來說,大模型的輸入都有token(字符)的設(shè)置,GPT-3的限制是4096個token(標(biāo)識符),相當(dāng)于大概1024個漢字;GPT-4是大概24000多個漢字,32000多個token。也就意味著,如果要把一個上市公司的年報全部放進(jìn)去,可能就超過這個限制,不能進(jìn)行分析。所以,需要一個外掛存儲來存放這些輸入的信息。

第三,因為大模型有時精準(zhǔn)度不夠,出現(xiàn)“幻覺”,所以需要一個知識庫來校正結(jié)果,需要一個機(jī)制來補充大模型,讓它能夠給出準(zhǔn)確的答案和更實時的信息。

向量數(shù)據(jù)庫就是大語言模型的海馬體

“向量數(shù)據(jù)庫(vector databases)承擔(dān)了中間存儲的角色?!睂O元浩認(rèn)為,向量數(shù)據(jù)庫就是大語言模型的海馬體(存放記憶)。它的基本功能是把非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)成高維向量,然后提供進(jìn)一步的搜索。

伴隨著AI大模型的應(yīng)用需求提升,向量數(shù)據(jù)庫也成為最近的投資熱點。在今年3月的英偉達(dá)GTC大會上,黃仁勛首次提及向量數(shù)據(jù)庫,并強(qiáng)調(diào)對于構(gòu)建專有大型語言模型的組織而言,向量數(shù)據(jù)庫至關(guān)重要。

據(jù)東北證券研報介紹,向量數(shù)據(jù)庫是專門用來存儲和查詢向量的數(shù)據(jù)庫,其存儲的向量來自于對文本、語音、圖像、視頻等的向量化,它的一個很重要的功能是拓展大模型的時間邊界和空間邊界。擴(kuò)展時間邊界指,向量數(shù)據(jù)庫能夠使大模型擁有“長期記憶”??臻g邊界指,向量數(shù)據(jù)庫能夠協(xié)助解決目前企業(yè)最擔(dān)憂的大模型泄露隱私問題。

“大語言模型興起之后,以其為基礎(chǔ)呈現(xiàn)了成千上萬種應(yīng)用,那么就需要一個高可擴(kuò)展的向量數(shù)據(jù)庫來存放更多信息,同時要能夠提供高速檢索。因為大語言模型本身受限于算力,它的計算邏輯是一直預(yù)測下一個單詞,所以算力需求比較大,速度會變慢,要提供毫秒級的響應(yīng),才能跟得上響應(yīng)速度?!睂O元浩說。

向量數(shù)據(jù)庫的工作原理可以理解為:第一,把最新的信息、經(jīng)常變化的信息(如產(chǎn)品信息、市場行情信息、供應(yīng)鏈信息)、以及個人相關(guān)信息(如分析習(xí)慣,如對一只股票的分析步驟、看哪些基本面等)幾類信息放進(jìn)向量數(shù)據(jù)庫;第二,放數(shù)據(jù)的過程中,通過嵌入(embedding,將一個內(nèi)容實體映射為低維向量,從而可以獲得內(nèi)容之間的相似度)把它變成一個高維向量(向量為幾百維到幾千維,現(xiàn)在通常是1536維)。

最后,當(dāng)提問或與大模型對話時,先把這個問題轉(zhuǎn)成高維向量,進(jìn)行語義搜索,找到相關(guān)的信息,然后再把它拼接成提示詞發(fā)給大語言模型,最后語言模型生成答案。

讓大模型變成行業(yè)專家

利用向量數(shù)據(jù)庫和圖數(shù)據(jù)庫(可以高效地存儲和查詢節(jié)點之間的關(guān)系和屬性,應(yīng)用在社交網(wǎng)絡(luò)、知識圖譜等場景),即可構(gòu)建特定領(lǐng)域大模型的應(yīng)用。

孫元浩在現(xiàn)場演示,“這個是我們目前用的70億參數(shù)的開源大模型,我們問它中糧集團(tuán)今年的玉米收儲價是多少?它不知道。我們再問它,新希望生產(chǎn)豬飼料的主要合作上下游企業(yè)有哪些?它也只是泛泛地回答,沒有行業(yè)知識。我們用農(nóng)業(yè)知識圖譜等補充以后,它可以立刻告訴你最新的收儲價是3元人民幣,以及這個價格的影響。另外,它也直接回答了豬飼料主要的供應(yīng)商是正大集團(tuán)?!?/p>

通過這樣一個工具,就可以解決大模型的幾個大問題:第一,把實時的知識、變化的知識放到大模型中。第二,校正結(jié)果的準(zhǔn)確性,極大提升精度,即使不經(jīng)過微調(diào),也可以利用工具去構(gòu)建這樣的知識圖譜,增強(qiáng)大模型的能力。

在未來數(shù)據(jù)技術(shù)峰會上,星環(huán)科技也推出了這一工具。據(jù)孫元浩介紹,這一工具的前端可以組織成智能客服的顯示,也可以是API(應(yīng)用程序編程接口)的顯示。中間層提供知識圖譜的構(gòu)建工具,提供樣本倉庫、向量數(shù)據(jù)庫和圖數(shù)據(jù)庫。末端即金融行業(yè)大模型“無涯”,以及可作為數(shù)據(jù)查詢和分析的智能助手的“求索”大模型。

在現(xiàn)場演示中,“無涯”可以“回答”金融量化領(lǐng)域的各類問題,例如政策和研報分析、新聞解讀、輿情分析等,能夠?qū)€股、債券、基金、商品等各類市場事件進(jìn)行復(fù)盤和推演。

“求索”大模型則作為數(shù)據(jù)查詢和分析的智能助手,為數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)及業(yè)務(wù)人員提供服務(wù),希望讓非專業(yè)用戶在不需要學(xué)習(xí)和掌握數(shù)據(jù)庫編程語言的前提下,就可以通過自然語言按需查詢數(shù)據(jù)。

星環(huán)科技成立于2013年,2022年10月在科創(chuàng)板掛牌上市,大數(shù)據(jù)平臺和分布式數(shù)據(jù)庫是其核心產(chǎn)品。

“未來在每一個領(lǐng)域,如金融、政府、能源、交通等,我認(rèn)為都需要誕生很多領(lǐng)域或行業(yè)的大模型,它們具有專家的能力,能夠在上面構(gòu)造復(fù)雜的應(yīng)用?!睂O元浩說。

    責(zé)任編輯:鄭潔
    校對:劉威
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司