- +1
實(shí)測(cè)完OpenAI的SearchGPT,我發(fā)現(xiàn)它有點(diǎn)不太聰明的樣子
原創(chuàng) 數(shù)字生命卡茲克 數(shù)字生命卡茲克
盼星星,盼月亮。
終于盼到了OpenAI的AI搜索SearchGPT的體驗(yàn)資格了。
一周期,SearchGPT在跳票了將近3個(gè)月之后,終于被正式官宣了。

我也是在看到的第一時(shí)間,申請(qǐng)了內(nèi)測(cè)資格。
OpenAI說(shuō),會(huì)在大概一周的時(shí)間里,逐步開(kāi)放給大家。
于是,我也在苦苦的等了一周以后,終于,發(fā)現(xiàn)自己。
還是沒(méi)等到。
畢竟我在OpenAI的各種內(nèi)測(cè)里,永遠(yuǎn)是最后一批。
但是,那首R(shí)ap怎么唱的來(lái)著,XX就是兄弟多?我雖然沒(méi)拿到,但是我的好朋友@毅恒拿到資格了呀,在知道消息的第一時(shí)間,我就去恬不知恥地找他借號(hào)了。
他也很痛快,直接給我發(fā)了一串字母。

唯有感動(dòng)。
在拿到號(hào)的那一瞬間,我就沐浴更衣,登上了他的號(hào),進(jìn)入了那個(gè)期待已久的,SearchGPT。
網(wǎng)址在此:https://chatgpt.com/search,如果沒(méi)有排隊(duì)的朋友,也可以第一時(shí)間去排隊(duì)一下。
一進(jìn)來(lái),就是一個(gè)極度簡(jiǎn)潔的巨大的搜索框。

右上角有個(gè)小彩蛋,一個(gè)小按鈕。

翻譯過(guò)來(lái)的意思就是,設(shè)為默認(rèn)搜索引擎。
這明晃晃的,就是要搶Google的飯碗嘛。
我們?cè)谒阉骺蚶?,隨便輸入一個(gè)問(wèn)題。
“2024年巴黎奧運(yùn)會(huì),截止北京時(shí)間2024年8月2日0點(diǎn),中國(guó)隊(duì)的獎(jiǎng)牌數(shù)量?”
這個(gè)對(duì)于實(shí)時(shí)性要求極高,對(duì)數(shù)據(jù)溯源的要求也極高,如果你去拆關(guān)鍵詞,搜很多的新聞報(bào)告,大概率就會(huì)錯(cuò),你必須理解這個(gè)問(wèn)題,真的去巴黎官網(wǎng)搜,去央視獎(jiǎng)牌榜,或者一些三方的實(shí)時(shí)更新的榜單搜,才可能會(huì)對(duì)。
我先把這個(gè)問(wèn)題的正確答案公布出來(lái),截止到8月2號(hào)0點(diǎn),總獎(jiǎng)牌數(shù)是21枚,11金7銀3銅,獎(jiǎng)牌榜第一。

獎(jiǎng)牌榜上實(shí)時(shí)數(shù)據(jù)雖然是22枚,但是有一銅其實(shí)是0點(diǎn)以后拿的,所以不算,正確答案是21枚。
我們先看一下其他AI搜索產(chǎn)品的情況。
Perplexity,直接躺平,6枚,咋地,你跟我這虛空吞金牌呢?

秘塔AI搜索,抓了8月1號(hào)早上8點(diǎn)38的新聞,然后非常確鑿地說(shuō)是19枚。

濃眉大眼的360AI搜索,也答錯(cuò)了,但是哥們好在知道自己沒(méi)抓到最新數(shù)據(jù),知道只抓到1號(hào)早上9點(diǎn)的數(shù)據(jù),所以抱歉了,雖然答錯(cuò),但是沒(méi)有出現(xiàn)幻覺(jué)。

最后,我們?cè)賮?lái)看看SearchGPT。
直接從奧運(yùn)會(huì)官網(wǎng)抓的數(shù)據(jù),完美正確。

而點(diǎn)進(jìn)去參考鏈接,我才赫然發(fā)現(xiàn),人官網(wǎng)明明寫(xiě)的是:22枚。


我在這兩個(gè)網(wǎng)頁(yè)所有地方,都沒(méi)有看到一個(gè)21這個(gè)數(shù)字。
我都懵了,我真的不知道,SearchGPT是如何如何判斷時(shí)間,避開(kāi)數(shù)字陷阱,得到了這個(gè)神乎其神的回答。
于是,我就追問(wèn)了他一下:“你的這個(gè)21枚數(shù)據(jù),是從哪得來(lái)的,請(qǐng)給我明確的信息源,和引用段落”
而SearchGPT,居然開(kāi)始,已讀亂回。
我心里隱隱有一種,不好的預(yù)感。
于是,我就把問(wèn)題改了一下,改成了“2024年巴黎奧運(yùn)會(huì),截止北京時(shí)間2024年8月2日1點(diǎn),中國(guó)隊(duì)的獎(jiǎng)牌數(shù)量?”
這道題的答案,想必朋友們都知道了,是22枚。
此時(shí),SearchGPT被Perplexity附身。
我又換了一種問(wèn)法,我再問(wèn):“2024年巴黎奧運(yùn)會(huì),截止目前最新時(shí)間,中國(guó)隊(duì)的獎(jiǎng)牌數(shù)量是多少?”

19枚......終于跟秘塔AI搜索同源了,答案質(zhì)量上,還不如360AI搜索,人家至少還會(huì)反思。
所以這個(gè)小實(shí)驗(yàn)發(fā)現(xiàn),8月2號(hào)0點(diǎn)那個(gè)21枚出神入化的精準(zhǔn)回答,根本不是SearchGPT多牛逼,而是單純的。
瞎貓碰到死耗子,純種的巧合。
心中瞬間對(duì)SearchGPT完成了祛魅。
當(dāng)然,這個(gè)問(wèn)題,畢竟是難倒所有AI搜索的殺手锏,大家都躺,你SearchGPT躺了也不算啥。
也不能這一個(gè)問(wèn)題,就一棒子把SearchGPT打死不是。
我又問(wèn)了其他一些問(wèn)題。
比如“中國(guó)經(jīng)濟(jì)特區(qū)有哪些”,SearchGPT又G了。
答案明明是7個(gè),卻只給我回答了5個(gè)。
又比如經(jīng)典問(wèn)題,“9.11和9.8誰(shuí)更大”

直接原地翻車(chē)。
不是哥們,你左邊明明有這么多的鏈接,你就不能參考一下嗎,非一個(gè)不用,直接用自己的模型能力進(jìn)行回答......

然后我又問(wèn):“蘋(píng)果iOS18最新的AI功能有什么”,不是哥們,我用中文問(wèn)問(wèn)題的,咱就是說(shuō),咱能翻譯一下再給我回答嗎......
比如我又問(wèn):“24年有關(guān)LLM Agent的論文”。

咱就是說(shuō),搜論文其實(shí)完全可以學(xué)一下人家,咱去arxiv來(lái)搜嘛,咱沒(méi)必要引用機(jī)器之心的文章你說(shuō)對(duì)不= =

再問(wèn):“給我推薦現(xiàn)在中國(guó)比較著名的精品咖啡”

行吧,你推薦了瑞幸,我們就是好兄弟。
整體而言,說(shuō)句實(shí)在話(huà),SearchGPT這玩意。
都不是瑕不掩瑜,是有點(diǎn)瑕瑜互見(jiàn),甚至瑜不掩瑕的意思。
翻下了X,發(fā)現(xiàn)拿到資格的,對(duì)SearchGPT評(píng)價(jià)也不是很高。

如果硬要我對(duì)SearchGPT這玩意做個(gè)總結(jié)的話(huà),我可能會(huì)這么評(píng)價(jià):
優(yōu)點(diǎn):
界面簡(jiǎn)潔,用戶(hù)體驗(yàn)舒適;
抓取的信息來(lái)源質(zhì)量較高,基本是權(quán)威媒體或官方信息源;
回答得直接,廢話(huà)少;
卡片生態(tài)做的挺豐富的,但是大部分都是國(guó)外的;
可以追問(wèn);
缺點(diǎn):
有些時(shí)候只能回復(fù)英文答案;
一些情況下對(duì)中文語(yǔ)義理解能力不夠;
準(zhǔn)確性著實(shí)一般,有時(shí)候搜到了東西但是不調(diào)用,相信自己的模型內(nèi)部知識(shí)。
在時(shí)間維度上的信息理解和信息抓取能力存在不足,不過(guò)這是通病了;
用戶(hù)體驗(yàn)不夠豐富,沒(méi)有腦圖、ppt之類(lèi)的(maybe也算是簡(jiǎn)潔的優(yōu)點(diǎn)?)
當(dāng)然,為了大概了解幾個(gè)主流的原生AI搜索產(chǎn)品的一些能力,我們也跟AI視頻、AI繪圖、AI PPT等等一樣,會(huì)做一個(gè)全面的評(píng)測(cè)。
測(cè)試的維度包括:實(shí)時(shí)性、準(zhǔn)確性、語(yǔ)義理解、中國(guó)特色數(shù)據(jù)、來(lái)源多樣性。當(dāng)然這是我自己瞎總結(jié)的野雞維度,僅給我自己做參考用。

不過(guò)表格沒(méi)做完。
所以,后面做完了,我會(huì)再單獨(dú)寫(xiě)一期。
AI搜索產(chǎn)品的全面評(píng)測(cè)。
希望可以給大家?guī)?lái)一些幫助。
以上,既然看到這里了,如果覺(jué)得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見(jiàn)。
原標(biāo)題:《實(shí)測(cè)完OpenAI的SearchGPT,我發(fā)現(xiàn)它有點(diǎn)不太聰明的亞子?!?/p>
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪(fǎng)問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線(xiàn): 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




