文心一言VS天工大模型,究竟誰才是國內“首個”ChatGPT?

最近,昆侖萬偉和百度因為最近大火的大語言模型“聯手”了 。
4月17日,昆侖萬偉正式啟動“天宮”大模型,并于當天開放測試邀請 。當時昆侖萬偉的對外宣傳語言是“中國第一個真正實現智能出現的國產語言模式”
有意思的是,百度發布文心的話時,其輸出的宣傳語言是“國內第一家做大語種模型產品的大型科技互聯網公司” 。
表面上看,兩家公司的宣傳中心不一樣,用詞也不一樣 。看似平靜,其實核心是在爭一個“第一” 。
為什么要爭“第一”?除了能力比較和市場競爭,還具有搞活股價、提高市值的功能 。百度新聞發布當天 , 港股股價上漲15% , 昆侖萬偉也是如此 。官方公告第二天就達到了7.68% 。
然而,誰是中國第一?
從項目的披露時間來看,百度從去年9月份左右開始在內部推廣文心依依項目,并于今年2月初正式發布該項目的消息,3月中旬正式向國外官方公布文心依依 。
昆侖萬偉官方并未公布具體項目開工時間 , 但從2020年開始,昆侖萬偉已經開始布局AIGC領域 。
從技術角度來看,文心的話背后,是百度在人工智能領域的四層架構和全棧布局 , 包括底層芯片、深度學習框架、大模型和頂層搜索應用 。此外 , 在人工智能領域深耕多年的百度 , 擁有工業級知識增強文學模型ERNIE,具備跨模式、跨語言的深度語義理解和生成能力 。
昆侖萬偉也有大模型四要素:數據、計算能力、算法、大參數語言模型 。按照昆侖萬偉的說法,天宮是雙千億參數訓練的結果——千億預訓練基地模型和千億RLHF模型 。
不過既然兩家公司的基礎能力似乎不相上下,我們就把兩家公司放在一起,試試“內功” 。
01 。
漢語語義理解能力
昆侖萬偉對外展示的技術路徑是現實的 。引入模型卡羅搜索樹算法后,天工團隊在語義理解和話題轉換方面的能力有所提升 。
在這樣的背景下,我們先和天宮玩了成語接龍游戲 。但是天宮的完成度不好,連成語接龍是什么都不懂 。
成語接龍中文心詞的表現優于天宮模型 。
接著,我們向文易欣顏和天工大模拋出了一個問題——“寫一篇類似《人間世》的宏大主題、展現中國歷史變遷的小說提綱 , 1000字左右 。”對于這個問題,文心怡和天工都把問題的焦點放在了“宏大主題”和“歷史變革”這兩個關鍵詞上 。
結果兩家公司產生的內容并沒有達到我們最初的預期 。
上圖是“天模”,下圖是一個字 。
這個問題 , 也許是因為我們給了一定的誤導,所以兩個學校產生的答案都不盡如人意 。但天工比文心的文字略勝一籌 , 因為文心直接把“歷史的變遷”解釋為朝代的更替 。
天工的回答雖然也是文不對題,但是有人物有朝代,內容的可操作性和延展性明顯比文心的話強 。
把問題拉回到類似《在人間》的小說大綱,我們換了個提問的角度,接連寫文章:《在人間》講了一個什么樣的故事,那你能不能寫一個類似題材的小說大綱?1000字左右 。
天工的表現在提取重點、聯想寫作、話題的連續性等方面都不錯 。
但是,文心一句話就“開了個小缺口” 。
文心一個字的回答明顯錯了 。但是,我們再次把問題拋給文心,重新生成了答案 。這一次,文心回歸正軌 , 給出了相應的答案 。
另外,我們也用三個連續的問題來問天宮 。此前 , 我們在“大評測!ChatGPT,文心伊彥和巴德,誰更強?”,把同樣的問題給文欣怡,巴德,還有ChatGPT 。
可以說,天工對前兩個問題的回答與文心之前的回答不相上下 , 但對最后一首藏頭詩的理解還是有些偏差 。
雖然文心的藏頭詩答得不好,但好在文心一個字就明白了“藏頭”的意思 。但天宮似乎還沒有消化“藏頭”的意思 。
02 。
邏輯思維能力
為了測試“邏輯推理”的能力,我們向天宮和文心拋出了這樣一個問題,那就是“如果貓能爬樹 , 狗也能 。”
上圖是“天模”,下圖是一個字 。
顯然 , 天宮和文心也陷入了對題目的誤解,或者說沒有完全理解題目的意思 。不過這里需要強調的是 , 在公布的視頻中,關于雞兔同籠的問題 , 文欣怡和天工都有不錯的表現 。
在溫燕的采訪人員會上,李彥宏就“雞和兔子在一個籠子里”的問題向文新提問 。《文易欣言》在題目數據有誤的前提下,通過推理證明題目有問題 。
這里需要注意的是,在這個邏輯推理中,ChatGPT的答案是天宮、文心伊彥、巴德四個模型中唯一正確的一個 , 并指出了貓和狗的區別,證明了貓會爬樹 , 狗不會 。
除了測試邏輯能力,我們還會推測一個哲學問題,給天宮和文心發消息 。
上圖是“天模”,下圖是一個字 。
在哲學問題的理解上,天宮和文心差別不大 , 文心有點“人文” 。看完之后直接告訴我們該怎么做,更像是在和人說話,天宮的回答也更認真 。
【文心一言VS天工大模型,究竟誰才是國內“首個”ChatGPT?】可以說,和天宮對話就像和老師對話,需要老師回答這個問題是什么 。和文心對話更像和心理醫生對話,需要在解釋的基礎上給出建議 。
03 。
編程能力
為了測試這兩個模型寫代碼的能力,我們問了一個很簡單的問題——X 2 = 5,y-3=7 , 輸出x y是多少?我們用java做了一個簡單的程序,得到了結果 。
上圖是“天模”,下圖是一個字 。
但顯然 , 這兩個模型給出的結果是有問題的 。
不過 , 在其他評測稿件中,文嚴和天工在編程能力上的表現并不差 。我們認為 , 目前這些大模型的能力并不穩定,精度需要在不斷的訓練中提高 。
04 。
結論
綜上所述,文心的能力比較小,無論是文字還是大自然的壯舉 。但更多的問題是,目前大模型每次生成的問題答案都存在一定的誤差 。
相對于“第一”之爭,我們認為企業更重要的是提高大模型的能力和精度,找到更合適的場景實現商業化 。
大模賽道越來越熱,大家都想做風口上的豬 , 但風口上能起飛的豬往往都是有備而來 。
另外,要給國內的科技企業更多的信心 。與國外的ChatGPT4相比,國內的大型車型還有一定的差距,但相信在不久的將來 , 這種差距會在競爭中逐漸縮小 。國產大車型,未來可期 。

    推薦閱讀