文心一言VS天工大模型，究竟誰才是國內“首個”ChatGPT？

最近，昆侖萬偉和百度因為最近大火的大語言模型“聯手”了。
4月17日，昆侖萬偉正式啟動“天宮”大模型，并于當天開放測試邀請。當時昆侖萬偉的對外宣傳語言是“中國第一個真正實現智能出現的國產語言模式”
有意思的是，百度發布文心的話時，其輸出的宣傳語言是“國內第一家做大語種模型產品的大型科技互聯網公司” 。
表面上看，兩家公司的宣傳中心不一樣，用詞也不一樣。看似平靜，其實核心是在爭一個“第一” 。
為什么要爭“第一”？除了能力比較和市場競爭，還具有搞活股價、提高市值的功能。百度新聞發布當天，港股股價上漲15% ，昆侖萬偉也是如此。官方公告第二天就達到了7.68% 。
然而，誰是中國第一？
從項目的披露時間來看，百度從去年9月份左右開始在內部推廣文心依依項目，并于今年2月初正式發布該項目的消息，3月中旬正式向國外官方公布文心依依。
昆侖萬偉官方并未公布具體項目開工時間，但從2020年開始，昆侖萬偉已經開始布局AIGC領域。
從技術角度來看，文心的話背后，是百度在人工智能領域的四層架構和全棧布局，包括底層芯片、深度學習框架、大模型和頂層搜索應用。此外，在人工智能領域深耕多年的百度，擁有工業級知識增強文學模型ERNIE，具備跨模式、跨語言的深度語義理解和生成能力。
昆侖萬偉也有大模型四要素:數據、計算能力、算法、大參數語言模型。按照昆侖萬偉的說法，天宮是雙千億參數訓練的結果——千億預訓練基地模型和千億RLHF模型。
不過既然兩家公司的基礎能力似乎不相上下，我們就把兩家公司放在一起，試試“內功” 。
01 。
漢語語義理解能力
昆侖萬偉對外展示的技術路徑是現實的。引入模型卡羅搜索樹算法后，天工團隊在語義理解和話題轉換方面的能力有所提升。
在這樣的背景下，我們先和天宮玩了成語接龍游戲。但是天宮的完成度不好，連成語接龍是什么都不懂。
成語接龍中文心詞的表現優于天宮模型。
接著，我們向文易欣顏和天工大模拋出了一個問題——“寫一篇類似《人間世》的宏大主題、展現中國歷史變遷的小說提綱， 1000字左右。”對于這個問題，文心怡和天工都把問題的焦點放在了“宏大主題”和“歷史變革”這兩個關鍵詞上。
結果兩家公司產生的內容并沒有達到我們最初的預期。
上圖是“天模”，下圖是一個字。
這個問題，也許是因為我們給了一定的誤導，所以兩個學校產生的答案都不盡如人意。但天工比文心的文字略勝一籌，因為文心直接把“歷史的變遷”解釋為朝代的更替。
天工的回答雖然也是文不對題，但是有人物有朝代，內容的可操作性和延展性明顯比文心的話強。
把問題拉回到類似《在人間》的小說大綱，我們換了個提問的角度，接連寫文章:《在人間》講了一個什么樣的故事，那你能不能寫一個類似題材的小說大綱？1000字左右。
天工的表現在提取重點、聯想寫作、話題的連續性等方面都不錯。
但是，文心一句話就“開了個小缺口” 。
文心一個字的回答明顯錯了。但是，我們再次把問題拋給文心，重新生成了答案。這一次，文心回歸正軌，給出了相應的答案。
另外，我們也用三個連續的問題來問天宮。此前，我們在“大評測！ChatGPT，文心伊彥和巴德，誰更強？”，把同樣的問題給文欣怡，巴德，還有ChatGPT 。
可以說，天工對前兩個問題的回答與文心之前的回答不相上下，但對最后一首藏頭詩的理解還是有些偏差。
雖然文心的藏頭詩答得不好，但好在文心一個字就明白了“藏頭”的意思。但天宮似乎還沒有消化“藏頭”的意思。
02 。
邏輯思維能力
為了測試“邏輯推理”的能力，我們向天宮和文心拋出了這樣一個問題，那就是“如果貓能爬樹，狗也能。”
上圖是“天模”，下圖是一個字。
顯然，天宮和文心也陷入了對題目的誤解，或者說沒有完全理解題目的意思。不過這里需要強調的是，在公布的視頻中，關于雞兔同籠的問題，文欣怡和天工都有不錯的表現。
在溫燕的采訪人員會上，李彥宏就“雞和兔子在一個籠子里”的問題向文新提問。《文易欣言》在題目數據有誤的前提下，通過推理證明題目有問題。
這里需要注意的是，在這個邏輯推理中，ChatGPT的答案是天宮、文心伊彥、巴德四個模型中唯一正確的一個，并指出了貓和狗的區別，證明了貓會爬樹，狗不會。
除了測試邏輯能力，我們還會推測一個哲學問題，給天宮和文心發消息。
上圖是“天模”，下圖是一個字。
在哲學問題的理解上，天宮和文心差別不大，文心有點“人文” 。看完之后直接告訴我們該怎么做，更像是在和人說話，天宮的回答也更認真。
【文心一言VS天工大模型，究竟誰才是國內“首個”ChatGPT？】可以說，和天宮對話就像和老師對話，需要老師回答這個問題是什么。和文心對話更像和心理醫生對話，需要在解釋的基礎上給出建議。
03 。
編程能力
為了測試這兩個模型寫代碼的能力，我們問了一個很簡單的問題——X 2 = 5，y-3=7 ，輸出x y是多少？我們用java做了一個簡單的程序，得到了結果。
上圖是“天模”，下圖是一個字。
但顯然，這兩個模型給出的結果是有問題的。
不過，在其他評測稿件中，文嚴和天工在編程能力上的表現并不差。我們認為，目前這些大模型的能力并不穩定，精度需要在不斷的訓練中提高。
04 。
結論
綜上所述，文心的能力比較小，無論是文字還是大自然的壯舉。但更多的問題是，目前大模型每次生成的問題答案都存在一定的誤差。
相對于“第一”之爭，我們認為企業更重要的是提高大模型的能力和精度，找到更合適的場景實現商業化。
大模賽道越來越熱，大家都想做風口上的豬，但風口上能起飛的豬往往都是有備而來。
另外，要給國內的科技企業更多的信心。與國外的ChatGPT4相比，國內的大型車型還有一定的差距，但相信在不久的將來，這種差距會在競爭中逐漸縮小。國產大車型，未來可期。

文心一言VS天工大模型，究竟誰才是國內“首個”ChatGPT？

推薦閱讀

如何找尋自我

縫紉機調線器怎么安裝平車方法如何

強組詞強字組詞

火筍雞翅的做法（增肥食譜）

閨女生日快樂祝福語朋友圈

LV請來潮牌設計師做藝術總監，看中的是啥

老虎豆怎么做好吃老虎豆圖片怎樣弄來吃

暖氣有流水聲是什么原因

皮球是什么體

手機怎樣開通QQ空間

男生發mua說明 mua是什么意思

手指蓋凹陷怎么回事

對自己的生活失去掌控咋調整

小米10s怎么沒有月亮模式

我想找個偏僻的地方搞養殖！有沒有推薦的地方？

南京養老金認證上門服務怎么申請南京市養老金認證

如何評價豬場閹割豬？

最后一個字是豹的成語

泰山散酒怎么樣

貓發情的聲音(貓發情的叫聲)