歷時400多天，國產大模型全面趕超GPT-4？

2024-05-10 13:56 來源：A5專欄我來投稿撤稿糾錯

　阿里云優(yōu)惠券先領券再下單

稍微留意下近期的新聞，“趕超GPT-4”正在成為國產大模型的新熱點。

百度文心一言、商湯日日新以及阿里云剛剛發(fā)布的通義千問2.5，均已邁入“全面趕超GPT-4”陣營。

把時間線稍微拉長一些的話，過去大半年時間里，“超越GPT-4”的消息可謂屢見不鮮，即使在報道中刻意加上了多項基準、部分指標等前綴，依然賺足了眼球，成為國產大模型佐證自身能力的有力指標。

簡單做個復盤的話，國產大模型對GPT-4的追趕已經進行了400多天，其中“趕超進程”可以粗分為三個階段。

第一階段：部分性能超越GPT-4

2023年3月14日，OpenAI正式推出了GPT-4，彼時大多數國產大模型還未開放，少數內測大模型的比較對象還是GPT-3。作為業(yè)界標桿的GPT-4，就像是科幻照進了現(xiàn)實，被無數人捧上神壇。

但在短短半年后，GPT-4就出現(xiàn)在了國產大模型廠商的比較名單里。

2023年8月底，商湯科技對外公布了一則新進展：擁有1230億個參數的“書生·浦語”，在全球51個知名評測集共計30萬道問題集合上，測試成績排名全球第二，并在綜合考試agieval、知識問答commonsenseqa、閱讀理解和推理的十項評測中位列第一，分數超過風頭正盛的GPT-4。

2023年10月17日的“生成未來”發(fā)布會上，百度正式發(fā)布了文心大模型4.0版本，李彥宏在現(xiàn)場依次演示了大模型的理解、生成、邏輯和記憶四大核心能力的特點與應用場景。盡管沒有給出評測數據，李彥宏卻自信地表示：文心大模型4.0的綜合水平，“與GPT-4相比毫不遜色”。

國產大模型趕超GPT-4的序幕正式拉開，此后一兩個月里，不少大模型給了這樣的營銷口徑：整體能力已經不輸于GPT-3.5，并且在部分性能指標上開始超越GPT-4。

第二階段：整體性能逼近GPT-4

時間來到2024年初，國內的“百模大戰(zhàn)”進入收斂期，一些不被資本市場認可的大模型，漸漸成了一個數字，只有幾家科技大廠和獨角獸仍活躍在大模型一線。“活下來”的大模型，勢必要在能力上證明自己。

綜合性能逼近GPT-4，開始成為新的營銷話術。

2024年1月中旬的智譜AI技術開放日上，正式發(fā)布了新一代基座大模型GLM-4。按照智譜AI官方的說法：在權威的英文測試榜單中，GLM-4已經整體逼近GPT-4，平均能達到GPT-4 90%以上的水平，在個別項目上表現(xiàn)持平；而在國內企業(yè)更加看重的中文任務上，GLM-4的表現(xiàn)全面超過GPT-4。

同樣是在2024年1月，科大訊飛發(fā)布了星火認知大模型V3.5，在邏輯推理、語言理解、文本生成、數學答題、代碼、多模態(tài)等核心能力均顯著提升，其中語言理解、數學能力已經超過GPT-4 Turbo，代碼能力達到GPT-4 Turbo 96%，多模態(tài)理解達到GPT-4V 91%。“在中文理解方面，甚至遙遙領先。”

回頭來看，智譜AI和科大訊飛的營銷策略還是有些“保守”，百川智能在同一時間段發(fā)布的Baichuan 3，對外表示已經在CMMLU、GAOKAO等中文評測中超越GPT-4。

第三階段：全面趕超GPT-4 Turbo

2023年11月的OpenAI首屆開發(fā)者大會，GPT-4 Turbo可以說整個活動的焦點，不僅比GPT-4更聰明，文本處理的上限更高，推理的速度更快，價格也更便宜，國產大模型隨即迎來了新的比較對象。

先是2024年4月份發(fā)布的日日新5.0，擁有6000億參數，并在發(fā)布會上引用了OpenCompass的評測數據：日日新5.0達到或超越了GPT-4 Turbo版本，幾乎全方位碾壓了同期發(fā)布的 Llama 3-70B。

再然后就是阿里云剛剛發(fā)布的通義千問2.5，根據媒體報道中的說法：模型性能全面趕超GPT-4-Turbo，成為“地表最強”中文大模型；通義千問1100億參數開源模型在多個基準測評收獲最佳成績，超越Meta的Llama-3-70B，成為開源領域最強大模型。

可以篤定的是，日日新5.0和通義千問2.5只是個開始，后續(xù)將有更多國產大模型在能力上超越GPT-4-Turbo。

畢竟科大訊飛早已預熱了上半年發(fā)布星火認知大模型V4.0的消息，將全面對標GPT-4系列；文心一言4.0的發(fā)布已經超過半年，不排除新版本正在準備中，且大概率會在性能上再上一個臺階……

“跑分”的意義在哪里？

不管是一開始的“部分性能超越”，還是現(xiàn)在進行中的“全面趕超”，依據都是第三方評測結果，或者說大模型廠商的主觀判斷。比如商湯和阿里云爭相引用的OpenCompass，就是上海人工智能實驗室開源的大模型評測平臺。

對于一些大模型沉迷于刷榜、跑分的現(xiàn)象，上海人工智能實驗室領軍科學家林達華教授曾在媒體采訪中直言：通過題海戰(zhàn)術提高大模型成績，對于模型實際能力的反應是失真的，影響了模型研發(fā)團隊的改進方向和模型的商業(yè)落地，“高分低能”傷害的是機構本身；榜單上任何具體的名字只是大模型成長過程中無數次測試中的一次，一時的排名高低并不真正反映模型的能力。

何況很多大模型測試集為了公開透明，測試題目或者提綱都是公開的，大模型廠商不難通過“針對性的訓練”來提高分數。只要將足夠的的測試題喂給大模型，在開卷考試的機制下，分數總不會太低。

也就是說，分數高并不一定代表大模型的能力強。“跑分”的意義僅僅是讓客戶或開發(fā)者對大模型能力有一個初步的認識，最終的評估因素永遠是“能不能解決問題”，“能不能在場景中帶來實實在在的生產力”。

特別是在大模型走向落地應用的趨勢下，一味炒作“超越GPT-4”、“跑分第一”，妄顧落地應用的實效，可能會適得其反。以大模型應用中比較常見的財報分析為例，如果大模型連一家企業(yè)的財報都看不懂，再高的計算分數也不會讓客戶信服，反而會被排除在合作名單外。

而參考中信證券等機構的研究報告，目前OpenAI的GPT-5正處于紅隊測試階段，有望在今年夏天正式發(fā)布，可能在多模態(tài)理解、長文本輸入、zero-shot學習等方面實現(xiàn)重大突破，且性能將遠超GPT-4。即使國產大模型花費400多天追平了GPT-4，在相當長一段時間里，仍將處于追趕的姿態(tài)。

大模型的價值是解決日常問題的生產力工具，趕超GPT-4的階段性升級，可以看作是國產大模型有序迭代部署、不斷拉近差距的標志，切莫像手機跑分那樣，在過度營銷的作用下，淪為被群嘲的對象。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

相關標簽: 大模型

大模型爭霸的下一站：不僅是超越GPT-4，更是尋求模型之間的平衡應用

文|智能相對論作者|沈浪知名科學雜志《Nature》發(fā)表了一篇關于大模型規(guī)模參數大小爭議的文章《InAl,isbiggeralwaysbetter?》——AI大模型，越大越好嗎？隨著大模型應用走向實踐，這一問題不可避免地成為了當前AI行業(yè)發(fā)展的焦點與爭議。有人認為，大模型當然是越大越好，參數越大，性

標簽：

大模型
解密Kimi：大模型應用當紅頂流是如何練成的？

拋開營銷戰(zhàn)，或許在中國也可以探索新的大模型應用聚合方式、供給方式以及商業(yè)利潤分配的方式，對大模型公司來說，這將是一個新議題。

標簽：

大模型
大模型的現(xiàn)在進行時：走出對話框，走向產業(yè)端

大模型熱潮涌動了一年多后，越來越多人平復了激動的情緒，開始從客觀的視角重新思考大模型的價值和機會。紅杉資本在AlAscent2024的開場演講中提到，大模型的創(chuàng)造能力和推理能力，第一次實現(xiàn)了以類似人類的方式進行交互，將支撐起數十萬億美元的市場。然而和AGI的遙遠夢想相比，大模型的創(chuàng)業(yè)者們卻不得不正視

標簽：

大模型
李彥宏放話：百度AI大模型絕不搶開發(fā)者飯碗

關注盧松松，會經常給你分享一些我的經驗和觀點。昨晚，李彥宏內部講話稱：AI大模型開源意義不大，百度絕不搶開發(fā)者飯碗。但你一定要說話算話哦，可千萬別說：“我永遠不做手機，誰再敢提做手機就給我走人”，結果5年后自己的手機銷量排名第一。如果百度也這么干的話估計AI也沒人用了。李彥宏認為：從商業(yè)模式的角度來

標簽：

大模型
360 AI員工“紅衣”入職事業(yè)部承擔多項安全運營工作

近日，科技巨頭360公司宣布，其全新AI員工“紅衣”正式入職事業(yè)部，標志著公司向智能化、自動化方向邁出了堅實的一步。據悉，“紅衣”由360安全大模型支持，具備高度智能化和自主學習能力，能夠在多個領域提供高效、精準的服務?！凹t衣”是首位正式入職的數字安全專家，由360安全大模型支持，在安全運營工作中，

標簽：

大模型

未來5年，中國AI的“大洗牌”和“內循環(huán)”

我覺得我們AI的目標是：從芯片設計到軟件生態(tài)，全鏈路自主開發(fā)，建立可控的世界級AI體系。所以這是俺對未來5年中國AI圈的展望和判斷。(1)2026年，英偉達造車、國產開車26年國產芯片會在推理和垂直場景上發(fā)力。以DeepSeek為代表，大多數AI大模型會以軟件彌補硬件不足，所以訓練和推理分開，訓練就
H20芯片開賣即叫停，英偉達如何解圍？

文/道哥在深陷“后門”風波、接受網信辦問詢之后，英偉達的“特供版”H20芯片，又有了新消息。近日，美國科技媒體《TheInformation》援引知情人士消息稱，英偉達已悄然向其關鍵供應商——包括負責封裝的安靠科技、供應高帶寬內存的三星電子、以及承擔后端處理的富士康發(fā)出指令，要求暫停所有與H20AI

標簽：

英偉達
真正的「國產英偉達」來了

文/二風來源/節(jié)點財經一場關于“中國芯”的IPO審議，正把投資者們的目光鎖定在上交所。根據上交所發(fā)布的公告，上市審核委員會已定于9月26日審議摩爾線程的科創(chuàng)板首發(fā)申請。作為中國半導體自主化浪潮中最受矚目的“考生”之一，包括其創(chuàng)始人顯赫的英偉達背景、高達80億元人民幣的募資雄心，以及在國產GPU領域取

標簽：

英偉達
AI視頻生成賽道“分野”：小廠重產品，大廠重生態(tài)

AI視頻生成賽道“分野”：小廠重產品，大廠重生態(tài)

標簽：

騰訊

阿里巴巴

快手
數據庫進入“內存自由”時代！阿里云PolarDB發(fā)布全球首個CXL數據庫服務器

技術的進步永無止境，繼創(chuàng)下TPC-C性能&性價比雙冠之后，阿里云PolarDB云原生數據庫再度實現(xiàn)關鍵突破。9月24日杭州云棲大會上，阿里云宣布推出全球首款基于CXL（ComputeExpressLink）2.0Switch技術的PolarDB數據庫專用服務器。在原有RDMA網絡的基礎上，Polar
為AI時代云服務器量身定制阿里云操作系統(tǒng)Alinux 4重磅發(fā)布

2025年9月24日，在杭州舉辦的云棲大會上，阿里云正式發(fā)布全新一代服務器操作系統(tǒng)AlibabaCloudLinux4（簡稱Alinux4）。Alinux4基于Linux6.6內核打造，是首個全面遵循龍蜥社區(qū)“開源生態(tài)合作倡議”規(guī)范的商業(yè)發(fā)行版。它不僅兼容主流開源社區(qū)生態(tài)，更針對阿里云最新9代ECS

阿里云重磅發(fā)布AI安全護欄五項安全能力護航AI安全

9月24日，杭州云棲大會技術主論壇上，阿里云重磅發(fā)布AI安全護欄，提供五項核心安全能力，護航AI安全。一方面為客戶提供融入AIAgent開發(fā)全鏈路的原生安全防護，另一方面持續(xù)用AI賦能安全產品智能化升級，打造Agentic-SOC安全運營，提升安全威脅檢測和響應效率。在過去的一年，AIAgent正在
魔搭社區(qū)國際版上線，并發(fā)布科學智能專區(qū)與AIGC創(chuàng)作引擎

9月24日，魔搭社區(qū)舉辦了“全球協(xié)作?科學突破?創(chuàng)意無限”的專題論壇，并發(fā)布魔搭社區(qū)國際版、科學智能專區(qū)與AIGC創(chuàng)作引擎FlowBench，旨在連接全球開發(fā)者、加速科研范式創(chuàng)新、賦能創(chuàng)意表達。自2022年11月初成立至今，魔搭社區(qū)已成長為中國最大AI開源社區(qū)，其模型數量已突破10萬，服務了全球20
七連發(fā)！阿里多款重磅發(fā)布亮相云棲大會

9月24日，2025云棲大會現(xiàn)場，阿里云CTO周靖人接連發(fā)布了七款大模型技術產品。七款技術產品覆蓋語言、語音、視覺、多模態(tài)、代碼等模型領域，在模型智能水平、Agent工具調用以及Coding能力、深度推理、多模態(tài)等方面均實現(xiàn)突破。在大語言模型中，阿里通義旗艦模型Qwen3-Max全新亮相，性能超過G
阿里云擴建全球基礎設施，將新增巴西、法國和荷蘭數據中心

9月24日，阿里云在云棲大會上宣布新一輪全球基礎設施擴建計劃：將在巴西、法國和荷蘭首次設立云計算地域節(jié)點（region），并將擴建墨西哥、日本、韓國、馬來西亞和迪拜的數據中心，以便更好服務全球客戶日益增長的AI和云計算需求。目前，阿里云在全球29個地區(qū)運營91個可用區(qū)，是中國最大、亞太第一的云服務商

加載更多

99re6这里有精品热视频,久久综合九色欧美综合狠狠,国产精品久久久久久无毒不卡,av免费无插件在线观看,欧美放荡办公室videos

歷時400多天，國產大模型全面趕超GPT-4？

相關文章

大模型爭霸的下一站：不僅是超越GPT-4，更是尋求模型之間的平衡應用

解密Kimi：大模型應用當紅頂流是如何練成的？

大模型的現(xiàn)在進行時：走出對話框，走向產業(yè)端

李彥宏放話：百度AI大模型絕不搶開發(fā)者飯碗

360 AI員工“紅衣”入職事業(yè)部承擔多項安全運營工作

未來5年，中國AI的“大洗牌”和“內循環(huán)”

H20芯片開賣即叫停，英偉達如何解圍？

真正的「國產英偉達」來了

AI視頻生成賽道“分野”：小廠重產品，大廠重生態(tài)

數據庫進入“內存自由”時代！阿里云PolarDB發(fā)布全球首個CXL數據庫服務器

為AI時代云服務器量身定制阿里云操作系統(tǒng)Alinux 4重磅發(fā)布

阿里云重磅發(fā)布AI安全護欄五項安全能力護航AI安全

魔搭社區(qū)國際版上線，并發(fā)布科學智能專區(qū)與AIGC創(chuàng)作引擎

七連發(fā)！阿里多款重磅發(fā)布亮相云棲大會

阿里云擴建全球基礎設施，將新增巴西、法國和荷蘭數據中心

熱門排行

編輯推薦

歷時400多天，國產大模型全面趕超GPT-4？

相關文章

熱門排行

編輯推薦

歷時400多天，國產大模型全面趕超GPT-4？