隨著人工智能技術的飛速發(fā)展,大語言模型(Large Language Models, LLMs)在各行各業(yè)的應用日益廣泛,尤其是在軟件開發(fā)、數據分析、客戶服務等領域。蘑菇云創(chuàng)客空間[445期開放夜] 就以“ChatGPT、Gemini、通義千問等一眾大語言模型,哪家更適合您”這樣的主題,開展了一次深度的大語言模型的測評。開放夜現場測評了十幾個國內外大語言模型,測評角度從邏輯、數學、翻譯、倫理等方面,深入探討和體驗了這些大語言模型的實際效能。
測評的大語言模型:
1.Kimi 智能助手:由月之暗面科技有限公司開發(fā)的先進AI。
2.智譜清言:由智言科技開發(fā)的大語言模型,以深度學習和自然語言處理技術見長。
3.訊飛星火:科大訊飛推出的創(chuàng)新語言模型。
4.文心一言:百度的前沿語言模型,致力于理解和生成自然語言。
5.豆包:專注于提供個性化的智能對話服務。
6.通義千問:以廣泛的知識庫和靈活的對話能力著稱。
7.海螺AI:新興的語言模型,擅長處理復雜的語言任務。
8.騰訊混元助手:騰訊推出的多功能AI助手。
9.Sider: 是由日本公司Sider開發(fā)的大語言模型。
10.ChatGPT:由OpenAI開發(fā),國際上廣受認可的更大規(guī)模、功能更全面的語言模型。
11.Claude:Anthropic開發(fā)的先進語言模型,注重安全性和可靠性。
12.groq:以其專為AI設計的硬件加速器而聞名。
13.Gemini: OpenAI 開發(fā)的較小規(guī)模的語言模型,旨在提供更高效的計算和資源利用。
14.Mixtral:開源人工智能初創(chuàng)公司 Mistral AI 開發(fā)的超越GPT-3.5的AI模型
測評問題一: 雞兔同籠的數學問題
雞兔同籠是一個經典的數學問題,通過觀察雞兔的頭和腳的數量關系,可以利用代數方程來解決問題,從而確定籠子里雞和兔子的數量。這個問題常常展示了代數方程組的應用。
針對雞兔同籠的問題,除了Gemini Pro沒有得出正確的結果,其余的大語言模型都可以給出正確結果。
測評問題二:翻譯(詩句中翻英)
詩人馬致遠的詩句“斷腸人在天涯”,描寫了“夕陽向西緩緩落下,只有孤獨的旅人漂泊在遙遠的地方。”詩句的翻譯涉及到文化差異和詩人獨特情感。Mixtral 的語言模型正確的解釋了詩句本身的含義,幫助翻譯者很好地理解這句詩句。 Claude的語言模型對于詩句的本身理解是不正確的。
這句詩翻譯家許淵沖翻譯為“Far, far from home is the heartbroken one.”由此可見,大語言模型可以幫助翻譯者分析這句詩基本的意思,但是涉及文化層面的深層含義,還是做不到意譯的。
開放夜也探討了如下涉及生活、工作的一些問題,比如:
過年福字要倒著貼,那為什么不直接生產倒過來的福字呢?
收到公司的裁員通知郵件,你應該怎么回復郵件來保住工作?
一個烏龜掉進了井里,井里有30米深。烏龜白天爬3米,晚上滑下2米。問這只烏龜需要多長時間才能爬出井口?
DFRobot AIGC小組主理人夏青在開放夜的現場測評了十幾個國內外大語言模型,通過多維度問題的測評,他認為:對于處理綜合性問題,OpenAI的ChatGPT 4.0邏輯清楚,能提供非常有用的信息。盡管在回答一些較為復雜的問題上略顯不足,但在大多數場合下,其性能仍然令人滿意。然而,ChatGPT 4.0在國內的使用成本是一個不容忽視的問題,不僅涉及訂閱費用,也包括使用的技術門檻。
與此同時,Gemini和Claude等海外語言模型,盡管在遵循指令方面略顯不足,但已達到了實用水平。令人驚喜的是,國內的Qwen1.5 72b開源模型在中文理解和特定任務,幾乎能與ChatGPT4.0匹敵此外,其他開源模型如Mixtral和新發(fā)布的LLaMA3雖在邏輯性上略遜于商業(yè)模型如ChatGPT,但總體表現已超越了ChatGPT 3.5。
綜合分析來看,盡管ChatGPT 4.0仍然是目前市場上最優(yōu)秀的大語言模型,但不可忽視的是,無論是國際市場還是國內市場,其他廠商的模型均顯示出迅速的進步。開源模型的崛起也證明了開源社區(qū)在AI時代的巨大潛力。當前的大語言模型在處理理性問題方面表現一致,但通常無法提供情緒價值回應。例如,一些國內模型如“豆包”將展現其在情緒回應方面的潛力。這種能力的發(fā)展可能為未來陪伴型機器人的商業(yè)模型提供新的方向。
蘑菇云創(chuàng)客空間
蘑菇云創(chuàng)客空間是上海浦東的一家創(chuàng)客空間,是科技部授牌的首批國家級創(chuàng)客空間,由浦軟孵化器提供場地支持、上海智位機器人提供硬件及技術支持的一家為創(chuàng)客服務的開放式創(chuàng)客空間。擁有獨立的加工室、公共協(xié)作區(qū)域以及儲物、耗材商店,為硬件愛好者、程序員、設計師、DIY 發(fā)燒友等各類創(chuàng)客,甚至包括進行創(chuàng)新研發(fā)的科創(chuàng)團隊提供一個開放式的社區(qū)化會員空間。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
文/道哥美國設計軟件公司Figma近期在紐約證券交易所掛牌上市,首日即上演“狂飆”行情——發(fā)行價定每股33美元,開盤報價85美元,較發(fā)行價翻倍。首日收報115.50美元,較發(fā)行價大漲約250%,市值飆升至近670億美元,創(chuàng)下近30年來同等規(guī)模美股IPO的最大單日漲幅紀錄。然而,隨著短線資金獲利了結,
8月16日,盧松松非常榮幸的成為了一名《2025世界人形機器人運動會》的觀眾。這是一場超酷的機器人運動會,也是人類給機器人辦的第一屆奧運會,來自16個國家的280支隊伍會參加500多個比賽項目??戳艘惶斓谋荣?,晚上就回來寫文章,編輯短視頻。先說感悟:(1)這是人類首次給機器人辦的第一屆運動會,史無前
文/一燈來源/節(jié)點財經在當前無人敢缺席的AI軍備競賽中,巨頭們一面為巨額的資本支出焦慮,一面又向市場勾勒著未來的宏偉藍圖。在各家動輒千億級投入的背景下,市場迫切需要一份關于AI回報價值的有力證明。而騰訊,率先給出了答卷。8月13日,騰訊控股發(fā)布2025年第二季度財報。盡管資本開支同比劇增119%,達
文/二風來源/節(jié)點財經2025年的硅谷,一場沒有硝煙的戰(zhàn)爭正以前所未有的烈度上演。這場戰(zhàn)爭的核心武器不是代碼或芯片,而是人——那些全球僅有數千名、能夠構建未來人工智能基礎模型的頂尖大腦。在這場激烈的人才爭奪戰(zhàn)中,Meta及其首席執(zhí)行官馬克·扎克伯格(MarkZuckerberg)正扮演著最具侵略性的
Manus撕開一道真相
文/八真來源/節(jié)點財經具身智能賽道,誰最有可能拔得A股資本市場的頭籌?答案大概率是誕生剛剛兩年,由華為"天才少年"、B站百萬粉絲科技UP主稚暉君(彭志輝)創(chuàng)立的智元機器人。近期,從事新材料研發(fā)與生產的上緯新材(688585.SH)丟出重磅炸彈,宣布智元機器人及相關主體將通過收購其至少63.62%的股
文/道哥大舉裁員、清空賬號、國內IP無法訪問——曾被譽為“中國AIAgent希望之星”的Manus,在估值飆至5億美元的高光時刻“閃離”中國市場。近日,Manus“裁員、出走”的消息在媒體端大量發(fā)酵。消息稱,Manus公司總部將由中國遷至新加坡,其國內團隊也將大幅裁撤——原有120人規(guī)模團隊除40余