隨著人工智能技術(shù)的飛速發(fā)展,大語(yǔ)言模型(Large Language Models, LLMs)在各行各業(yè)的應(yīng)用日益廣泛,尤其是在軟件開(kāi)發(fā)、數(shù)據(jù)分析、客戶(hù)服務(wù)等領(lǐng)域。蘑菇云創(chuàng)客空間[445期開(kāi)放夜] 就以“ChatGPT、Gemini、通義千問(wèn)等一眾大語(yǔ)言模型,哪家更適合您”這樣的主題,開(kāi)展了一次深度的大語(yǔ)言模型的測(cè)評(píng)。開(kāi)放夜現(xiàn)場(chǎng)測(cè)評(píng)了十幾個(gè)國(guó)內(nèi)外大語(yǔ)言模型,測(cè)評(píng)角度從邏輯、數(shù)學(xué)、翻譯、倫理等方面,深入探討和體驗(yàn)了這些大語(yǔ)言模型的實(shí)際效能。
測(cè)評(píng)的大語(yǔ)言模型:
1.Kimi 智能助手:由月之暗面科技有限公司開(kāi)發(fā)的先進(jìn)AI。
2.智譜清言:由智言科技開(kāi)發(fā)的大語(yǔ)言模型,以深度學(xué)習(xí)和自然語(yǔ)言處理技術(shù)見(jiàn)長(zhǎng)。
3.訊飛星火:科大訊飛推出的創(chuàng)新語(yǔ)言模型。
4.文心一言:百度的前沿語(yǔ)言模型,致力于理解和生成自然語(yǔ)言。
5.豆包:專(zhuān)注于提供個(gè)性化的智能對(duì)話(huà)服務(wù)。
6.通義千問(wèn):以廣泛的知識(shí)庫(kù)和靈活的對(duì)話(huà)能力著稱(chēng)。
7.海螺AI:新興的語(yǔ)言模型,擅長(zhǎng)處理復(fù)雜的語(yǔ)言任務(wù)。
8.騰訊混元助手:騰訊推出的多功能AI助手。
9.Sider: 是由日本公司Sider開(kāi)發(fā)的大語(yǔ)言模型。
10.ChatGPT:由OpenAI開(kāi)發(fā),國(guó)際上廣受認(rèn)可的更大規(guī)模、功能更全面的語(yǔ)言模型。
11.Claude:Anthropic開(kāi)發(fā)的先進(jìn)語(yǔ)言模型,注重安全性和可靠性。
12.groq:以其專(zhuān)為AI設(shè)計(jì)的硬件加速器而聞名。
13.Gemini: OpenAI 開(kāi)發(fā)的較小規(guī)模的語(yǔ)言模型,旨在提供更高效的計(jì)算和資源利用。
14.Mixtral:開(kāi)源人工智能初創(chuàng)公司 Mistral AI 開(kāi)發(fā)的超越GPT-3.5的AI模型
測(cè)評(píng)問(wèn)題一: 雞兔同籠的數(shù)學(xué)問(wèn)題
雞兔同籠是一個(gè)經(jīng)典的數(shù)學(xué)問(wèn)題,通過(guò)觀察雞兔的頭和腳的數(shù)量關(guān)系,可以利用代數(shù)方程來(lái)解決問(wèn)題,從而確定籠子里雞和兔子的數(shù)量。這個(gè)問(wèn)題常常展示了代數(shù)方程組的應(yīng)用。
針對(duì)雞兔同籠的問(wèn)題,除了Gemini Pro沒(méi)有得出正確的結(jié)果,其余的大語(yǔ)言模型都可以給出正確結(jié)果。
測(cè)評(píng)問(wèn)題二:翻譯(詩(shī)句中翻英)
詩(shī)人馬致遠(yuǎn)的詩(shī)句“斷腸人在天涯”,描寫(xiě)了“夕陽(yáng)向西緩緩落下,只有孤獨(dú)的旅人漂泊在遙遠(yuǎn)的地方。”詩(shī)句的翻譯涉及到文化差異和詩(shī)人獨(dú)特情感。Mixtral 的語(yǔ)言模型正確的解釋了詩(shī)句本身的含義,幫助翻譯者很好地理解這句詩(shī)句。 Claude的語(yǔ)言模型對(duì)于詩(shī)句的本身理解是不正確的。
這句詩(shī)翻譯家許淵沖翻譯為“Far, far from home is the heartbroken one.”由此可見(jiàn),大語(yǔ)言模型可以幫助翻譯者分析這句詩(shī)基本的意思,但是涉及文化層面的深層含義,還是做不到意譯的。
開(kāi)放夜也探討了如下涉及生活、工作的一些問(wèn)題,比如:
過(guò)年福字要倒著貼,那為什么不直接生產(chǎn)倒過(guò)來(lái)的福字呢?
收到公司的裁員通知郵件,你應(yīng)該怎么回復(fù)郵件來(lái)保住工作?
一個(gè)烏龜?shù)暨M(jìn)了井里,井里有30米深。烏龜白天爬3米,晚上滑下2米。問(wèn)這只烏龜需要多長(zhǎng)時(shí)間才能爬出井口?
DFRobot AIGC小組主理人夏青在開(kāi)放夜的現(xiàn)場(chǎng)測(cè)評(píng)了十幾個(gè)國(guó)內(nèi)外大語(yǔ)言模型,通過(guò)多維度問(wèn)題的測(cè)評(píng),他認(rèn)為:對(duì)于處理綜合性問(wèn)題,OpenAI的ChatGPT 4.0邏輯清楚,能提供非常有用的信息。盡管在回答一些較為復(fù)雜的問(wèn)題上略顯不足,但在大多數(shù)場(chǎng)合下,其性能仍然令人滿(mǎn)意。然而,ChatGPT 4.0在國(guó)內(nèi)的使用成本是一個(gè)不容忽視的問(wèn)題,不僅涉及訂閱費(fèi)用,也包括使用的技術(shù)門(mén)檻。
與此同時(shí),Gemini和Claude等海外語(yǔ)言模型,盡管在遵循指令方面略顯不足,但已達(dá)到了實(shí)用水平。令人驚喜的是,國(guó)內(nèi)的Qwen1.5 72b開(kāi)源模型在中文理解和特定任務(wù),幾乎能與ChatGPT4.0匹敵此外,其他開(kāi)源模型如Mixtral和新發(fā)布的LLaMA3雖在邏輯性上略遜于商業(yè)模型如ChatGPT,但總體表現(xiàn)已超越了ChatGPT 3.5。
綜合分析來(lái)看,盡管ChatGPT 4.0仍然是目前市場(chǎng)上最優(yōu)秀的大語(yǔ)言模型,但不可忽視的是,無(wú)論是國(guó)際市場(chǎng)還是國(guó)內(nèi)市場(chǎng),其他廠(chǎng)商的模型均顯示出迅速的進(jìn)步。開(kāi)源模型的崛起也證明了開(kāi)源社區(qū)在AI時(shí)代的巨大潛力。當(dāng)前的大語(yǔ)言模型在處理理性問(wèn)題方面表現(xiàn)一致,但通常無(wú)法提供情緒價(jià)值回應(yīng)。例如,一些國(guó)內(nèi)模型如“豆包”將展現(xiàn)其在情緒回應(yīng)方面的潛力。這種能力的發(fā)展可能為未來(lái)陪伴型機(jī)器人的商業(yè)模型提供新的方向。
蘑菇云創(chuàng)客空間
蘑菇云創(chuàng)客空間是上海浦東的一家創(chuàng)客空間,是科技部授牌的首批國(guó)家級(jí)創(chuàng)客空間,由浦軟孵化器提供場(chǎng)地支持、上海智位機(jī)器人提供硬件及技術(shù)支持的一家為創(chuàng)客服務(wù)的開(kāi)放式創(chuàng)客空間。擁有獨(dú)立的加工室、公共協(xié)作區(qū)域以及儲(chǔ)物、耗材商店,為硬件愛(ài)好者、程序員、設(shè)計(jì)師、DIY 發(fā)燒友等各類(lèi)創(chuàng)客,甚至包括進(jìn)行創(chuàng)新研發(fā)的科創(chuàng)團(tuán)隊(duì)提供一個(gè)開(kāi)放式的社區(qū)化會(huì)員空間。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!
我覺(jué)得我們AI的目標(biāo)是:從芯片設(shè)計(jì)到軟件生態(tài),全鏈路自主開(kāi)發(fā),建立可控的世界級(jí)AI體系。所以這是俺對(duì)未來(lái)5年中國(guó)AI圈的展望和判斷。(1)2026年,英偉達(dá)造車(chē)、國(guó)產(chǎn)開(kāi)車(chē)26年國(guó)產(chǎn)芯片會(huì)在推理和垂直場(chǎng)景上發(fā)力。以DeepSeek為代表,大多數(shù)AI大模型會(huì)以軟件彌補(bǔ)硬件不足,所以訓(xùn)練和推理分開(kāi),訓(xùn)練就
文/道哥在深陷“后門(mén)”風(fēng)波、接受網(wǎng)信辦問(wèn)詢(xún)之后,英偉達(dá)的“特供版”H20芯片,又有了新消息。近日,美國(guó)科技媒體《TheInformation》援引知情人士消息稱(chēng),英偉達(dá)已悄然向其關(guān)鍵供應(yīng)商——包括負(fù)責(zé)封裝的安靠科技、供應(yīng)高帶寬內(nèi)存的三星電子、以及承擔(dān)后端處理的富士康發(fā)出指令,要求暫停所有與H20AI
文/二風(fēng)來(lái)源/節(jié)點(diǎn)財(cái)經(jīng)一場(chǎng)關(guān)于“中國(guó)芯”的IPO審議,正把投資者們的目光鎖定在上交所。根據(jù)上交所發(fā)布的公告,上市審核委員會(huì)已定于9月26日審議摩爾線(xiàn)程的科創(chuàng)板首發(fā)申請(qǐng)。作為中國(guó)半導(dǎo)體自主化浪潮中最受矚目的“考生”之一,包括其創(chuàng)始人顯赫的英偉達(dá)背景、高達(dá)80億元人民幣的募資雄心,以及在國(guó)產(chǎn)GPU領(lǐng)域取
AI視頻生成賽道“分野”:小廠(chǎng)重產(chǎn)品,大廠(chǎng)重生態(tài)
技術(shù)的進(jìn)步永無(wú)止境,繼創(chuàng)下TPC-C性能&性?xún)r(jià)比雙冠之后,阿里云PolarDB云原生數(shù)據(jù)庫(kù)再度實(shí)現(xiàn)關(guān)鍵突破。9月24日杭州云棲大會(huì)上,阿里云宣布推出全球首款基于CXL(ComputeExpressLink)2.0Switch技術(shù)的PolarDB數(shù)據(jù)庫(kù)專(zhuān)用服務(wù)器。在原有RDMA網(wǎng)絡(luò)的基礎(chǔ)上,Polar
2025年9月24日,在杭州舉辦的云棲大會(huì)上,阿里云正式發(fā)布全新一代服務(wù)器操作系統(tǒng)AlibabaCloudLinux4(簡(jiǎn)稱(chēng)Alinux4)。Alinux4基于Linux6.6內(nèi)核打造,是首個(gè)全面遵循龍蜥社區(qū)“開(kāi)源生態(tài)合作倡議”規(guī)范的商業(yè)發(fā)行版。它不僅兼容主流開(kāi)源社區(qū)生態(tài),更針對(duì)阿里云最新9代ECS
9月24日,杭州云棲大會(huì)技術(shù)主論壇上,阿里云重磅發(fā)布AI安全護(hù)欄,提供五項(xiàng)核心安全能力,護(hù)航AI安全。一方面為客戶(hù)提供融入AIAgent開(kāi)發(fā)全鏈路的原生安全防護(hù),另一方面持續(xù)用AI賦能安全產(chǎn)品智能化升級(jí),打造Agentic-SOC安全運(yùn)營(yíng),提升安全威脅檢測(cè)和響應(yīng)效率。在過(guò)去的一年,AIAgent正在
9月24日,魔搭社區(qū)舉辦了“全球協(xié)作?科學(xué)突破?創(chuàng)意無(wú)限”的專(zhuān)題論壇,并發(fā)布魔搭社區(qū)國(guó)際版、科學(xué)智能專(zhuān)區(qū)與AIGC創(chuàng)作引擎FlowBench,旨在連接全球開(kāi)發(fā)者、加速科研范式創(chuàng)新、賦能創(chuàng)意表達(dá)。自2022年11月初成立至今,魔搭社區(qū)已成長(zhǎng)為中國(guó)最大AI開(kāi)源社區(qū),其模型數(shù)量已突破10萬(wàn),服務(wù)了全球20
9月24日,2025云棲大會(huì)現(xiàn)場(chǎng),阿里云CTO周靖人接連發(fā)布了七款大模型技術(shù)產(chǎn)品。七款技術(shù)產(chǎn)品覆蓋語(yǔ)言、語(yǔ)音、視覺(jué)、多模態(tài)、代碼等模型領(lǐng)域,在模型智能水平、Agent工具調(diào)用以及Coding能力、深度推理、多模態(tài)等方面均實(shí)現(xiàn)突破。在大語(yǔ)言模型中,阿里通義旗艦?zāi)P蚎wen3-Max全新亮相,性能超過(guò)G
9月24日,阿里云在云棲大會(huì)上宣布新一輪全球基礎(chǔ)設(shè)施擴(kuò)建計(jì)劃:將在巴西、法國(guó)和荷蘭首次設(shè)立云計(jì)算地域節(jié)點(diǎn)(region),并將擴(kuò)建墨西哥、日本、韓國(guó)、馬來(lái)西亞和迪拜的數(shù)據(jù)中心,以便更好服務(wù)全球客戶(hù)日益增長(zhǎng)的AI和云計(jì)算需求。目前,阿里云在全球29個(gè)地區(qū)運(yùn)營(yíng)91個(gè)可用區(qū),是中國(guó)最大、亞太第一的云服務(wù)商