高質(zhì)量數(shù)據(jù)是AI大模型訓(xùn)練與應(yīng)用的基礎(chǔ),更是企業(yè)向AI轉(zhuǎn)型升級的 “燃料”。然而,眾多企業(yè)在開發(fā)AI應(yīng)用過程中,卻因大模型難以讀懂非結(jié)構(gòu)化數(shù)據(jù)而面臨困境。
能否讓更多企業(yè)級用戶用上一款更趁手的數(shù)據(jù)工具,從而實(shí)現(xiàn)AI-Ready數(shù)據(jù)自由?
近日,OpenDataLab和釘釘正基于MinerU,推出一款面向企業(yè)用戶的文檔解析工具——DLU(Document Language Understanding),共同助力企業(yè)破解AI-Ready數(shù)據(jù)難題,從而降低行業(yè)大模型訓(xùn)練及AI應(yīng)用開發(fā)門檻,加速AI技術(shù)在各行業(yè)的規(guī)?;涞亍?/p>
MinerU是上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)OpenDataLab推出的智能文檔解析引擎,因精準(zhǔn)解析能力及廣泛兼容性深受用戶青睞,在GitHub上已累計(jì)獲得超4萬星標(biāo)。
上海AI實(shí)驗(yàn)室作為國際級人工智能新型科研機(jī)構(gòu),在大模型、數(shù)據(jù)智能等方向具備深厚的技術(shù)積累。其自主研發(fā)的OpenDataLab平臺為國內(nèi)領(lǐng)先的人工智能大模型數(shù)據(jù)平臺,擁有7700余個(gè)開源精標(biāo)數(shù)據(jù)集,迄今已為超10萬用戶提供了200余萬次數(shù)據(jù)獲取服務(wù)。近期更新的MinerU2.0實(shí)現(xiàn)了解析速度和精度雙提升,甚至以0.98B的參數(shù)達(dá)成性能比肩72B的主流大模型。
作為阿里巴巴集團(tuán)旗下的企業(yè)級智能移動(dòng)辦公平臺,釘釘擁有豐富的文檔產(chǎn)品和廣闊的企業(yè)用戶基礎(chǔ)。釘釘文檔、AI表格等產(chǎn)品此前已深度集成MinerU能力,并通過開放平臺向生態(tài)開發(fā)者開放文檔解析功能,為DLU的聯(lián)合研發(fā)提供了扎實(shí)的技術(shù)與場景基礎(chǔ)。
基于MinerU打造的DLU將于近期開源,其具備良好的文件格式兼容性,深層次的內(nèi)容理解與精準(zhǔn)的結(jié)構(gòu)化輸出能力。DLU不僅支持主流的Office文檔、PDF、Markdown及代碼文件,還涵蓋釘釘自有的文檔、表格與AI表格格式;并支持提取純文本內(nèi)容,精準(zhǔn)解析圖表、公式、插圖乃至專業(yè)領(lǐng)域的化學(xué)分子式等復(fù)雜視覺元素,將其有效轉(zhuǎn)換為適合大模型訓(xùn)練的高質(zhì)量語料。
接下來,DLU還將借助釘釘在企業(yè)服務(wù)場景上優(yōu)勢,深度融入辦公協(xié)同生態(tài),支持用戶在同一平臺內(nèi)完成從文檔創(chuàng)建、解析提取、知識庫管理、數(shù)據(jù)標(biāo)注到定制化模型訓(xùn)練的全流程閉環(huán),提升AI應(yīng)用開發(fā)與日常辦公效率。
上海人工智能實(shí)驗(yàn)室青年科學(xué)家、OpenDataLab/MinerU開源項(xiàng)目創(chuàng)始人何聰輝表示:“MinerU擁有廣泛的用戶基礎(chǔ),我們希望進(jìn)一步拓展其在企業(yè)場景中的應(yīng)用,并充分發(fā)揮OpenDataLab平臺的作用,與合作伙伴共同打造‘數(shù)據(jù)工具中的PyTorch’,助力更多企業(yè)級用戶實(shí)現(xiàn)AI-Ready數(shù)據(jù)的自由。”
釘釘CTO朱鴻表示:“開源DLU,能有效解決企業(yè)在AI時(shí)代面臨的數(shù)據(jù)準(zhǔn)備難題,筑牢智能化轉(zhuǎn)型根基。釘釘正積極構(gòu)建AI新生態(tài),期待攜手更多技術(shù)伙伴與行業(yè)力量,共同為千行百業(yè)的數(shù)字化轉(zhuǎn)型與智能化升級提供強(qiáng)勁支撐”。
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!