大模型基準(zhǔn)測試ITU國際標(biāo)準(zhǔn)發(fā)布

2025-04-15 12:48:05 中國質(zhì)量報

本報訊（記者何可）記者從中國信息通信研究院（以下簡稱“中國信通院”）獲悉，近日，國際電信聯(lián)盟電信標(biāo)準(zhǔn)分局（ITU-T）正式發(fā)布基礎(chǔ)模型的評估標(biāo)準(zhǔn)：基準(zhǔn)測試（ITU—T F.748.44）。該標(biāo)準(zhǔn)由中國信通院牽頭制定，旨在推動大模型基準(zhǔn)測試體系架構(gòu)形成國際共識，為大模型技術(shù)提供方和應(yīng)用方提供高質(zhì)量的能力評估依據(jù)，引導(dǎo)大模型技術(shù)及產(chǎn)業(yè)健康有序發(fā)展。

近年來，如何客觀、全面地衡量大模型能力并且充分挖掘大模型潛在缺陷得到產(chǎn)學(xué)研各界的廣泛關(guān)注。模型基準(zhǔn)測試通過設(shè)計合理的測試任務(wù)和評價數(shù)據(jù)集來客觀、公正、量化地評估模型的性能，是目前產(chǎn)業(yè)界和學(xué)術(shù)界最為認(rèn)可的模型能力評估方法。當(dāng)前已有數(shù)百個基準(zhǔn)測試方法和數(shù)據(jù)集用于衡量大模型的能力。但當(dāng)前產(chǎn)學(xué)研各界對大基礎(chǔ)模型基準(zhǔn)測試的體系、指標(biāo)、數(shù)據(jù)集、方法、平臺工具等仍未達(dá)成一致，缺乏統(tǒng)一的標(biāo)準(zhǔn)，導(dǎo)致大模型評測的結(jié)果公正性受到質(zhì)疑。為進(jìn)一步推動大模型基準(zhǔn)測評的技術(shù)發(fā)展與實(shí)際應(yīng)用，充分釋放基準(zhǔn)測試在人工智能領(lǐng)域的價值，中國信通院聯(lián)合相關(guān)單位開展標(biāo)準(zhǔn)的編制工作。

本次發(fā)布的國際標(biāo)準(zhǔn)基于當(dāng)前產(chǎn)學(xué)研界500余項(xiàng)基準(zhǔn)測試系統(tǒng)性研究，一方面確立了大模型基準(zhǔn)測試的4項(xiàng)核心要素，包括測試維度（測試場景、測試能力、測試任務(wù)和測試指標(biāo)）、測試數(shù)據(jù)集、測試方法和測試工具。另一方面，針對通用場景的基礎(chǔ)模型，提供了標(biāo)準(zhǔn)化的測試用例和流程范例，以支持企業(yè)規(guī)范開展大模型能力評估。

據(jù)介紹，中國信通院人工智能研究所于2023年開始布局大模型基準(zhǔn)測試研究，并于2023年底發(fā)布“方升”大模型基準(zhǔn)測試體系，推出自適應(yīng)動態(tài)測試方法，積累600萬條數(shù)據(jù)集，構(gòu)建測試工具，支撐整個大模型測試過程的自動化實(shí)施。自2024年以來，參照已發(fā)布的ITU大模型基準(zhǔn)測試國際標(biāo)準(zhǔn)，該所對國內(nèi)外標(biāo)桿大模型以兩個月為周期開展持續(xù)監(jiān)測工作，包括上百個測試模型，目前已發(fā)布大語言通用能力、推理能力、代碼能力，多模態(tài)理解能力、文生圖能力、文生視頻能力等多個輪次的評測結(jié)果。此次發(fā)布的國際標(biāo)準(zhǔn)是大模型測試領(lǐng)域的重要標(biāo)準(zhǔn)化成果，對推動技術(shù)創(chuàng)新和發(fā)展、引領(lǐng)行業(yè)發(fā)展趨勢、促進(jìn)國際合作與交流等方面具有重要意義。

【標(biāo)準(zhǔn)發(fā)布】

(責(zé)任編輯:凌云)

中國質(zhì)量報刊

查看往日報刊

相關(guān)網(wǎng)站導(dǎo)航

中國政府網(wǎng)
國家市場監(jiān)督管理總局
國務(wù)院食品安全委員會
國務(wù)院反壟斷反不正當(dāng)競爭委員會
國家認(rèn)證認(rèn)可監(jiān)督管理委員會
國家標(biāo)準(zhǔn)化管理委員會
國家藥品監(jiān)督管理局
國家知識產(chǎn)權(quán)局

報刊社簡介|本站介紹|聯(lián)系我們|聲明|友情鏈接

中國質(zhì)量報刊社中國質(zhì)量新聞網(wǎng) 中國質(zhì)檢網(wǎng) 中國質(zhì)量報網(wǎng) 版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載。
中華人民共和國互聯(lián)網(wǎng)新聞信息服務(wù)許可證編號：10120170032 網(wǎng)站備案號：京ICP備09084810號-1 廣播電視節(jié)目制作經(jīng)營許可證編號：（京）字第09421號
公安機(jī)關(guān)網(wǎng)站備案號：

京公網(wǎng)安備 11010502031058號違法和不良信息舉報電話：(010) 84618470/84648459 郵箱：lxwm@cqn.com.cn
法律顧問：北京岳成律師事務(wù)所

精品欧美在线一区二区,亚洲国产中文在线视频,海角精产国品一二三区别,一区二区国产高清视频在线

大模型基準(zhǔn)測試ITU國際標(biāo)準(zhǔn)發(fā)布