精品欧美在线一区二区,亚洲国产中文在线视频,海角精产国品一二三区别,一区二区国产高清视频在线

          <legend id="o3rmf"><abbr id="o3rmf"><thead id="o3rmf"></thead></abbr></legend>
          國家市場監(jiān)督管理總局主管    中國質(zhì)量報刊社主辦
          您當(dāng)前位置: >>新聞中心>>中國質(zhì)量報>>第四版

          大模型基準(zhǔn)測試ITU國際標(biāo)準(zhǔn)發(fā)布

          2025-04-15 12:48:05 中國質(zhì)量報

          本報訊 (記者何 可)記者從中國信息通信研究院(以下簡稱“中國信通院”)獲悉,近日,國際電信聯(lián)盟電信標(biāo)準(zhǔn)分局(ITU-T)正式發(fā)布基礎(chǔ)模型的評估標(biāo)準(zhǔn):基準(zhǔn)測試(ITU—T F.748.44)。該標(biāo)準(zhǔn)由中國信通院牽頭制定,旨在推動大模型基準(zhǔn)測試體系架構(gòu)形成國際共識,為大模型技術(shù)提供方和應(yīng)用方提供高質(zhì)量的能力評估依據(jù),引導(dǎo)大模型技術(shù)及產(chǎn)業(yè)健康有序發(fā)展。

          近年來,如何客觀、全面地衡量大模型能力并且充分挖掘大模型潛在缺陷得到產(chǎn)學(xué)研各界的廣泛關(guān)注。模型基準(zhǔn)測試通過設(shè)計合理的測試任務(wù)和評價數(shù)據(jù)集來客觀、公正、量化地評估模型的性能,是目前產(chǎn)業(yè)界和學(xué)術(shù)界最為認(rèn)可的模型能力評估方法。當(dāng)前已有數(shù)百個基準(zhǔn)測試方法和數(shù)據(jù)集用于衡量大模型的能力。但當(dāng)前產(chǎn)學(xué)研各界對大基礎(chǔ)模型基準(zhǔn)測試的體系、指標(biāo)、數(shù)據(jù)集、方法、平臺工具等仍未達(dá)成一致,缺乏統(tǒng)一的標(biāo)準(zhǔn),導(dǎo)致大模型評測的結(jié)果公正性受到質(zhì)疑。為進(jìn)一步推動大模型基準(zhǔn)測評的技術(shù)發(fā)展與實(shí)際應(yīng)用,充分釋放基準(zhǔn)測試在人工智能領(lǐng)域的價值,中國信通院聯(lián)合相關(guān)單位開展標(biāo)準(zhǔn)的編制工作。

          本次發(fā)布的國際標(biāo)準(zhǔn)基于當(dāng)前產(chǎn)學(xué)研界500余項(xiàng)基準(zhǔn)測試系統(tǒng)性研究,一方面確立了大模型基準(zhǔn)測試的4項(xiàng)核心要素,包括測試維度(測試場景、測試能力、測試任務(wù)和測試指標(biāo))、測試數(shù)據(jù)集、測試方法和測試工具。另一方面,針對通用場景的基礎(chǔ)模型,提供了標(biāo)準(zhǔn)化的測試用例和流程范例,以支持企業(yè)規(guī)范開展大模型能力評估。

          據(jù)介紹,中國信通院人工智能研究所于2023年開始布局大模型基準(zhǔn)測試研究,并于2023年底發(fā)布“方升”大模型基準(zhǔn)測試體系,推出自適應(yīng)動態(tài)測試方法,積累600萬條數(shù)據(jù)集,構(gòu)建測試工具,支撐整個大模型測試過程的自動化實(shí)施。自2024年以來,參照已發(fā)布的ITU大模型基準(zhǔn)測試國際標(biāo)準(zhǔn),該所對國內(nèi)外標(biāo)桿大模型以兩個月為周期開展持續(xù)監(jiān)測工作,包括上百個測試模型,目前已發(fā)布大語言通用能力、推理能力、代碼能力,多模態(tài)理解能力、文生圖能力、文生視頻能力等多個輪次的評測結(jié)果。此次發(fā)布的國際標(biāo)準(zhǔn)是大模型測試領(lǐng)域的重要標(biāo)準(zhǔn)化成果,對推動技術(shù)創(chuàng)新和發(fā)展、引領(lǐng)行業(yè)發(fā)展趨勢、促進(jìn)國際合作與交流等方面具有重要意義。

          標(biāo)準(zhǔn)發(fā)布

          (責(zé)任編輯:凌云)
          查看往日報刊
          相關(guān)網(wǎng)站導(dǎo)航