黄色网站三级片,性色精品在线网站,国产很爽的超薄丝袜脚交视频,中文有码无码人妻在线

您所在的位置:首頁  專家視點(diǎn)

蔣媛媛等:加快發(fā)展人工智能檢驗(yàn)檢測服務(wù),完善AI產(chǎn)業(yè)生態(tài)

日期:2025/03/17|點(diǎn)擊:13

人工智能技術(shù)發(fā)展迅速,大模型、AGENT、具身智能、通用人工智能(AGI)等新概念和新技術(shù)層出不窮。大模型基準(zhǔn)評(píng)測作為研究較為深入的領(lǐng)域,助力其他新技術(shù)的發(fā)展。AgentBench、ToolBenchToolEval等是面向AGENT的代表性評(píng)測框架或數(shù)據(jù)集,通過搭建仿真環(huán)境,重點(diǎn)考察大模型與外界交互下完成復(fù)雜任務(wù)的能力,如網(wǎng)絡(luò)購物、數(shù)據(jù)庫操作等。SQA3D、Behavior-1k、Mini-BEHAVIOR等利用3D問答、空間操作等任務(wù)評(píng)估大模型在具身智能領(lǐng)域內(nèi)的表現(xiàn)。

大模型基準(zhǔn)評(píng)測還帶動(dòng)了AGI的發(fā)展,微軟先后發(fā)布《通用人工智能的火花:GPT-4的早期實(shí)驗(yàn)》和AGIEval評(píng)測數(shù)據(jù)集,通過數(shù)學(xué)、編程、視覺、醫(yī)學(xué)、法律、心理學(xué)等較困難的任務(wù),證明GPT-4已進(jìn)入AGI的早期階段。中國科學(xué)院和美國俄亥俄州立大學(xué)等先后推出AGIBenchMMMU評(píng)測數(shù)據(jù)集,從多模態(tài)、多學(xué)科、多粒度等多個(gè)維度衡量大模型距離AGI的差距。雖然當(dāng)前AGI發(fā)展仍然處于初期階段,但通過基準(zhǔn)評(píng)測的研究,可為未來AGI技術(shù)的發(fā)展提供思路。

2025年《政府工作報(bào)告》指出,持續(xù)推進(jìn)“人工智能+”行動(dòng),將數(shù)字技術(shù)與制造優(yōu)勢、市場優(yōu)勢更好結(jié)合起來,支持大模型廣泛應(yīng)用。

下一步,應(yīng)該以大模型測試驗(yàn)證工作為抓手,構(gòu)建前瞻性、引領(lǐng)性的測評(píng)驗(yàn)證及平臺(tái)服務(wù),加速中國大模型技術(shù)創(chuàng)新、產(chǎn)品迭代和應(yīng)用推廣,促進(jìn)大模型領(lǐng)域重大研究成果產(chǎn)業(yè)化落地。

一、發(fā)展現(xiàn)狀

1.大模型應(yīng)用評(píng)測需求強(qiáng)烈,急需面向產(chǎn)業(yè)的解決方案

當(dāng)前,產(chǎn)業(yè)界對(duì)大模型行業(yè)應(yīng)用場景的評(píng)估需求十分強(qiáng)烈,根據(jù)Meta等在《GAIA: A Benchmark for General AI Assistants》的測試結(jié)果顯示,人類針對(duì)某些實(shí)際應(yīng)用場景的問題回答準(zhǔn)確率為92%,而即使是帶有插件的 GPT-4 僅有15%的準(zhǔn)確率,說明大模型在實(shí)際應(yīng)用場景上仍然有較大的提升空間。中國信通院發(fā)布“方升”大模型基準(zhǔn)評(píng)測體系,涵蓋測試指標(biāo)、測試方法、測試數(shù)據(jù)集和測試工具關(guān)鍵四要素,重點(diǎn)強(qiáng)化行業(yè)和應(yīng)用導(dǎo)向能力的考查。

2023年下半年起,大模型已持續(xù)滲透到金融、醫(yī)療、軟件工程、教育、法律、科研、政務(wù)、電信、能源等多個(gè)垂直行業(yè)。據(jù)統(tǒng)計(jì),超過50%的大模型基準(zhǔn)評(píng)測數(shù)據(jù)集側(cè)重于考察模型的通用能力,但面向行業(yè)的基準(zhǔn)評(píng)測已經(jīng)取得顯著進(jìn)展,行業(yè)評(píng)測數(shù)據(jù)集數(shù)量明顯增加,如金融領(lǐng)域的FinEval、PIXIU,醫(yī)療領(lǐng)域的PubMedQA、CMExam,軟件工程領(lǐng)域的CoderEval、OpsEval,電信領(lǐng)域的TeleQnA、NetEval等。大模型行業(yè)評(píng)測需要重點(diǎn)考察行業(yè)基礎(chǔ)知識(shí)和行業(yè)應(yīng)用場景,由于行業(yè)數(shù)據(jù)的敏感性,70%的行業(yè)評(píng)測數(shù)據(jù)集側(cè)重于評(píng)估行業(yè)基礎(chǔ)知識(shí),而在行業(yè)應(yīng)用場景方面,智能客服、知識(shí)管理、數(shù)據(jù)分析、辦公助手、內(nèi)容創(chuàng)作、代碼助手等是大模型的重點(diǎn)落地方向。

2.大模型基準(zhǔn)評(píng)測“百花齊放”,全面賦能“產(chǎn)用管”關(guān)鍵環(huán)節(jié)

據(jù)不完全統(tǒng)計(jì),目前產(chǎn)學(xué)研各界已經(jīng)出現(xiàn)超過300種大模型基準(zhǔn)評(píng)測的相關(guān)成果。僅2023年,新推出的評(píng)測數(shù)據(jù)集數(shù)量就超過200個(gè)。其中,較著名的大模型評(píng)測榜單包括Hugging Face推出的Open LLM LeaderboardChatbot Arena,以及國內(nèi)的CompassRankSuperCLUEFlagEval等。高頻評(píng)測數(shù)據(jù)集包括MMLU、C-EvalCMMLU、BBHAGIEval、MBPP、HumanEval、GSM8K、MATHVISTA、MMMU等。大模型在評(píng)測數(shù)據(jù)集上的最佳測試分?jǐn)?shù)不斷刷新,一定程度上反映出大模型的能力在持續(xù)提升。同時(shí),基準(zhǔn)評(píng)測的重要性也日益凸顯,已全面賦能大模型“產(chǎn)用管”各關(guān)鍵環(huán)節(jié)。在研發(fā)階段,基準(zhǔn)評(píng)測被用于快速挖掘大模型當(dāng)前的不足與痛點(diǎn)問題,推動(dòng)大模型能力持續(xù)提升;在應(yīng)用階段,基準(zhǔn)評(píng)測用于大模型落地效果驗(yàn)證,助力產(chǎn)品的選型(POC)測試和商業(yè)推廣;在管理階段,基準(zhǔn)評(píng)測用于對(duì)大模型能力進(jìn)行持續(xù)監(jiān)控,引導(dǎo)其正向發(fā)展。

3.評(píng)測效率影響模型迭代,企業(yè)級(jí)自動(dòng)化評(píng)測平臺(tái)迎來新發(fā)展

大模型基準(zhǔn)評(píng)測的關(guān)鍵流程包括測試需求分析、測試數(shù)據(jù)準(zhǔn)備、測試環(huán)境準(zhǔn)備、基準(zhǔn)測試執(zhí)行、測試結(jié)果評(píng)估、測試報(bào)告生成、測試結(jié)果分析等。其中,測試數(shù)據(jù)準(zhǔn)備和測試結(jié)果評(píng)估這兩步需要大量的人力投入,工作繁瑣。傳統(tǒng)的腳本化測試框架無法滿足高速迭代的業(yè)務(wù)需求,需要構(gòu)建人工智能評(píng)測平臺(tái)來提升測試效率。

2023年,上海人工智能實(shí)驗(yàn)室、北京智源研究院、天津大學(xué)等科研機(jī)構(gòu)紛紛推出自研的基準(zhǔn)測試平臺(tái)或框架,極大降低了基準(zhǔn)評(píng)測的上手門檻。其中,上海人工智能實(shí)驗(yàn)室的OpenCompass(司南)框架開源生態(tài)較為完善,兼容多個(gè)評(píng)測數(shù)據(jù)集和大模型,支持分布式測試等功能。為了實(shí)現(xiàn)測試結(jié)果的自動(dòng)化評(píng)估,減少專家評(píng)估人力投入,北京智源研究院和智譜AI分別推出評(píng)估大模型JUDGELMCRITIQUELLM,測試結(jié)果表明大模型評(píng)估和人工評(píng)估的符合度可超過90%。目前,已有包括華為、字節(jié)跳動(dòng)等公司啟動(dòng)企業(yè)級(jí)人工智能評(píng)測平臺(tái)的構(gòu)建。

202368日,上海首家生成式人工智能(AIGC)質(zhì)量檢驗(yàn)檢測中心掛牌批籌,為AI大模型等智能軟件提供專業(yè)化“體檢”。掛牌初兩個(gè)月,這家AI質(zhì)檢中心已出具75份“體檢報(bào)告”。主要面向生成式人工智能所涉及的計(jì)算機(jī)視覺、自然語言處理、內(nèi)容生成等領(lǐng)域,聚焦人工智能生成內(nèi)容的語義表達(dá)能力、邏輯推理能力、合成內(nèi)容鑒別能力,以及功能、性能、安全性評(píng)估等,通過提供全方位的測評(píng)服務(wù),以保障人工智能系統(tǒng)或應(yīng)用的質(zhì)量。對(duì)于一些大型復(fù)雜AI系統(tǒng)的檢測,甚至需要根據(jù)應(yīng)用場景專門搭建檢測檢驗(yàn)系統(tǒng),耗時(shí)可能長達(dá)半年,同時(shí)還需要研發(fā)大量相關(guān)技術(shù)與標(biāo)準(zhǔn)。近三年來,上海軟件中心為上海乃至長三角地區(qū)人工智能企業(yè)與應(yīng)用方提供專業(yè)的第三方測評(píng)服務(wù)數(shù),年均超過500項(xiàng),累計(jì)發(fā)布AI檢測相關(guān)標(biāo)準(zhǔn)30余項(xiàng)。通過質(zhì)檢,廠商能更清晰地了解AI軟件的性能,對(duì)產(chǎn)品的迭代與優(yōu)化更有針對(duì)性。

20243月,國內(nèi)首個(gè)智能機(jī)器人中試驗(yàn)證平臺(tái)在上海成立,進(jìn)一步加強(qiáng)智能機(jī)器人的應(yīng)用賦能,主要聚焦三個(gè)方面:一是建設(shè)垂類大模型測試床,加速大模型落地進(jìn)程;二是形成人工智能大模型工業(yè)軟件的自主可控測試平臺(tái),建立工業(yè)產(chǎn)品準(zhǔn)入門檻;三是形成基于區(qū)塊鏈的安全測試與性能測試平臺(tái),為數(shù)據(jù)安全提供“可見可控”的解決方案。該中試驗(yàn)證平臺(tái)可助力人工智能領(lǐng)域的理論研究和技術(shù)創(chuàng)新快速轉(zhuǎn)化為實(shí)際應(yīng)用,推動(dòng)技術(shù)從實(shí)驗(yàn)室到市場的轉(zhuǎn)化,助力創(chuàng)新成果的商業(yè)化和規(guī)模化,將專注于垂類模型的安全能力評(píng)估,提高人工智能系統(tǒng)的整體安全性和可靠性,對(duì)人工智能在高風(fēng)險(xiǎn)領(lǐng)域的應(yīng)用拓展尤為重要。

二、面臨的問題與挑戰(zhàn)

1.標(biāo)準(zhǔn)缺位

目前,AI檢測尚屬于企業(yè)自主行為,未來對(duì)于大模型的安全性、可解釋性、倫理風(fēng)險(xiǎn)等的檢測檢驗(yàn),尚未形成國家強(qiáng)制標(biāo)準(zhǔn)。

2.大模型“刷榜”問題頻出,新測試方法保障結(jié)果公正

少量大模型在訓(xùn)練階段加入評(píng)測數(shù)據(jù)來完成模型“刷榜”,損害了大模型榜單的公平性和可信度,評(píng)測數(shù)據(jù)的污染和泄露是當(dāng)前產(chǎn)業(yè)界急需解決的問題。

目前,國內(nèi)的上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)、中國人民大學(xué)、昆侖萬維,以及國外的UC Berkeley、佐治亞理工大學(xué)等紛紛推出針對(duì)評(píng)測數(shù)據(jù)集污染的衡量指標(biāo)和工具,可以支持包括MMLU、GSM8K等主流數(shù)據(jù)集的污染檢測,一定程度上緩解了數(shù)據(jù)污染的問題。

動(dòng)態(tài)測試也逐步引入以保障評(píng)測結(jié)果的真實(shí)性。復(fù)旦大學(xué)推出LLMEval評(píng)測框架,通過從海量題庫中隨機(jī)抽樣的1000題來確保每次評(píng)測題目不重復(fù)。中國信通院創(chuàng)新性提出自適應(yīng)動(dòng)態(tài)測試方法,這些努力有助于解決大模型“刷榜”問題,提高評(píng)測結(jié)果的公正性。

三、促進(jìn)人工智能檢驗(yàn)檢測發(fā)展的相關(guān)建議

1.標(biāo)準(zhǔn)先行

檢測檢驗(yàn)是行業(yè)話語權(quán)的重要標(biāo)志,檢測標(biāo)準(zhǔn)往往是一個(gè)行業(yè)的發(fā)展風(fēng)向標(biāo)。人工智能飛速發(fā)展不能簡單套用傳統(tǒng)產(chǎn)業(yè)“先立標(biāo)準(zhǔn)后檢測”的“守底線”模式,而應(yīng)采用檢測與標(biāo)準(zhǔn)同步發(fā)展的新型模式,以起到規(guī)范、引領(lǐng)產(chǎn)業(yè)的作用。

2.加強(qiáng)載體建設(shè)

深耕大模型、生成式人工智能等前沿領(lǐng)域,全力支撐大模型測試驗(yàn)證與協(xié)同創(chuàng)新中心重大功能性平臺(tái)建設(shè),做好大模型企業(yè)全鏈條服務(wù),營造大模型產(chǎn)業(yè)發(fā)展活躍生態(tài)。

3.謹(jǐn)慎治理,構(gòu)建高標(biāo)準(zhǔn)可控治理體系

支持探索大模型評(píng)測基準(zhǔn)及工具,推動(dòng)大模型自動(dòng)評(píng)測技術(shù)發(fā)展。不斷完善監(jiān)管體系,督促大模型企業(yè)使用安全可控的技術(shù)手段開展自評(píng)估。推動(dòng)通用大模型備案工作,為重點(diǎn)企業(yè)提供服務(wù)和指導(dǎo),以爭取更多本市優(yōu)質(zhì)的大模型產(chǎn)品上線服務(wù)。

 

來源:澎湃新聞2025-03-17

作者蔣媛媛上海社會(huì)科學(xué)院應(yīng)用經(jīng)濟(jì)研究所副研究員,王業(yè)強(qiáng),中國社會(huì)科學(xué)院生態(tài)文明研究所研究員,吳苡婷上??萍紙?bào)主任記者。


文字:|圖片:|編輯:

最新

熱門

返回原圖
/