飛象網(wǎng)訊 10月11日,在2025中國移動(dòng)全球合作伙伴大會(huì)上,中國移動(dòng)正式發(fā)布《審計(jì)行業(yè)大模型評測體系白皮書》(以下簡稱《白皮書》)及配套測試集。作為國內(nèi)首個(gè)面向?qū)徲?jì)行業(yè)的系統(tǒng)性大模型評測標(biāo)準(zhǔn)框架,該體系為審計(jì)大模型的科學(xué)評估、選型與應(yīng)用筑牢了“標(biāo)準(zhǔn)底座”, 有效填補(bǔ)了通用大模型評測體系在審計(jì)行業(yè)適配性與應(yīng)用價(jià)值評估上的空白。

《白皮書》指出,審計(jì)行業(yè)大模型作為融合前沿技術(shù)的創(chuàng)新產(chǎn)物,正在逐漸重塑審計(jì)業(yè)務(wù)的流程與模式,其在提升審計(jì)效率、增強(qiáng)風(fēng)險(xiǎn)識別、助力精準(zhǔn)決策 等方面展現(xiàn)出巨大潛力。然而,隨著審計(jì)領(lǐng)域各類大模型的不斷涌現(xiàn),其質(zhì)量與性能參差不齊,如何科學(xué)、客觀且全面地評測審計(jì)行業(yè)大模型就顯得尤為重要,F(xiàn)有通用大模型評測側(cè)重于文本流暢性與開放任務(wù)泛化能力,難以量化審計(jì)場景特定需求,在數(shù)據(jù)、方法和落地上面臨三重鴻溝。
為深度洞察不同審計(jì)行業(yè)大模型的專業(yè)適配性與實(shí)際效能,精準(zhǔn)辨析各模型的優(yōu)勢與短板,推動(dòng)審計(jì)行業(yè)大模型技術(shù)健康發(fā)展,中國移動(dòng)依據(jù)國家標(biāo)準(zhǔn) GB/T45288.2-2025《人工智能大模型第 2 部分:評測指標(biāo)與方法》,并結(jié)合中國移動(dòng)聯(lián)合發(fā)布的《通用大模型評測標(biāo)準(zhǔn)》,編制完成《審計(jì)行業(yè)大模型評測體系白皮書》,創(chuàng)新性地提出面向?qū)徲?jì)行業(yè)的大模型評測體系,以“2+4+6”層級架構(gòu)為核心:聚焦基礎(chǔ)能力層與審計(jì)應(yīng)用層“兩大”核心場景,并將審計(jì)應(yīng)用評測按審計(jì)流程細(xì)分為不同場景下的30余項(xiàng)具體應(yīng)用任務(wù)。針對每項(xiàng)審計(jì)應(yīng)用任務(wù),白皮書清晰指明適用的評測方式、指標(biāo)、數(shù)據(jù)與工具“四項(xiàng)”關(guān)鍵評測要素,同時(shí)細(xì)化反映功能性、準(zhǔn)確性、可靠性等“六大”審計(jì)評測維度的具體指標(biāo),為評測工作提供了切實(shí)可行的落地級指南,有效彌補(bǔ)了通用評測在審計(jì)行業(yè)適配性與應(yīng)用價(jià)值評估上的不足。
此外,中國移動(dòng)還同步發(fā)布了與《白皮書》配套的標(biāo)準(zhǔn)化的專業(yè)測試集,包含國家權(quán)威審計(jì)類考試題目2萬余條,及覆蓋企業(yè)審計(jì)業(yè)務(wù)六大場景的真實(shí)數(shù)據(jù)5千余條,為模型能力評估提供了真實(shí)、全面的數(shù)據(jù)支撐。
《白皮書》及測試集的發(fā)布推動(dòng)審計(jì)行業(yè)大模型的發(fā)展邁入了更加標(biāo)準(zhǔn)化、規(guī)范化的新階段。未來,中國移動(dòng)將持續(xù)推動(dòng)大模型安全、透明、高效地賦能審計(jì)現(xiàn)代化,鑄就“科技強(qiáng)審”新范式,鑄牢審計(jì)之盾。