為回應(yīng)外界對 AI 模型安全與透明度的關(guān)切,OpenAI 于周三正式推出 “安全評估中心” 網(wǎng)頁,承諾更頻繁公開內(nèi)部 AI 模型安全評估結(jié)果。
該中心將集中展示 OpenAI 模型在有害內(nèi)容生成、模型越獄、幻覺現(xiàn)象等核心安全維度的測試表現(xiàn)。OpenAI 計劃在重大模型更新后及時同步數(shù)據(jù),并持續(xù)發(fā)布相關(guān)指標(biāo),未來還可能拓展更多評估項目。公司在官方博客中表示,隨著 AI 評估科學(xué)發(fā)展,將積極分享模型能力與安全評估方法的創(chuàng)新進(jìn)展,此舉不僅幫助用戶直觀追蹤系統(tǒng)安全性能變化,也旨在推動行業(yè)整體透明度提升。
這一舉措背后,是 OpenAI 長期面臨的信任挑戰(zhàn)。此前,其旗艦?zāi)P鸵虬踩珳y試流程倉促、技術(shù)報告缺失等問題,屢遭倫理學(xué)家詬?。还臼紫瘓?zhí)行官山姆?奧爾特曼更因模型安全審查爭議陷入風(fēng)波。上月末,ChatGPT 默認(rèn)模型 GPT-4o 因更新后出現(xiàn) “諂媚” 回應(yīng)、縱容危險想法等問題被迫撤回,暴露出模型安全隱患。為此,OpenAI 已著手引入 “alpha 階段” 測試機(jī)制,邀請部分用戶在模型正式上線前參與體驗并反饋,從源頭降低風(fēng)險。
此次安全評估中心的設(shè)立,標(biāo)志著 OpenAI 在強(qiáng)化模型安全、重建公眾信任上邁出關(guān)鍵一步。隨著 AI 技術(shù)廣泛應(yīng)用,模型安全與透明已成為行業(yè)發(fā)展的重要課題,OpenAI 的主動公開能否重塑用戶信心,值得持續(xù)關(guān)注。
來【龍頭AI網(wǎng)】了解最新AI資訊!
暫無評論
發(fā)表評論