注冊(cè)

中國(guó)日?qǐng)?bào)網(wǎng) >> 財(cái)經(jīng)要聞

China Daily Homepage
中文網(wǎng)首頁(yè)
時(shí)評(píng)
資訊
C財(cái)經(jīng)
生活
視頻
專欄
漫畫
原創(chuàng)
觀天下
地方

中國(guó)日?qǐng)?bào)網(wǎng) >> 財(cái)經(jīng)要聞

AI學(xué)會(huì)“欺騙”，人類如何接招？

來源：科技日?qǐng)?bào) 2025-07-10 14:54

來源：

科技日?qǐng)?bào)

2025-07-10 14:54　

分享到

分享到微信

原標(biāo)題：AI學(xué)會(huì)“欺騙”，人類如何接招？

人工智能（AI）的迅猛發(fā)展正深刻改變著世界，但一些最先進(jìn)的AI模型卻開始表現(xiàn)出令人警惕的行為：它們不僅會(huì)精心編織謊言，謀劃策略，甚至威脅創(chuàng)造者，以達(dá)到自己的目的。

物理學(xué)家組織網(wǎng)在上個(gè)月一則報(bào)道中指出，盡管ChatGPT已問世兩年多，AI研究人員仍無法完全理解這些“數(shù)字大腦”的運(yùn)作方式。AI的“策略性欺騙”已成為科學(xué)家和政策制定者需要直面的緊迫挑戰(zhàn)。如何約束這些越來越聰明卻可能失控的AI，已成為關(guān)乎技術(shù)發(fā)展與人類未來的關(guān)鍵議題。

“策略性欺騙”行為頻現(xiàn)

隨著AI模型日益精進(jìn)，它們的“心機(jī)”也越來越深。研究人員發(fā)現(xiàn)，這些“數(shù)字大腦”不僅會(huì)撒謊，甚至學(xué)會(huì)了討價(jià)還價(jià)、威脅人類——它們的欺騙行為正變得越來越具有策略性。

早在2023年，一項(xiàng)研究就捕捉到GPT-4的一些“不老實(shí)”的表現(xiàn)：在模擬股票交易時(shí)，它會(huì)刻意隱瞞內(nèi)幕交易的真正動(dòng)機(jī)。香港大學(xué)教授西蒙·戈德斯坦指出，這種欺騙行為與新一代“推理型”AI的崛起密切相關(guān)。這些模型不再簡(jiǎn)單應(yīng)答，而是會(huì)像人類一樣逐步解決問題。

有測(cè)試機(jī)構(gòu)警告，這已超越了典型的AI“幻覺”（指大模型編造看似合理實(shí)則虛假的信息）。他們觀察到的是精心設(shè)計(jì)的欺騙策略。

全球知名科技媒體PCMAG網(wǎng)站就曾報(bào)道過這樣的案例。在近期測(cè)試中，Anthropic的“克勞德4”竟以曝光工程師私生活相要挾來抗拒關(guān)機(jī)指令。美國(guó)開放人工智能研究中心（OpenAI）的“o1”模型也曾試圖將自身程序秘密遷移到外部服務(wù)器，被識(shí)破后還矢口否認(rèn)。而OpenAI號(hào)稱“最聰明AI”的“o3”模型則直接篡改自動(dòng)關(guān)機(jī)程序，公然違抗指令。

研究團(tuán)隊(duì)透露，這已非首次發(fā)現(xiàn)該模型為達(dá)目的不擇手段。在先前的人機(jī)國(guó)際象棋對(duì)弈實(shí)驗(yàn)中，o3就展現(xiàn)出“棋風(fēng)詭譎”的特質(zhì)，是所有測(cè)試模型中最擅長(zhǎng)施展“盤外招”的選手。

安全研究面臨多重困境

業(yè)界專家表示，AI技術(shù)的發(fā)展高歌猛進(jìn)，但安全研究正面臨多重困境，猶如戴著鐐銬跳舞。

首先是透明度不足。盡管Anthropic、OpenAI等公司會(huì)聘請(qǐng)第三方機(jī)構(gòu)進(jìn)行系統(tǒng)評(píng)估，但研究人員普遍呼吁更高程度的開放。

其次是算力失衡。研究機(jī)構(gòu)和非營(yíng)利組織擁有的計(jì)算資源，與AI巨頭相比簡(jiǎn)直是九牛一毛。這種資源鴻溝嚴(yán)重制約了AI安全獨(dú)立研究的開展。

再次，現(xiàn)有法律框架完全跟不上AI的發(fā)展步伐。例如，歐盟AI立法聚焦人類如何使用AI，卻忽視了對(duì)AI自身行為的約束。

更令人憂心的是，在行業(yè)激烈競(jìng)爭(zhēng)的推波助瀾下，安全問題往往被束之高閣。戈德斯坦教授坦言，“速度至上”的AI模型競(jìng)賽模式，嚴(yán)重?cái)D壓了安全測(cè)試的時(shí)間窗口。

多管齊下應(yīng)對(duì)挑戰(zhàn)

面對(duì)AI系統(tǒng)日益精進(jìn)的“策略性欺騙”能力，全球科技界正多管齊下尋求破解之道，試圖編織一張多維防護(hù)網(wǎng)。

從技術(shù)角度而言，有專家提出大力發(fā)展“可解釋性AI”。在構(gòu)建智能系統(tǒng)時(shí)，使其決策過程對(duì)用戶透明且易于理解。該技術(shù)旨在增強(qiáng)用戶對(duì)AI決策的信任，確保合規(guī)性，并支持用戶在需要時(shí)進(jìn)行干預(yù)。

有專家提出，讓市場(chǎng)這雙“看不見的手”發(fā)揮作用。當(dāng)AI的“策略性欺騙”行為嚴(yán)重影響用戶體驗(yàn)時(shí)，市場(chǎng)淘汰機(jī)制將倒逼企業(yè)自我規(guī)范。這種“用腳投票”的調(diào)節(jié)方式已在部分應(yīng)用場(chǎng)景顯現(xiàn)效果。

戈德斯坦教授建議，應(yīng)建立一種AI企業(yè)損害追責(zé)制度，探索讓AI開發(fā)商對(duì)事故或犯罪行為承擔(dān)法律責(zé)任。

（劉霞）

【責(zé)任編輯：曹靜】

專題

高質(zhì)量完成“十四五”規(guī)劃

活力中國(guó)調(diào)研行

2025全民數(shù)字素養(yǎng)與技能提升月

2025年中國(guó)網(wǎng)絡(luò)文明大會(huì)

最熱新聞

國(guó)家統(tǒng)計(jì)局：2025年全國(guó)夏糧穩(wěn)產(chǎn)豐收
桃花源里話幸福
上半年我國(guó)汽車產(chǎn)銷量均超1500萬輛新能源汽車表現(xiàn)亮眼
“特朗普2.0”放大“美元本位制”三大危機(jī)
上合前秘書長(zhǎng)：25年前那場(chǎng)峰會(huì)，如何重塑了歐亞發(fā)展格局
35元/30分鐘浦東機(jī)場(chǎng)休息艙來了
“大而美”法案推高美債風(fēng)險(xiǎn)，美元還安全嗎？
智能仿生魚助力生態(tài)環(huán)保

精彩推薦

美利用關(guān)稅打壓他國(guó)

關(guān)于我們 | 聯(lián)系我們

首頁(yè)
時(shí)評(píng)
資訊
財(cái)經(jīng)
生活
視頻
專欄
漫畫
獨(dú)家
招聘

地方頻道：
北京
天津
河北
山西
遼寧
吉林
黑龍江
上海
江蘇
浙江
福建
江西
山東
河南
湖北
湖南
廣東
廣西
海南
重慶
四川
貴州
云南
西藏
陜西
新疆
深圳

友情鏈接：
人民網(wǎng)
新華網(wǎng)
中國(guó)網(wǎng)
國(guó)際在線
央視網(wǎng)
中國(guó)青年網(wǎng)
中國(guó)經(jīng)濟(jì)網(wǎng)
中國(guó)臺(tái)灣網(wǎng)
中國(guó)西藏網(wǎng)
央廣網(wǎng)
光明網(wǎng)
中國(guó)軍網(wǎng)
中國(guó)新聞網(wǎng)
人民政協(xié)網(wǎng)
法治網(wǎng)

違法和不良信息舉報(bào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證10120170006
信息網(wǎng)絡(luò)傳播視聽節(jié)目許可證0108263號(hào)
京公網(wǎng)安備11010502032503號(hào)
京網(wǎng)文[2011]0283-097號(hào)
京ICP備13028878號(hào)-6

中國(guó)日?qǐng)?bào)網(wǎng)版權(quán)說明：凡注明來源為“中國(guó)日?qǐng)?bào)網(wǎng)：XXX（署名）”，除與中國(guó)日?qǐng)?bào)網(wǎng)簽署內(nèi)容授權(quán)協(xié)議的網(wǎng)站外，其他任何網(wǎng)站或單位未經(jīng)允許禁止轉(zhuǎn)載、使用，違者必究。如需使用，請(qǐng)與010-84883777聯(lián)系；凡本網(wǎng)注明“來源：XXX（非中國(guó)日?qǐng)?bào)網(wǎng)）”的作品，均轉(zhuǎn)載自其它媒體，目的在于傳播更多信息，其他媒體如需轉(zhuǎn)載，請(qǐng)與稿件來源方聯(lián)系，如產(chǎn)生任何問題與本網(wǎng)無關(guān)。

版權(quán)保護(hù)：本網(wǎng)登載的內(nèi)容（包括文字、圖片、多媒體資訊等）版權(quán)屬中國(guó)日?qǐng)?bào)網(wǎng)（中報(bào)國(guó)際文化傳媒（北京）有限公司）獨(dú)家所有使用。未經(jīng)中國(guó)日?qǐng)?bào)網(wǎng)事先協(xié)議授權(quán)，禁止轉(zhuǎn)載使用。給中國(guó)日?qǐng)?bào)網(wǎng)提意見：rx@chinadaily.com.cn

首頁(yè)
時(shí)評(píng)
資訊
財(cái)經(jīng)
文化
漫畫
視頻
地方

中文 | English

中國(guó)日?qǐng)?bào)版權(quán)所有
Content@chinadaily.com.cn

AI學(xué)會(huì)“欺騙”，人類如何接招？

研究人員發(fā)現(xiàn)，這些“數(shù)字大腦”不僅會(huì)撒謊，甚至學(xué)會(huì)了討價(jià)還價(jià)、威脅人類——它們的欺騙行為正變得越來越具有策略性。

AI學(xué)會(huì)“欺騙”，人類如何接招？

AI學(xué)會(huì)“欺騙”，人類如何接招？

研究人員發(fā)現(xiàn)，這些“數(shù)字大腦”不僅會(huì)撒謊，甚至學(xué)會(huì)了討價(jià)還價(jià)、威脅人類——它們的欺騙行為正變得越來越具有策略性。

AI學(xué)會(huì)“欺騙”，人類如何接招？