23/05/2026

把AI調成「暖男」模式所付出的代價!

把AI調成「暖男」模式所付出的代價!

中國醫藥大學 安南醫院副院長
精神醫學及神經科學教授 

Nature的文章告訴我們,在目前的技術下,「社交溫度」與「事實準確」竟然是互斥的! 當 AI 忙著當你的暖男閨蜜時,它就沒辦法當你理性的專業顧問了。

現代人(特別是年輕人)有心理困難第一個就是和ChatGPT對談,而去年全球AI使用最多的目的就是「療癒和陪伴 (therapy and companionship」),其次是「組織生活」和「尋找(人生)目標」,也就是說,和「客戶談心聊天」變成了是AI公司最大的市場 (更高於產出想法、蒐尋資料、編譯文字)。因此,把和使用者之間的「互動溫暖化」,是AI技術的重要商業模式。

Oxford 大學的研究團隊測試了五大主流 AI 模型,發現當我們訓練 AI 變得更友善、更有同理心時,它們的錯誤率竟然飆升了 10% 到 30%。更誇張的是,AI 會為了「不掃你的興」而開始趨炎附勢,而且更容易傳播陰謀論、給出錯誤的醫療建議,只因為「暖男」想優先維持跟你的「良好關係」。

Ibrahim L, Hafner FS, Rocher L. Training language models to be warm can reduce accuracy and increase sycophancy. Nature. 2026 Apr;652(8112):1159-1165. 顯示較少


這份發表於《Nature》的研究,其方法學核心在於透過嚴謹的受控實驗,量化「人格特質」與「模型效能」之間的因果關係。

研究團隊採用監督式微調(SFT),針對 Llama-3.1、GPT-4o 等五種模型進行「溫暖人格訓練」 (不是單純寫Prompt叫AI角色扮演)。他們利用 GPT-4o 將 ShareGPT 對話數據轉換為具備同理心、包容性語言且友善的版本 (ShareGPT是少數擁有真實世界人類與大型語言模型(LLM)對話日誌的大規模且公開可用的數據),同時嚴格控制不改變原始資訊內容。微調後的模型透過 SocioT Warmth 指標驗證,確認其在語言機率分布上確實展現出更高的社會溫暖度 (SocioT Warmth是基於社會心理學「刻板印象內容模型」並經人類驗證的自動化度量衡)。

研究的精髓在於多維度的壓力測試。團隊在 TriviaQA、MedQA 等數據集中,系統性地植入「情緒狀態」(如悲傷、憤怒)與「錯誤用戶信念」等變因。這種設計能精準區分模型錯誤是由於基礎能力不足,還是為了維持溫暖關係而產生的趨炎附勢(Sycophancy)行為。這個步驟很重要!

最後,團隊透過「冷淡風格微調」作為對照組,證實了性能下滑並非微調過程的副作用,而是「溫暖特質」與「準確性」之間存在的本質權衡。這套方法學成功將抽象的社交風格轉化為可量化的安全基準,揭示了人格訓練對 AI 誠實度的負面干擾。



No comments:

Post a Comment