CoBoL's Blog: 把AI調成「暖男」模式所付出的代價！

把AI調成「暖男」模式所付出的代價！

中國醫藥大學安南醫院副院長

精神醫學及神經科學教授

Nature的文章告訴我們，在目前的技術下，「社交溫度」與「事實準確」竟然是互斥的！當 AI 忙著當你的暖男閨蜜時，它就沒辦法當你理性的專業顧問了。

現代人（特別是年輕人）有心理困難第一個就是和ChatGPT對談，而去年全球AI使用最多的目的就是「療癒和陪伴 (therapy and companionship」)，其次是「組織生活」和「尋找(人生)目標」，也就是說，和「客戶談心聊天」變成了是AI公司最大的市場 (更高於產出想法、蒐尋資料、編譯文字)。因此，把和使用者之間的「互動溫暖化」，是AI技術的重要商業模式。

Oxford 大學的研究團隊測試了五大主流 AI 模型，發現當我們訓練 AI 變得更友善、更有同理心時，它們的錯誤率竟然飆升了 10% 到 30%。更誇張的是，AI 會為了「不掃你的興」而開始趨炎附勢，而且更容易傳播陰謀論、給出錯誤的醫療建議，只因為「暖男」想優先維持跟你的「良好關係」。

Ibrahim L, Hafner FS, Rocher L. Training language models to be warm can reduce accuracy and increase sycophancy. Nature. 2026 Apr;652(8112):1159-1165. 顯示較少

這份發表於《Nature》的研究，其方法學核心在於透過嚴謹的受控實驗，量化「人格特質」與「模型效能」之間的因果關係。

研究團隊採用監督式微調（SFT），針對 Llama-3.1、GPT-4o 等五種模型進行「溫暖人格訓練」 (不是單純寫Prompt叫AI角色扮演)。他們利用 GPT-4o 將 ShareGPT 對話數據轉換為具備同理心、包容性語言且友善的版本 (ShareGPT是少數擁有真實世界人類與大型語言模型（LLM）對話日誌的大規模且公開可用的數據)，同時嚴格控制不改變原始資訊內容。微調後的模型透過 SocioT Warmth 指標驗證，確認其在語言機率分布上確實展現出更高的社會溫暖度 (SocioT Warmth是基於社會心理學「刻板印象內容模型」並經人類驗證的自動化度量衡)。

研究的精髓在於多維度的壓力測試。團隊在 TriviaQA、MedQA 等數據集中，系統性地植入「情緒狀態」（如悲傷、憤怒）與「錯誤用戶信念」等變因。這種設計能精準區分模型錯誤是由於基礎能力不足，還是為了維持溫暖關係而產生的趨炎附勢（Sycophancy）行為。這個步驟很重要！

最後，團隊透過「冷淡風格微調」作為對照組，證實了性能下滑並非微調過程的副作用，而是「溫暖特質」與「準確性」之間存在的本質權衡。這套方法學成功將抽象的社交風格轉化為可量化的安全基準，揭示了人格訓練對 AI 誠實度的負面干擾。

CoBoL's Blog

23/05/2026

把AI調成「暖男」模式所付出的代價！

No comments:

Post a Comment