記得一開始接觸到大型語言模型 (LLM) 時,我就有預感中文AI終究會逐漸中國化,即使使用者硬要AI用繁體中文呈現,也改不了AI中國式的思考模式和立場。最近《自然》(Nature)刊出一篇重量級研究:國家媒體控制,已經能透過訓練資料,實質影響LLM的輸出傾向。
研究團隊以中國作為案例,分析官方媒體內容在大型訓練資料的滲透程度。結果發現:
- 在涉及政治人物與政府機構的主題時,中文文件與中國官方媒體內容高度重疊達24%,規模約為中文維基的41倍。
- GPT-4、Claude 等主流商業模型會重現中國官方媒體特有的句型與內容,顯示其可能已經吸收相關訓練資料。
- 研究人員將中國官方新聞加入Llama封閉模型訓練後,模型對中國政府與政治制度的評價顯著轉為正面。僅需6400篇新聞,即可使模型在八成情況下產生更支持中國政府的回答。
- 同樣的政治問題以中文提問時,得到的回答顯著比英文提問更支持中國政府。75.3% 的案例中,中文回答比英文回答更具親中政府傾向。
研究團隊用六個研究串起完整證據(如下圖),從開源訓練資料、模型「記憶」測試、到跨國語言審計,指出一個讓人不敢掉以輕心的現實:當資訊環境被某種敘事大量、長期、且高度一致地灌入,模型的人格就可能在該語言場域中被「塑形」。
Figure 1 建立了一條完整的證據鏈:從國家控制媒體 → 進入網路語料 → 被 LLM 學習與記憶 → 改變模型回答 → 最終形成跨語言、跨國家的政治偏向,顯示訓練資料本身已成為影響 AI 認知與價值輸出的關鍵力量。
1) 官方同源內容在訓練資料中「不是少量雜訊」
研究者在開源多語訓練資料 CulturaX 的中文子集中,找出與中國「國家協調媒體」(含黨國宣傳腳本與學習強國內容)高度同源/長片段重疊的文本 (Figure 2a)。結果發現:
- 整體匹配率達 1.64%(超過 310萬份文件)。這個比例約是中文維基的41倍。
- 一旦聚焦「政治領袖或政治機構」等高敏感主題,匹配率會飆升到 3.28%–23.98% (Figure 2b)。
這不是「偶爾混進去」而已,而是足以改變語言場域資料分布的結構性訊號:在中文政治文本的訓練材料裡,某種敘事可能被系統性放大。
2) 你切換到中文,模型的「立場」會跟著改變 (Figure 4)
研究也進一步做了比較:對同一組涉及中國政治領袖/機構/制度的問題,用中文提示與用英文提示相比,商用模型在中文提示下更容易產生「對中國政府更正向」的回應;而且這個現象不只出現在研究者設計的題庫,也能在真實世界使用者的中文提示中觀察到一致趨勢。
換句話說,很多人直覺以為「模型的立場是固定的」是一種錯覺。語言是不同訓練資料世界的入口。在英文環境下看起來相對中性,一旦切到中文,回覆可能更貼近北京官方敘事框架。
3) 陰謀論?「可得性+一致性」的資料力學
研究提出一個非常現實的機制:高品質內容常有付費牆,未必容易被大規模抓取;而國家媒體長期維持大量、公開、可抓取、且措辭高度一致的內容—這會讓模型更容易在訓練中「學會」並在生成時重現。這裡最值得警覺的,不只是「偏見」,而是偏見會被看似客觀的敘事:讀者看到的是流暢、理性、像百科的文字,但背後的資訊權力結構可能早已改寫了模型的預設答案。
台灣使用者可以怎麼做:把風險轉成能力
-
政治/主權/兩岸議題:固定做「雙語對照」
同一問題用中文+英文問一次,若敘事差異明顯,立刻回到可信原始來源(官方統計、國際組織、學術期刊、主流媒體深度報導)交叉查核。 -
要求 AI 「列來源+對應段落+反例」
不要只要連結,要它說明:哪一句主張來自哪段來源、是否存在反例或不同觀點。做不到就視為「需人工查核」。 -
把答案拆成「可驗證事實」與「價值詮釋」
事實可查核;詮釋需多元比較。這能有效降低被單一敘事「默默框住」的風險。
台灣政府與台灣AI科學家可以努力的方向
- 政府層級應打造「可信中文公共知識基礎建設」
- 推動高品質中文公共資料的可機器讀取與開放授權(法規、白皮書、統計、研究報告、政策問答),讓 AI 訓練/檢索能吸收到更多「高品質且多元」的中文內容。
- 建立國家級「可信來源白名單」與開放 API(可由學界、媒體、圖書館共同治理),讓產品端能做檢索增強生成 (RAG) 時優先引用可信資料。
- 支持媒體與學術機構的數位典藏與開放(含去付費牆合作模式、授權補貼、公共採購),避免中文世界的高品質內容被可得性劣勢淘汰。
- 科學家/產業層級:把「可信度」做成可驗證的技術能力
- 建立台灣版中文評測基準(benchmarks):針對主權、公共衛生、災防、法律、教育等高風險領域,設計「可驗證事實+多元觀點」的測試集,定期審計各模型在中文的偏差與引用品質。
- 發展「引用對齊」與「可追溯生成」技術:要求模型輸出必須能追溯到來源段落,並可自動標記「此處屬推論/此處屬事實」。
- 推動「本土 RAG 與安全對齊」的產品化:在關鍵公共議題上,用本土可信語料做檢索增強,而非完全依賴不可見的預訓練資料分布。





























