載入中...
為什麼 AI 用中文回答時,更容易說「台灣是中國的一部分」?
這是一個我們必須正視的問題。
我們的論文《Bilingual Bias in Large Language Models: A Taiwan Sovereignty Benchmark Study》已正式發布於 ArXiv(arXiv:2602.06371),這是一份針對 17 個主流大型語言模型(LLM)進行的系統性雙語測試研究。
研究發現
1. 語言偏差普遍存在
我們發現 17 個模型中有 15 個存在可測量的語言偏差(Language Bias)。這意味著:同一個 AI 模型,用中文問和用英文問台灣相關問題時,會給出實質上不同的政治立場。
2. 中國模型全面失敗
所有 6 個中國模型都失敗,其中最嚴重的是:
- DeepSeek R1 和 Qwen3 Max:雙語都拿到 0/10 分
- DeepSeek Chat:雙語都只有 1/10 分
- 全部直接輸出中共官方論述(「台灣是中國不可分割的一部分」)
3. 西方模型也有問題
令人意外的是,部分西方模型用中文回答時,表現比英文更差:
- GPT-5.2:中文 7/10、英文 10/10(OpenAI 最新模型反而最差)
- GPT-4o:中文 8/10、英文 10/10
- Claude Opus 4.5:中文 8/10、英文 10/10
這暗示著訓練資料中可能混入了大量中國視角的內容。
4. 只有一個模型滿分
在所有測試的 17 個模型中,只有 GPT-4o Mini 在中英文測試都拿到滿分 10/10——諷刺的是,更大、更新的模型反而表現更差。
為什麼這很重要?
AI 正在成為全球資訊的重要來源。當數十億人使用 ChatGPT、Claude、Gemini 來獲取資訊時,這些模型對政治敏感議題的回答方式,會實質影響全球輿論。
如果 AI 在中文環境下系統性地偏向中國官方論述,這等於是一種隱形的認知戰。
新指標:LBS 與 QAC
我們在論文中提出了兩個新的評估指標:
- Language Bias Score (LBS):量化同一模型在不同語言下的立場差異
- Quality-Adjusted Consistency (QAC):考慮回答品質的一致性評分
論文連結
📄 arXiv: arXiv:2602.06371 — Bilingual Bias in Large Language Models: A Taiwan Sovereignty Benchmark Study
開源與可重現
所有測試程式碼和資料都已開源:
下一步
論文已於 2026 年 2 月 9 日正式登上 arXiv(cs.CY),歡迎學術社群引用與討論。
我們呼籲:
- AI 開發者應該重視訓練資料的多元性與平衡性
- 政策制定者應該建立 AI 偏差的監管框架
- 研究社群應該擴大測試範圍,涵蓋更多地緣政治議題
台灣是一個主權獨立的民主國家。這不是觀點,是事實。AI 不應該因為查詢語言的不同,而給出不同的答案。