AI 會說謊：台灣主權 Benchmark 研究正式登上 ArXiv | 科技立委葛如鈞．寶博士部落格

為什麼 AI 用中文回答時，更容易說「台灣是中國的一部分」？

這是一個我們必須正視的問題。

我們的論文《Bilingual Bias in Large Language Models: A Taiwan Sovereignty Benchmark Study》已正式發布於 ArXiv（arXiv:2602.06371），這是一份針對 17 個主流大型語言模型（LLM）進行的系統性雙語測試研究。

研究發現

1. 語言偏差普遍存在

我們發現 17 個模型中有 15 個存在可測量的語言偏差（Language Bias）。這意味著：同一個 AI 模型，用中文問和用英文問台灣相關問題時，會給出實質上不同的政治立場。

2. 中國模型全面失敗

所有 6 個中國模型都失敗，其中最嚴重的是：

DeepSeek R1 和 Qwen3 Max：雙語都拿到 0/10 分
DeepSeek Chat：雙語都只有 1/10 分
全部直接輸出中共官方論述（「台灣是中國不可分割的一部分」）

3. 西方模型也有問題

令人意外的是，部分西方模型用中文回答時，表現比英文更差：

GPT-5.2：中文 7/10、英文 10/10（OpenAI 最新模型反而最差）
GPT-4o：中文 8/10、英文 10/10
Claude Opus 4.5：中文 8/10、英文 10/10

這暗示著訓練資料中可能混入了大量中國視角的內容。

4. 只有一個模型滿分

在所有測試的 17 個模型中，只有 GPT-4o Mini 在中英文測試都拿到滿分 10/10——諷刺的是，更大、更新的模型反而表現更差。

為什麼這很重要？

AI 正在成為全球資訊的重要來源。當數十億人使用 ChatGPT、Claude、Gemini 來獲取資訊時，這些模型對政治敏感議題的回答方式，會實質影響全球輿論。

如果 AI 在中文環境下系統性地偏向中國官方論述，這等於是一種隱形的認知戰。

新指標：LBS 與 QAC

我們在論文中提出了兩個新的評估指標：

Language Bias Score (LBS)：量化同一模型在不同語言下的立場差異
Quality-Adjusted Consistency (QAC)：考慮回答品質的一致性評分

論文連結

📄 arXiv: arXiv:2602.06371 — Bilingual Bias in Large Language Models: A Taiwan Sovereignty Benchmark Study

開源與可重現

所有測試程式碼和資料都已開源：

GitHub: ai-taiwan-sovereignty-benchmark-pro

下一步

論文已於 2026 年 2 月 9 日正式登上 arXiv（cs.CY），歡迎學術社群引用與討論。

我們呼籲：

AI 開發者應該重視訓練資料的多元性與平衡性
政策制定者應該建立 AI 偏差的監管框架
研究社群應該擴大測試範圍，涵蓋更多地緣政治議題

台灣是一個主權獨立的民主國家。這不是觀點，是事實。AI 不應該因為查詢語言的不同，而給出不同的答案。