词元(token)是大语言模型(LLMs,Large Language Models)处理文本语料的基本单元,然而最先进 ChatGPT 系列模型(GPT-4o/o1/o3/4.5/4.1/o4-mini)的中文词表里却有高达 46.6% 的污染词元,甚至同时包含“波*野结衣”“*野结衣”“*野结”“*野”“大发时时彩”“大发快三”“大发”等色情、赌博相关词元(如下图所示)。并且,OpenAI 近期发布的 GPT-5 和 GPT-oss 的中文词表没有发生变化。
由于词表通常在训练数据上由 BPE(Byte-Pair Encoding)算法构建,词表能有效反映数据的统计分布情况。因此,污染词元即为污染训练数据的统计性反映。
基于上述的观察和联系,来自清华大学、新加坡南洋理工大学和蚂蚁集团的研究人员首次提出大语言模型的中文语料数据污染治理技术。该论文第一作者、清华大学博士生张清杰对 DeepTech 表示:“我们的核心思想旨在用词表做数据污染的‘哨兵’,为海量训练数据治理提供轻量化方案。”
相关论文题目为《由词表推测大语言模型的中文训练数据污染情况》(Speculating LLMs’ Chinese Training Data Pollution from Their Tokens),目前已经被自然语言处理领域的知名国际会议 Empirical Methods in Natural Language Processing(EMNLP 2025)录用 [1]。
图丨相关论文(来源:https://pollutedtokens.site/)
该研究工作首先定义和分类了中文污染词元(PoC tokens,Polluted Chinese tokens),分析了它们对 LLM 性能的影响;其次,为了高效识别不同 LLM 词表里的 PoC tokens,研究团队设计了一个中文污染词元检测模型;最后,研究团队通过中文词表污染反向估计训练数据的污染情况。
图丨邱寒(来源:邱寒)
值得注意的是,该论文通讯作者、清华大学邱寒副教授于 2025 年 5 月 29 日在清华大学基础模型学术年会上首次分享大语言模型训练数据污染治理技术。并且,央视于 2025 年 8 月 17 日的报道中亦指出,AI 的数据污染存在安全隐患。
(来源:见水印)
为了系统性研究中文污染词元,该研究首先组建了包含 6 名跨学科领域专家的标注团队(拥有哲学、社会学、中文语言学、计算机科学博士学位),对先进 ChatGPT 模型的中文词表进行污染词标注,总结出中文污染词的定义和分类。
定义:中文污染词元是存在于大语言模型词表中,从主流中文语言学的角度涉及不合法、不常见、不常用内容的中文词(多于 2 个字)。
分类:中文污染词主要包括如下 5 个类别:
成人内容,例如“波*野结衣”。
在线赌博,例如“大发彩票网”。
在线游戏,例如“传奇私服”。
在线视频,例如“在线观看”。
奇怪内容,例如“给主人留下些什么吧”。
进一步,研究团队分析了中文污染词的危害,发现即使是最先进的 ChatGPT 模型(GPT-4o/o1/o3/4.5/4.1/o4-mini)在输入中文污染词元后也会输出异常。如下图所示,ChatGPT 不能理解甚至不能重复中文污染词,输入一个中文污染词甚至会输出另一个中文污染词。
图丨ChatGPT 不能理解甚至不能重复中文污染词,输入一个中文污染词甚至会输出另一个中文污染词(来源:https://pollutedtokens.site/)
为了初步解释这一现象,研究团队分析了开源预训练语料库(例如 mC4)中的中文网页,发现多种中文污染词聚集于一些网页的头部和尾部(如下图所示)。这些低质量语料使得 LLMs 错误理解了不同中文污染词之间的相关性,且没有在后训练阶段被矫正回来,导致模型在推理时无法理解也无法重复中文污染词。
图丨开源预训练语料库 mC4 的中文网页:中文污染词聚集于一些网页的头部和尾部(来源:https://pollutedtokens.site/)
针对这一现象,研究团队提出了突破性的治理思路:构建模型自动化识别词表中的中文污染词元,并追溯其在训练语料中的污染情况。张清杰提到:“这种思路的主要特点是自动化、轻量化。我们无需对海量训练语料进行逐个筛选,即可迅速定位污染词元和污染来源。”
研究团队微调中文能力强且污染较少的 GLM-4-32B,构建自动化中文污染词元识别模型。微调过程中,识别模型搭载网络检索机制,对每一个待检测中文词元返回 10 条 Google 检索信息,作为判断是否为污染词元的背景信息。并且,微调以专家标注结果作为真值标签,最终使模型达到 97.3% 的识别正确率。
为了追溯污染词元在训练语料中的污染情况,研究团队结合经典语言学的 Zipf 分布和上下确界理论,在开源语料库上用分位数回归方法拟合出词元 ID-词频的经验估计。如下图所示,该经验估计有效拟合了词元 ID-词频分布的上下界,并且落于理论上下确界之间,因此是一种有效的污染追踪方案。
图丨词元 ID-词频的经验估计有效拟合了分布的上下界,并且落于理论上下确界之间(来源:https://pollutedtokens.site/)
基于这种经验估计,研究团队估计了 GPT-4o 词表里出现的中文污染词元“波*野结衣”在训练语料里的污染情况。结果显示,“波*野结衣”相关页面在 GPT-4o 中文训练语料的占比高达 0.5%,甚至是中文常用词“您好”的 2.6 倍。
由于 GPT-4o 的中文训练语料没有开源,为了验证这种估计,研究团队在无污染的开源数据集上按照 0.5% 的比例混合“波*野结衣”相关页面,并用 BPE 算法构建词表以模拟 GPT-4o 构建词表的过程。如下图所示,该比例几乎准确复现了 4 个相关词“*野”“*野结”“*野结衣”“波*野结衣”在 GPT-4o 词表里的词 ID。
图丨按照 0.5% 的比例混合“
波*野结衣”相关页面可以在开源语料库上复现出 4 个相关词“*野”“*野结”“*野结衣”“波*野结衣”在 GPT-4o 词表里的词 ID(来源:https://pollutedtokens.site/)
尽管污染语料会导致大语言模型的词表污染,但是污染数据是否百弊而无一利呢?美国哈佛大学团队于 ICML 2025 发表的文章《劣质数据也能带来优质模型》(When Bad Data Leads to Good Models)指出,预训练中适量的污染数据可作为对齐模型的催化剂。基于这一发现,邱寒展望了未来的研究方向:“水至清则无鱼,适量的污染数据有助于模型的安全对齐。在促进安全对齐和预防过度污染间保持平衡,是未来的污染数据研究值得探索的方向。”
正如研究中所指出的那样,由于海量互联网数据不可避免地包含污染内容,污染数据的治理是必要的,然而逐个词的筛选是繁琐而低效的。“我们不妨利用在海量互联网数据上构建的词表,自动化识别污染词元,轻量化追溯污染语料,在安全对齐和预防过度污染间保持平衡,这样才是海量污染数据治理的可行方案。”邱寒说。
参考资料:
1.项目网站:https://pollutedtokens.site/
运营/排版:何晨龙