发布时间:2026-04-20 15:22:21 来源: 旅游网
中新网北京4月20日电(左登基) “海狮说到了我心里。”
一位在新加坡工作的外籍工作人员,在饱尝西方人工智能(AI)大模型的苦头后,转而投向本土语言模型。
他口中的这只海狮,并非水里的那个萌物,而是一款新加坡政府重金打造的国家级大语言模型项目SEA-LION。
而这个项目的基座模型,正是来自中国的阿里通义千问。截至4月15日,在最新的东南亚语言模型榜单上,这款中国模型保持领跑,在印尼语、马来语、泰语、越南语等排行榜上更是高居榜首。
不过,这件事颇具戏剧性。这个旨在服务东南亚7亿人口的国家级AI项目,起初用的却是西方模型,结果闹出了将委内瑞拉列为东盟成员国这类低级笑话。
这荒诞的一幕,暴露出一个深层问题:7亿东南亚人口,困在了AI的语言围墙里。
在这里,本地语言多达1200余种,而主流模型中东南亚语言内容占比,一度只有0.5%。
如,当年风靡一时的美国开源模型Llama2,几乎是东南亚文盲,印尼语、泰语、缅甸语这类非拉丁语系文字,处理效率低得惊人。
当地人意识到,靠英语语料训练的西方模型,此路不通。
新加坡政府率先发力,于2023年12月投入7000万新元(约合3.81亿元人民币),启动国家级多模态大模型计划,旨在发展东南亚自己的语言模型。
破局的关键,要从词元(Token)说起。它是AI处理信息的最小计量单位。
通俗地说,AI能否准确理解某种语言,取决于训练时喂进去的语料多少,也就是词元量。
西方模型之所以水土不服,根源就在于东南亚语言词元喂得太少。
毕竟,语言与文化相连,调性也大不相同。如,菲律宾语对部分词语就会有一些委婉的表达方式,语料喂得不足,大模型根本读不懂其真正含义。
变化发生于一次关键的技术转向。2025年11月,海狮宣布弃用Llama架构,改用中国的阿里通义千问作为最新版本的旗舰基座模型。
该模型之所以能作为官方唯一的旗舰基座,是由于它很能打,在预训练阶段使用的词元规模就高达36万亿,覆盖全球119种语言和方言。
这意味着,它不是后天补习东南亚语言,而是从底层就懂亚洲语境,不仅认识印尼语、马来语等文字,更能从底层理解其语法结构。
不仅如此,中国企业还特别参与了后训练阶段,为海狮额外补充了超过1000亿词元的东南亚语种训练。
在评估环节,开发团队还特别邀请母语者参与数据质量评估,并为外籍工作人员部署了母语聊天机器人。
效果立竿见影。2025年11月,基于中国大模型的海狮V4一经推出,就在东南亚语言模型榜单中登顶。
这一转向,也折射出一场全球范围内的词元大迁移。
据全球AI模型API聚合平台OpenRouter数据,2026年4月第一周,中国AI大模型周调用量连续五周超越美国,最新一周达12.96万亿词元,约为美国的4.27倍。更可观的是,全球调用量的前六名,都是中国模型。
中国词元出海看似横空出世,实则是厚积薄发的必然。
国研新经济研究院创始院长朱克力在接受三里河采访时认为,Token出海本质是中国智能算力、模型技术与智能服务体系的全球化输出,是我国人工智能产业从本土应用迈向国际竞争的重要标志,长远看是中国新质生产力对外开放的关键路径,将稳步打造全球智能价值输出新格局。
语言不通的数字围墙,如今正被词元一寸寸击穿。而中国AI,率先迈出了第一步。
🌱