热点报道:"中国Token出海惠及东南亚本土语言模型"(2种查询记录教程)【详细方法】-太平洋IT百科手机版

　　中新网北京4月20日电(左登基) “海狮说到了我心里。”

　　一位在新加坡工作的外籍工作人员，在饱尝西方人工智能(AI)大模型的苦头后，转而投向本土语言模型。

　　他口中的这只海狮，并非水里的那个萌物，而是一款新加坡政府重金打造的国家级大语言模型项目SEA-LION。

　　而这个项目的基座模型，正是来自中国的阿里通义千问。截至4月15日，在最新的东南亚语言模型榜单上，这款中国模型保持领跑，在印尼语、马来语、泰语、越南语等排行榜上更是高居榜首。

　　不过，这件事颇具戏剧性。这个旨在服务东南亚7亿人口的国家级AI项目，起初用的却是西方模型，结果闹出了将委内瑞拉列为东盟成员国这类低级笑话。

　　这荒诞的一幕，暴露出一个深层问题：7亿东南亚人口，困在了AI的语言围墙里。

　　在这里，本地语言多达1200余种，而主流模型中东南亚语言内容占比，一度只有0.5%。

　　如，当年风靡一时的美国开源模型Llama2，几乎是东南亚文盲，印尼语、泰语、缅甸语这类非拉丁语系文字，处理效率低得惊人。

　　当地人意识到，靠英语语料训练的西方模型，此路不通。

　　新加坡政府率先发力，于2023年12月投入7000万新元(约合3.81亿元人民币)，启动国家级多模态大模型计划，旨在发展东南亚自己的语言模型。

　　破局的关键，要从词元(Token)说起。它是AI处理信息的最小计量单位。

　　通俗地说，AI能否准确理解某种语言，取决于训练时喂进去的语料多少，也就是词元量。

　　西方模型之所以水土不服，根源就在于东南亚语言词元喂得太少。

　　毕竟，语言与文化相连，调性也大不相同。如，菲律宾语对部分词语就会有一些委婉的表达方式，语料喂得不足，大模型根本读不懂其真正含义。

　　变化发生于一次关键的技术转向。2025年11月，海狮宣布弃用Llama架构，改用中国的阿里通义千问作为最新版本的旗舰基座模型。

　　该模型之所以能作为官方唯一的旗舰基座，是由于它很能打，在预训练阶段使用的词元规模就高达36万亿，覆盖全球119种语言和方言。

　　这意味着，它不是后天补习东南亚语言，而是从底层就懂亚洲语境，不仅认识印尼语、马来语等文字，更能从底层理解其语法结构。

　　不仅如此，中国企业还特别参与了后训练阶段，为海狮额外补充了超过1000亿词元的东南亚语种训练。

　　在评估环节，开发团队还特别邀请母语者参与数据质量评估，并为外籍工作人员部署了母语聊天机器人。

　　效果立竿见影。2025年11月，基于中国大模型的海狮V4一经推出，就在东南亚语言模型榜单中登顶。

　　这一转向，也折射出一场全球范围内的词元大迁移。

　　据全球AI模型API聚合平台OpenRouter数据，2026年4月第一周，中国AI大模型周调用量连续五周超越美国，最新一周达12.96万亿词元，约为美国的4.27倍。更可观的是，全球调用量的前六名，都是中国模型。

　　中国词元出海看似横空出世，实则是厚积薄发的必然。

　　国研新经济研究院创始院长朱克力在接受三里河采访时认为，Token出海本质是中国智能算力、模型技术与智能服务体系的全球化输出，是我国人工智能产业从本土应用迈向国际竞争的重要标志，长远看是中国新质生产力对外开放的关键路径，将稳步打造全球智能价值输出新格局。

　　语言不通的数字围墙，如今正被词元一寸寸击穿。而中国AI，率先迈出了第一步。

🌱

⚡️中国Token出海惠及东南亚本土语言模型🥐