在海外,越来越多的人开始使用中国大模型提高工作效率。模型的每一次对话,都在消耗一种名为“词元(Token)”的数字资源。词元是AI理解人类语言的最小单位。好比人类学语言,不会一开始就读整篇文章,而是拆成一个个句子,再把句子拆成字、词。AI理解人类语言,也需要把句子段落先“打碎”
通常来说,一个汉字约等于1个词元;一个英文单词约等于1至2个词元;标点符号也算词元。比如“今天天气很好。”这句话,可以被AI拆分成“今”/“天”/“天”/“气”/“很”/“好”/“。”共约7个词元
当前的大模型,一次能处理的文字量是有限的,比如用户输入一段话,模型生成一段回答,两者加起来不能超过一定数量的词元。AI工具会按照使用的词元数量产生费用,就像打电话按分钟计费一样,输入输出的文字量越多,费用就越高。数据显示:今年3月,中国日均词元调用量已突破140万亿,两年增长超千倍
”词元调用量的本质是真实使用量,背后反映的是AI大模型在真实场景中的渗透深度、应用的频率和广度。“中国AI大模型被全球用户高频使用。这是来自全球用户的认可。”严奕骏说