棋牌牛牛 清程极智翟季冬: token也有“质地问题”

来源:棋牌牛牛游戏平台APP中国最新版 作者: 发布时间: 浏览:103

棋牌牛牛 清程极智翟季冬: token也有“质地问题”

在智能体活跃,token(词元)花费量呈指数级增多的2026年,token经济以及算力的受醉心经过有加无已。以“龙虾”OpenClaw为代表的智能体需要花费算力,用户必须从token供应商处获取API key(密钥),才能让这些智能体正常开动。

不外,许多东谈主不知谈的是,即即是祛除款模子,凭据供应商的不同,其token的“质地”也会存在互异。近日,‌清华大学蓄意机系长聘锻真金不怕火‌、博士生导师,‌清程极智首席科学家翟季冬接管了新京报贝壳财经记者的采访,揭开了token经济中这一“避讳的边缘”。

此外,看成曾携带清华团队十五次赢得国际大学生超算竞赛冠军的教训锻真金不怕火,翟季冬和团队成员也对刻下国产算力芯片何如与大模子进行适配,以及二者之间“推理引擎”层的作用,对新京报贝壳财经记者进行了科普。

‌清华大学蓄意机系长聘锻真金不怕火‌、博士生导师,‌清程极智首席科学家翟季冬复兴记者发问。罗亦丹/摄

祛除模子,低廉token有可能更“用钱”

“token是本年最火的词,但token底层波及许多技艺。”翟季冬开门见平地说,在他看来,token产业不错分为三层:底层是在芯片上部署大模子,分娩token的分娩层;中间层是看成token供应商转运分发token的畅通层;最表层则是个东谈主和企业用户凯旋调用API消费token的使用层。

这三层结构听上去跟电力系统有些相似,但翟季冬强调,两者的纯熟度弥散不在一个量级,“当咱们用电时,毋庸挂念发出来的电有‘离别’,但token不同,相通的模子、相通的价钱,token质地却可能杂沓不皆。”

他告诉记者,实际上,token供应商的规画有许多,除了下里巴人的价钱、高下文长度外,还有首字延伸、隐隐量,以及平日用户较难意会的精度、 KV Cache(键值缓存)掷中等。

而这些“避讳的细节”可能决定模子的服从和token花费的大小。

在模子服从方面,翟季冬例如称,比如模子发布时可能给与了BF16精度,但有些供应商会把它量化成INT8以致INT4来部署,平正是算力花费减半,不错承载更多用户,代价是模子才气被“剪辑”了,不再是原汁原味的服从。

据了解,FP16、INT8等专科术语指的是大模子推理的精度,数字(4/8/16/32/64)代表位数,一般来说,位数越高,蓄意精度越高、终局越准,但速率越慢、花费算力越大;位数越低,速率越快、越省算力,但会轻浅失掉模子服从。

而在token花费量方面,翟季冬给记者算了一笔账:相通的模子,一家供应商报价每百万token3元,另一家报价1元,看似低廉的那家,实际总本钱可能反而更高。“它有两行报价,一瞥是token掷中,可能是一毛钱,token不掷中是一块钱。关联词它的token分娩作念得很差,你的这些申请都不掷中,临了反而用钱。”

清程极智逢迎独创东谈主师天麾评释称,棋牌牛牛这里的中枢技艺是KV Cache(键值缓存)解决——在多轮对话场景中,缓存掷中不错简易90%的本钱,但不同供应商的缓存解决水平差距雄伟,其中报价低的作事商也许缓存并不高,本该简易的那些缓存没能简易,导致总本钱很高。但作事商在卖token时,一般不会凯旋证明缓存掷中率是若干,以致有些作事商凯旋不给缓存掷中的优惠价钱。

针对这一乱象,清程极智推出了AI Ping一站式大模子作事评测与API智能路由平台,面前,平台已接入30余家主流作事商、600余个大模子作事,遮掩文本、图片、视频等全场景;通过7×24小时多地域分散式监测,及时输出延伸、隐隐、可靠性、价钱等中枢规画。

不同供应商提供的DeepSeek-V4-Pro模子的token延伸情况对比图。数据开首:aiping.cn

6月8日,新京报贝壳财经记者登录AI Ping平台,立时搜检了DeepSeek-V4-Pro模子不同token供应商的延伸情况,发现其记载了价钱、延伸、隐隐等规画。如关于延伸这一规画,一些作事商的弧线波动极大,而最为适当的则是DeepSeek官方提供的token。

“中国的电力系统在全寰宇是第一的,咱们但愿通过各式死力,大致把我国token作事的质地和性能也作念到全寰宇第一。”翟季冬说。

芯片发展趋势:赈济的精度类型越来越多

token质地的互异,饮水思源要落到芯片和推理引擎上。一个容易被忽略的事实是:在国产算力和国产模子之间,并不是凯旋对接的酌量,中间还隔着一层至关进犯的“推理引擎”。这层软件继往开来,决定了芯片的算力能不行被高效开释,也决定了最终身产出来的token质地够不够好。

翟季冬用精度问题向贝壳财经记者评释了推理引擎的价值——“许多东谈主认为芯片正在向精度越来越高发展,但事实上,芯片正在向赈济的精度类型越来越多发展,例如,传统CPU可能只赈济三、四种精度类型,而面前的AI芯片能赈济十几种,从FP64、FP32、FP16到FP8、FP4,还有INT8、INT4等整数精度,每一种都有不同的性能和服从量度。”

乐动中国手机app官网

“模子不是说一定要选最高的精度才好,因为精度更高的同期,也更慢,每个模子会选一个恰到平正的精度。”清程极智逢迎独创东谈主唐适之补充谈,“面前来讲,主流模子的选拔每每奴才英伟达走——比如FP8就是英伟达推出Hopper系列显卡时新增的精度,DeepSeek合计FP8最合适我方的模子,就选了这个尺度。”

但问题随之而来:国产芯片的精度赈济并伪善足跟英伟达对皆。“对DeepSeek来讲,国产卡有的精渡过高有的精渡过低,使用起来岂论何如都是有失掉的。”

这恰是推理引擎的用武之地。翟季冬告诉记者,外洋主流推理引擎如vLLM、SGlang对英伟达、AMD的生态赈济更好,但对国产芯片的优化参加有限。针对大模子部署本钱高、国产算力适配不及的痛点,清程极智推出了自主研发的国产推理引擎赤兔,其对国产模子、国产芯片的赈济在很厚情况下比vLLM、SGlang要更好。

这种上风不仅仅体面前精度适配层面。唐适之先容,不同国产芯片的硬件秉性互异很大,比如有些卡的张量蓄意才气和标量蓄意才气之间的量度跟英伟达不一样,有些卡的卡间互联模样也不同,推理引擎需要针对这些特色作念定制化设想。“咱们要着实地凭据国产卡上头的特色来选咱们的罢了有酌量,而不是说看英伟达上头有这个精度就选这个精度。”

“咱们将抓续深耕AI基础门径鸿沟,坚抓中枢技艺自主可控,不时迭代赤兔推理引擎对国产芯片的适配才气,完善AI Ping评测与路由作事,联动国产算力、国产模子、行业期骗等产业链伙伴,打造高效、普惠、安全的国产AI基础门径体系,反馈国度‘东谈主工智能+’行动,以技艺鼎新鼓吹中国AI产业高质地发展。”翟季冬说。

新京报贝壳财经首席记者 罗亦丹 编著 陈莉 校对 柳宝庆棋牌牛牛