tokens
-
蚂蚁集团百灵大模型Ling-2.6-flash正式开源:104B参数,推理速度340 tokens/s
核心看点 104B总参数-7.4B激活参数:采用混合线性架构,推理速度在4卡H20条件下最快达340 tokens/s,Prefill吞吐达Nemotron-3-Super的2.2倍 极致Token效率:在Artificial Analysis评测中,仅消耗15M tokens完成评测,约为同类模型的1/10,大幅降低商用成本 多精度版本开源:同步提供BF16、FP8、INT4…