新闻中心news
雷军的AI福将?罗福莉交出万亿参数模型大作业,林俊旸点赞_MiMo_-Pro_DeepSeek
出品|搜狐科技
作者|常博硕
编辑|杨锦
真相大白了,Hunter Alpha原来是小米罗福莉的“作业”。
事情还要回溯到3月11日,当天全球最大API聚合平台OpenRouter上突然出现了一个代号为Hunter Alpha的模型。短短七天内,累计调用量突破1万亿Token,连续多日登顶榜单。
这个模型没有标注开发者身份,于3月11日以“隐身模型”形式发布,且向开发者提供免费访问。测试显示,该系统具备1万亿参数规模和高达100万token的上下文窗口。
由于模型自称是主要以中文训练的中国AI模型,知识截止时间为2025年5月,不管是性能参数还是知识时间节点都和DeepSeek之前的模型风格很相似,于是市场便纷纷猜测这可能是DeepSeek在正式发布前对其下一代系统进行的秘密测试。
然而,昨天小米 MiMo 团队正式认领了该模型,Hunter Alpha是小米旗舰模型MiMo-V2-Pro的内部测试版本。目前,小米AI团队领军人物是前DeepSeek 核心研究员罗福莉,或许这也是为什么Hunter Alpha会让大家“幻视”DeepSeek吧。
小米也想上桌
在小米新品发布会上,雷军正式发布小米首款自研旗舰大模型Xiaomi MiMo-V2-Pro,此外,小米还推出了相关系列模型MiMo-V2-Omni 和 TTS。
过去一年,小米在AI领域的存在感并不强。既没有阿里那样做基模也不像DeepSeek 在社区靠开源爆火,更像是硬件和生态玩家。但这次Hunter Alpha的表现直接说明,小米已经拥有一支能做万亿级模型的团队。
此次小米共发布三款模型,MiMo-V2-Pro(原Hunter Alpha)是一款面向Agent时代的旗舰基座模型。总参数量1万亿,激活参数控制在42B,并支持1M超长上下文。
MiMo-V2-Omni(原Healer Alpha):全模态理解模型。专为需要快速反应和低延迟的真实场景打造,能够同时处理文本、图像、音频乃至长达一小时的***输入。
MiMo-V2-TTS则是一款拟人语音大模型。
具体来看,MiMo-V2-Pro是此次受关注最高的一款模型,也是小米正式进军智能体时代的标志。与传统以对话体验为核心优化目标的语言模型不同,它的设计起点并非“生成回答”,而是作为 Agent 系统的中枢,能够理解目标、规划步骤、调用外部工具,并在多阶段执行过程中持续修正路径,最终完成任务闭环。
从模型架构来看,MiMo-V2-Pro ***用超大规模稀疏化设计,总参数规模达到万亿级(1T),其中单次推理的激活参数约为 42B。
这一结构本质上是对 MoE(Mixture-of-Experts)体系的进一步工程化实现,大规模专家网络承载知识容量,同时在推理阶段仅激活部分子网络,这就能够在不增加计算成本的情况下扩展模型表达能力。
在注意力机制上,MiMo-V2-Pro 引入改进后的路由注意力(Hybrid Attention)结构,将局部窗口注意力与全局注意力进行分层组合。通过窗口化机制限制计算复杂度的同时还能通过全局路径保留长距离依赖。
这就使得模型能够在长上下文场景下维持稳定推理,不会出现典型的注意力退化问题。
MiMo-V2-Pro的上下文窗口进一步扩展至100万Token。在多步骤任务执行中,模型可以在单次上下文内保留完整的中间状态、工具调用结果以及历史决策路径,从而避免频繁的上下文重建或外部检索。这一特性对于Agent系统尤为关键,使其能够在长链路任务中保持一致性与连贯性。
在此前以Hunter Alpha代号进行的匿名测试阶段,这些能力已经有所体现。根据OpenRouter***的调用数据,模型在上线后使用场景更多是代码生成、开发工具与自动化任务。
从跑分上来看,MiMo-V2-Pro表现确实很不错。
在通用Agent能力评估(ClawEval)中,MiMo-V2-Pro得分61.5,逼近Claude Opus 4.6;在PinchBench测试中排名全球前三。在编码能力方面,其表现甚至超过Claude Sonnet 4.6,接近更高端的Opus级别。
定价上,MiMo-V2-Pro在256K上下文长度内,输入token单价为每百万1美元,输出为每百万3美元;即使扩展到100万上下文,输入也只需每百万2美元,输出每百万6美元,价格约Claude Opus 4.6的五分之一。
林俊旸点赞罗福莉
罗福莉,是这次 MiMo 模型体系中一个绕不开的关键人物。她本科毕业于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所。曾任职于阿里巴巴达摩院、幻方量化及DeepSeek(深度求索)。
在阿里期间,她主导开发了多语言预训练模型VECO;在DeepSeek期间,她是MoE大模型DeepSeek-V2的关键开发者之一。2025年11月,罗福莉加入小米,负责领导MiMo大模型团队。
这次的MiMo-V2-Pro,是罗福莉加入小米后交的第一份大作业。
在模型公布后,她在自己的社交主页写道:MiMo-V2-Pro、Omni 和 TTS 正式发布。这是我们首个真正为智能体时代打造的全栈模型系列。我称之为一次悄无声息的突袭——并非因为我们事先***好的,而是因为从聊天模式到智能体模式的转变发生得太快,连我们自己都难以置信。在这期间,我们经历了一个既激动人心又痛苦不堪,同时又令人着迷的过程。
据罗福莉表示,1T 基础模型早在几个月前就开始训练了。最初的目标是提高长上下文推理的效率。混合注意力机制带来了真正的创新,却又不至于过度扩张。事实证明,它正是智能体时代的理想基础。1M 的上下文窗口。MTP 推理技术实现了超低延迟和成本。这些架构决策并非一时风尚,而是我们在需要之前就构建的结构性优势。真正改变一切的是第一次体验到复杂的智能体框架。
她还透露,自己给团队下了硬性指标: MiMo团队中,每天与AI对话少于100次的人都可以辞职。
在罗福莉看来,一旦团队的想象力被智能系统的功能所激发,这种想象力就直接转化为研发速度。
她还透露,当模型足够稳定值得开源的时候,她会选择开源。随后,前阿里巴巴通义千问(Qwen)系列大模型核心技术负责人林俊旸点赞了该帖,并评论道:“太棒了。”
模型发布后,雷军第一时间表示,“我们刚发布万亿参数大模型 Mimo-V2-Pro。在全球大模型综合智能排行榜 Artificial Analysis 上,位列全球第八。按大模型品牌来排名,排在全球第五,超过了xAI Grok。我们模型刚刚完成,未来一段时间,还会快速迭代增强。”
同时他也承认,小米一直以来在AI领域相对比较低调,实际进展可能比大家看到的要快很多。
对于进军AI这件事,雷军并不吝啬,他表示:“我们今年的研发和资本投入就将超过160亿元。我相信,只要我们坚持持续投入,小米在AI时代一定会交出一份靓丽的答卷。”返回搜狐,查看更多
2026-03-21 11:05:02
浏览次数:
次
返回列表