通过一款名为LongCat的新独立APP,美团最新开源的LongCat-Flash-Omni模型正式与公众见面。这款模型以5600亿总参数、仅激活27亿参数的MoE架构,在保持庞大知识容量的同时,实现了极高的推理效率,成为业界首个实现“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大语言模型。
01 全模态实时交互
在AI模型领域,“全模态”已成为新的竞争高地,但多数模型在处理多模态任务时面临响应迟缓的难题。
美团LongCat-Flash-Omni此次最大的突破在于实现了全模态实时交互。
从架构上看,该模型采用完全端到端的统一架构ScMoE,能够同时接收文本、音频、图像、视频及任意组合的多模态输入。
模型通过创新的流式音视频处理机制,将音频与视频特征按照时间片段同步输入LLM,从而实现低延迟的实时语音生成与视觉响应。
在训练方法上,团队采用渐进式早期多模融合训练,从纯文本预训练出发,依次引入音频和视觉数据,逐步建立跨模态语义对齐与时序建模能力。
这种训练策略确保模型在全模态性能强劲的同时,没有任何单模态性能退化,真正实现“全模态不降智”的效果。
02 实测体验
打开LongCat APP,界面简洁却功能丰富,目前支持文字和语音两种输入方式,能进行语音通话,视频通话功能也即将上线。
Web端还增加了图片和文件上传功能。
实测中最直观的感受是两个字——快、稳。
即使在复杂多模态任务面前,模型也能做到即时响应,整个交互体验尤为丝滑。
最近流行的“AI帮忙数羊哄睡”服务测试中,LongCat展现出了惊人的创造力。
它每数到三就跳到十,并幽默地解释是小羊干的,让数到100变得轻松简单。
视频通话内测表现同样出色。
当一个用光的香水瓶出现在镜头前,LongCat能准确识别物体,解读瓶身上的文字,并回答能否带上飞机等实用问题。
在经典的六边形小球弹跳物理问题上,LongCat对物理世界规则的理解令人满意。
它不仅能准确描述球在旋转六边形内受重力和摩擦力影响的弹跳行为,还附上了代码和可视化方案。
图片理解测试中,LongCat展现了强大的“玩梗”能力。
面对一张梗图,它能迅速识别出“鸭(压)岁钱”的谐音梗,并给出正确答案。
语音识别方面,即使在复杂环境下的骑手送餐录音中,伴有背景音乐和环境噪音的干扰,LongCat也能顺利识别出人声信息,并提供相应意见。
03 美团AI战略布局
LongCat系列的成长路径清晰展现了美团迭代模型的逻辑——先快、再专、后全。
第一步速度优先,把模型响应、语音识别、实时生成做到“丝滑不卡”;第二步专业深耕,在复杂逻辑推理、物理仿真、嘈杂语音识别等领域深度优化。
美团核心本地商业CEO王莆中在近期的一次行业大会上明确表示,美团在AI上的投入已达“百亿人民币级”,目标不是做一些点状效率工具,而是让AI真正进入商家关键链路。
美团近年来在AI领域的动作频频。
从领投两家明星具身智能企业它石智航&星海图,到密集发布LongCat系列模型,再到推出AI编程应用NoCode、AI生活助手小美智能体,美团的AI布局看似分散,实则目标明确。
美团通过软硬件“两条腿走路”,以最终实现数字世界和物理世界的深度连接。
软件这边朝着“世界模型”不断迈进,硬件这边则围绕“具身智能”加速落地。
04 餐饮AI应用同步推进
值得注意的是,在发布LongCat APP的同时,美团在餐饮AI应用方面也取得了实质性进展。
10月份,美团“AI接待”已促成近15万堂食消费订单。
此前,AI接待方案试点期间就上线全国超18.6万家门店。
美团“智能掌柜”已全面升级餐饮门店AI电话接待能力,通过语义识别、对话分析等模型的应用,优化堂食服务体验。
美团还一次性推出了三款面向商家的AI助手——袋鼠参谋、袋鼠管家、智能掌柜,以自研大模型LongCat-Flash-Chat作为统一底座,覆盖开店、外卖运营“从重决策到高频运营”的解决方案。
其中,“袋鼠参谋”定位为餐饮商家AI决策工具,重点解决“开不开什么店、开在哪里、卖什么、怎么定价”等高不确定性问题,被王莆中称为“生死级的第一道判断”。
05 技术突破
多模态大模型的发展面临诸多挑战,包括多模态融合难度高、离线理解与流式交互难兼容、实时交互性能受限以及大规模训练效率低等。
LongCat-Flash-Omni通过一系列创新初步解决了这些难题。
团队提出了模态解耦并行训练方案,可以对LLM及编码器的性能、内存占用进行独立优化,确保训练过程中系统长期稳定运行。
通过多阶段退火与上下文扩展训练,模型将上下文窗口扩展至128K tokens,最终在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势,并支持超8分钟的音视频交互。
综合评估结果表明,LongCat-Flash-Omni在综合性的全模态基准测试(如Omni-Bench, WorldSense)上达到了开源最先进水平,各项模态能力均位居开源模型前列。
06行业展望:机遇与挑战并存
美团在AI领域的布局,无疑为行业带来了新的活力和机遇。通过推出LongCat APP和餐饮AI应用,美团不仅为用户提供了更优质的AI服务,也为商家提供了更高效的运营工具。同时,美团的技术突破也为整个行业的发展提供了借鉴和参考。
然而,美团也面临着诸多挑战。在技术方面,虽然LongCat-Flash-Omni模型取得了一定的突破,但与一些国际领先的大模型相比,仍存在一定的差距。在市场竞争方面,AI赛道竞争激烈,其他大厂也在不断加大投入,美团需要不断创新和优化,以保持竞争优势。
专家表示,美团在AI领域的布局具有前瞻性和战略性。通过软硬件“两条腿走路”,美团有望实现数字世界和物理世界的深度连接,重塑服务业生态。但同时,美团也需要关注技术瓶颈、用户接受度、数据安全等问题,以确保其AI战略的顺利实施。
美团推出LongCat APP及其在餐饮AI应用方面的进展,是其AI战略布局的重要一步。这一举措不仅展现了美团在技术创新方面的实力,也为其在激烈的市场竞争中赢得了先机。未来,美团能否在AI赛道上持续领跑,实现用科技重塑服务业的愿景,值得我们期待。
关于文章版权的声明:
https://news.softunis.com/46788.html 文章来自软盟资讯
若非本站原创的文章,特别作如下声明:
本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用,不代表任何监管机构的立场和观点。不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
凡注明为其他媒体来源的信息,均为转载,版权归版权所有人所有。
如有未注明作者及出处的文章和资料等素材,请版权所有者联系我们,我们将及时补上或者删除,共同建设自媒体信息平台,感谢你的支持!
