世界上第一个全模态端侧模型,对标GPT-4o!能看会听

最新资讯· 2025-01-16 15:05:51

1月16日消息,面壁智能发布新一代端侧多模态模型——MiniCPM-o 2.6。模型能力对标 GPT-4o,参数仅8B。

据介绍,MiniCPM-o 2.6能够在「真视频、非照片大模型」等多方面达到以端胜云的水平。而实时流式的音视频通话,则凭借类似 GPT-4o 的全模态实时流式视频理解与高级语音对话,能够实现持续看、实时听、自然说。

据悉,在实时流式视频理解能力的代表榜单 StreamingBench上,MiniCPM-o 2.6性能惊艳,比肩GPT-4o、Claude-3.5-Sonnet。

世界上第一个全模态端侧模型,对标GPT-4o!能看会听,实时对话

在语音理解方面,超越 Qwen2-Audio-7B-Instruct,实现通用模型开源SOTA(包括ASR、语音描述等任务)。

世界上第一个全模态端侧模型,对标GPT-4o!能看会听,实时对话

在语音生成方面,MiniCPM-o 2.6超越 GLM-4-Voice 9B,实现通用模型开源SOTA。

世界上第一个全模态端侧模型,对标GPT-4o!能看会听,实时对话

视觉理解能力更是达到了端侧全模态模型最佳水平,超越 GPT-4o、Claude-3.5-Sonnet。(袁宁)

世界上第一个全模态端侧模型,对标GPT-4o!能看会听,实时对话

本文来自网易科技报道,更多资讯和深度内容,关注我们。



文章链接: http://www.huangxinwei.com/chuangye/6905.html Chat AI人工智能机器人在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表炎黄立场。