最近公司要求了解一下市面上的多模态大模型,于是编有了这篇文章。
说明:
- 多模态大模型很多,以下仅列举几个目前市面上的优质多模态大模型。
- 大模型技术发展很快,这篇文章列举的大模型随时会过时,请注意时效性。
1. Qwen2.5-Omni(阿里巴巴)
官方博客介绍:https://qwenlm.github.io/zh/blog/qwen2.5-omni/
实时交互体验:
https://chat.qwen.ai/
https://huggingface.co/spaces/Qwen/Qwen2.5-Omni-7B-Demo
Github: https://github.com/QwenLM/Qwen2.5-Omni
如何使用:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/README_CN.md
Hugging Face 地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
模型介绍与计费:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni?spm=a2c4g.11186623.0.i10#undefined
2025年3月27日,阿里巴巴发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B,可同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。
在权威的多模态融合任务OmniBench等测评中,Qwen2.5-Omni刷新业界纪录,全维度超越Google的Gemini-1.5-Pro等同类模型。
Qwen2.5-Omni以接近人类的多感官方式“立体”认知世界并与之实时交互,还能通过音视频识别情绪。
全模态大模型GPT-4o。GPT-4o的参数规模为200B,而Qwen2.5-Omni仅为7B
在一系列同等规模的单模态模型权威基准测试中,Qwen2.5-Omni展现出了全球最强的全模态优异性能。
其中,Hugging Face的测试显示,Qwen2.5-Omni在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的Qwen2-Audio以及Qwen2.5-VL模型,且语音生成测评分数(4.51)达到了与人类持平的能力。
据界面新闻了解,Qwen2.5-Omni在低参数规模情况下全模态性能表现优异的主要原因是技术的创新突破。
Qwen2.5-Omni采用了通义团队全新首创的Thinker-Talker双核架构、Position Embedding(位置嵌入)融合音视频技术、位置编码算法TMRoPE(Time-aligned Multimodal RoPE)。
相比之下,GPT-4o的基础仍然是Transformer架构,只是针对多模态数据进行了优化。
2. Gemini 2.5 Pro(谷歌)
当地时间3月25日,谷歌正式发布其下一代AI模型系列——Gemini 2.5
该模型一经发布,便在各大基准测试上全面“屠榜”,在所有测试中都稳居第一名的位置,包括常见的编程、数学和科学基准测试。
作为原生多模态大模型,Gemini 2.5 Pro可以处理来自文本、音频、图像、视频和大型数据集的多模态输入,还能够理解编码项目的整个代码存储库。
该模型具有高达100万个tokens的超长上下文窗口,谷歌称很快就会扩展到200万个tokens。
3. Mini-Omni2 (清华大学)
Github地址:https://github.com/gpt-omni/mini-omni2
Mini-Omni2 是一个全能型交互式模型,具备理解图像、音频和文本输入的能力,并能与用户进行端到端的语音对话。该模型特点包括实时语音输出、全模态理解以及具备在对话中打断并继续的能力。
实时语音对话:模型具备端到端的语音对话能力,无需额外的自动语音识别(ASR)或文本到语音(TTS)模型。
Qwen2 as the LLM backbone.
litGPT for training and inference.
whisper for audio encoding.
clip for image encoding.
snac for audio decoding.
CosyVoice for generating synthetic speech.
OpenOrca and MOSS for alignment.
4. openAI GPT-4o
闭源,付费,访问诸多限制。
OpenAI的GPT-4o实现了原生语音交互,无需依赖传统ASR-TTS流程,显著提升对话自然度。





