Qwen3-Omni:新的SOTA多模态模型发布 - merve Qwen团队近期发布了Qwen3-Omni,一款全新的、具备“任意到任意”能力的SOTA(State-of-the-Art)多模态模型,并同步推出了两个演示和三款模型变体。Qwen3-Omni是一个30B MoE模型,具有3B的活跃参数,包含指令(instruct)、思考(thinking,用于推理)和字幕生成(captioner,用于稳健语音生成)三种版本。该模型能够理解图像、文本、音频和视频等多种模态,并可输出文本或语音,支持多达119种文本语言、19种语音输入语言以及10种语音输出语言。它同时支持Transformers和vLLM,并在多项视频和音频基准测试中 …
阅读更多