
Qwen
@Alibaba_Qwen · 1天前🚀 Qwen3.5-Omni 来了!迈向原生全模态 AGI。
遇见下一代 Qwen,专为原生文本、图像、音频和视频理解而设计,在智能水平和实时交互方面均有重大突破。
一大亮点:‘视听氛围编程’ (Audio-Visual Vibe Coding)。只需对着摄像头描述你的构想,Qwen3.5-Omni-Plus 就能立刻为你构建功能完备的网站或游戏。
离线亮点:
🎞️ 脚本级字幕生成:生成带时间戳、场景切分和说话人映射的详细视频脚本。
🏆 SOTA 性能:在音频方面超越 Gemini-3.1 Pro,并匹配其视听理解能力。
🧠 海量容量:原生处理长达 10 小时的音频或 400 秒的 720p 视频,基于超 1 亿小时的数据训练。
🌎 全球覆盖:识别 113 种语言(语音)并支持 36 种语言口语。
实时功能:
🎧 精细化语音控制:实时调整情感、语速和音量。
🔍 内置网络搜索与复杂函数调用。
👤 语音克隆:通过简短样本自定义 AI 声音,工程化部署即将推出。
💬 类人对话:智能轮次切换,理解真实意图并忽略噪音。
Qwen3.5-Omni 系列包括 Plus、Flash 和 Light 版本。
立即尝试:
博客:qwen.ai/blog?id=qwen3.…
实时交互:点击 VoiceChat/VideoChat 按钮(右下角):chat.qwen.ai
HF-Demo:huggingface.co/spaces/Qwen/Qw…
HF-VoiceOnline-Demo:huggingface.co/spaces/Qwen/Qw…
API-Offline:alibabacloud.com/help/en/model-…
API-Realtime:alibabacloud.com/help/en/model-…
157
557
4,340
2,369
1,041













