新榜訊 3 月 27 日凌晨,阿里巴巴最新發(fā)布且開源了首個端到端全模態(tài)大模型——通義千問 Qwen2.5-Omni-7B。該模型能夠同時應(yīng)對文本、圖像、音頻以及視頻等多種輸入形式,并能夠?qū)崟r生成文本以及進行自然語音合成輸出。在權(quán)威的多模態(tài)融合任務(wù) OmniBench 等測評當(dāng)中,Qwen2.5-Omni 一舉刷新業(yè)界紀(jì)錄,在全維度上大幅超越 Google 的 Gemini-1.5-Pro 等同類模型。Qwen2.5-Omni 能夠以近似人類的多感官模式“立體”地認(rèn)知世界,并與之進行實時交互,還能夠通過音視頻識別情緒,于復(fù)雜任務(wù)里作出更具智能化、更顯自然的反饋與決策。
掃描二維碼
手機瀏覽
阿里開源首個全模態(tài)大模型Qwen2.5-Omni,7B尺寸實現(xiàn)全球最強性能
分享文章鏈接
相似推薦

阿里通義首個音頻生成模型ThinkSound正式開源
新榜訊 7月5日訊,阿里“通義大模型”公眾號發(fā)布消息,通義實驗室首個音頻生成模型ThinkSound正式開源,此舉將突破“靜音畫面”所帶來的想象力限制。

阿里通義千問登頂全球開源模型榜首
新榜訊 全球最大的 AI 開源社區(qū) Hugging Face 大模型榜單迎來更新,近期阿里通義千問開源的端到端全模態(tài)大模型 Qwen2.5-Omni 榮登總榜首位,DeepSeek-V3-0324 與群核的 SpatialLM-Llama-1B 依次位居其后,杭州公司成功包攬全球開源模型榜單前三甲。

阿里開源全模態(tài)模型R1-Omni 情感識別能力更優(yōu)
新榜訊 昨日,阿里通義實驗室重磅開源 R1-Omni 模型,此模型為業(yè)界首例將具備可驗證獎勵的強化學(xué)習(xí)(RLVR)運用于全能多模態(tài)大語言模型。