新榜訊 7月5日訊,阿里“通義大模型”公眾號(hào)發(fā)布消息,通義實(shí)驗(yàn)室首個(gè)音頻生成模型ThinkSound正式開源,此舉將突破“靜音畫面”所帶來的想象力限制。ThinkSound開創(chuàng)性地將CoT應(yīng)用于音頻生成領(lǐng)域,促使AI能夠逐步明晰畫面事件與聲音之間的關(guān)聯(lián),進(jìn)而達(dá)成高保真、強(qiáng)同步的空間音頻生成效果。這并非簡單的“看圖配音”,而是真正意義上的“聽懂畫面”。
掃描二維碼
手機(jī)瀏覽
阿里通義首個(gè)音頻生成模型ThinkSound正式開源
分享文章鏈接
相似推薦

阿里云開源多模態(tài)視頻生成模型通義萬相“Wan2.2-S2V”
新榜訊 8月26日消息,阿里云今日正式開源多模態(tài)視頻生成模型通義萬相“Wan2.2 - S2V”。

阿里通義千問登頂全球開源模型榜首
新榜訊 全球最大的 AI 開源社區(qū) Hugging Face 大模型榜單迎來更新,近期阿里通義千問開源的端到端全模態(tài)大模型 Qwen2.5-Omni 榮登總榜首位,DeepSeek-V3-0324 與群核的 SpatialLM-Llama-1B 依次位居其后,杭州公司成功包攬全球開源模型榜單前三甲。

阿里通義千問與DeepSeek開源兩款新模型
新榜訊 昨日,阿里通義千問和 DeepSeek均低調(diào)開源兩款新模型。