免费观看又色又爽又黄的软件,亚洲av色香蕉一区二区

OpenAI 推出新一代語音模型 API

新榜商橋2025-03-21

新榜訊今日凌晨，OpenAI 正式宣布在其 API 中全新上線新一代音頻模型，涵蓋語音轉文本和文本轉語音等功能，為開發(fā)者打造強大語音 Agent 提供有力支持。新產品的核心亮點包括：· gpt-4o-transcribe（語音轉文本）：單詞錯誤率（WER）大幅降低，在多項基準測試中力壓現(xiàn)有 Whisper 模型。其憑借多樣化、高品質音頻數(shù)據(jù)集歷經長時間訓練，能夠精準捕捉語音細微差異，減少誤識別，極大提升轉錄的可靠性，在應對口音繁雜、環(huán)境嘈雜、語速多變等挑戰(zhàn)場景時表現(xiàn)更為出色；· gpt-4o-mini-transcribe（語音轉文本）：作為 gpt-4o-transcribe 的精簡版，基于 GPT-4o-mini 架構，通過知識蒸餾技術從大模型獲取能力，速度更快、效率更高，適用于資源有限但對語音識別質量有要求的應用場景；· gpt-4o-mini-tts（文本轉語音）：首次實現(xiàn)「可引導性」（steerability），開發(fā)者不僅能設定“說什么”，還能掌控“如何說”。具體來說，開發(fā)者能夠預設多種語音風格，并能依據(jù)指令調整語音風格。特別值得注意的是，gpt-4o-transcribe 與 gpt-4o-mini-transcribe 這兩款模型在 FLEURS 多語言基準測試中的表現(xiàn)遠超現(xiàn)有的 Whisper v2 和 v3 模型，在英語、西班牙語等多種語言方面表現(xiàn)尤為突出。在價格方面，gpt-4o-transcribe 與之前的 Whisper 模型定價相同，每分鐘 0.006 美元；而 gpt-4o-mini-transcribe 僅為前者的一半，每分鐘 0.003 美元；gpt-4o-mini-tts 則為每分鐘 0.015 美元。目前，所有全新音頻模型已面向全球開發(fā)者開放。此外，OpenAI 還介紹了兩種構建語音 Agent 的技術路徑：· 「語音到語音模型」采用端到端的直接處理模式：系統(tǒng)能夠直接接收用戶的語音輸入并生成語音回復，無需中間轉換環(huán)節(jié)；· 「鏈式方法」：首先運用語音轉文本模型將用戶語音轉換為文字，接著由大型語言模型(LLM)處理這些文本內容并生成回應文本，最后通過文本轉語音模型將回應轉換為自然語音輸出。其優(yōu)勢在于模塊化設計，各組件可獨立優(yōu)化；處理結果更穩(wěn)定；同時開發(fā)門檻更低，開發(fā)者能夠基于現(xiàn)有文本系統(tǒng)快速增添語音功能。

分享文章鏈接

亚洲av成人无码精品电影在线,无码专区人妻系列日韩精品,婷婷精品免费久久久久久久,69式视频www免费视频,无码人妻丰满熟妇区毛片18

OpenAI 推出新一代語音模型 API