新榜訊 6月19日,小紅書技術(shù)團(tuán)隊(duì)發(fā)布消息,其深度思考模型借助Test - Time Scaling(測試時(shí)擴(kuò)展)顯著提升了模型推理能力,不過也產(chǎn)生了大量冗余和無效思考情況。小紅書Hi Lab團(tuán)隊(duì)為此提出Think When You Need的強(qiáng)化學(xué)習(xí)訓(xùn)練方式,在不影響最終效果的情況下,實(shí)現(xiàn)了動(dòng)態(tài)CoT能力,讓平均思考長度大幅降低。實(shí)驗(yàn)表明,這一理念在推理及非推理等各類任務(wù)中具有廣泛適用性。此外,團(tuán)隊(duì)還有一項(xiàng)重要發(fā)現(xiàn),在相同任務(wù)下,參數(shù)量大、更為“聰明”的模型所需的思考長度更短,該現(xiàn)象與當(dāng)前深度思考模型的表現(xiàn)相悖,卻高度契合人類認(rèn)知。
掃描二維碼
手機(jī)瀏覽
小紅書Hi Lab團(tuán)隊(duì)提出可大幅降低平均思考長度的強(qiáng)化學(xué)習(xí)訓(xùn)練方式
分享文章鏈接
上一篇

微博升級(jí)防網(wǎng)暴機(jī)制,將主動(dòng)為被網(wǎng)暴用戶開啟“一鍵防護(hù)”
新榜訊 6月19日,微博發(fā)布公告表示,站方監(jiān)測發(fā)現(xiàn),部分用戶在參與爭議話題討論時(shí),公開宣稱遭受網(wǎng)絡(luò)暴力,這一行為引發(fā)了更多網(wǎng)友間的相互攻擊,進(jìn)一步加劇了網(wǎng)絡(luò)暴力風(fēng)險(xiǎn)。
下一篇
抖音尋人攜手全國救助站,啟動(dòng)近十年促1.6萬次團(tuán)圓
新榜訊 6月19日全國救助管理機(jī)構(gòu)“開放日”當(dāng)天,抖音尋人公益項(xiàng)目受邀參與山東省“開放日”活動(dòng),展示其以科技助力尋親的舉措與成效。
跳動(dòng).jpeg)
相似推薦

小紅書AIGC團(tuán)隊(duì)提出圖像和視頻可控人臉生成新算法
新榜訊 8月18日,小紅書方面?zhèn)鞒鱿?,其AIGC團(tuán)隊(duì)正式發(fā)布可控人臉生成方法DynamicFace。

快手Kwaipilot-AutoThink模型正式發(fā)布,讓大模型不再“過度思考”
新榜訊 快手Kwaipilot團(tuán)隊(duì)重磅發(fā)布自動(dòng)思考大模型KAT - V1!該模型具備獨(dú)特優(yōu)勢(shì),能夠依據(jù)任務(wù)難度自動(dòng)切換“思考”與“非思考”模式,成功攻克大模型“過度推理”難題。

字節(jié)跳動(dòng)ByteBrain團(tuán)隊(duì)提出秒級(jí)推理強(qiáng)化學(xué)習(xí)VMR系統(tǒng)
新榜訊 6月5日,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)通過微信公眾號(hào)發(fā)布消息。
上一篇

微博升級(jí)防網(wǎng)暴機(jī)制,將主動(dòng)為被網(wǎng)暴用戶開啟“一鍵防護(hù)”
新榜訊 6月19日,微博發(fā)布公告表示,站方監(jiān)測發(fā)現(xiàn),部分用戶在參與爭議話題討論時(shí),公開宣稱遭受網(wǎng)絡(luò)暴力,這一行為引發(fā)了更多網(wǎng)友間的相互攻擊,進(jìn)一步加劇了網(wǎng)絡(luò)暴力風(fēng)險(xiǎn)。
下一篇
跳動(dòng).jpeg)
抖音尋人攜手全國救助站,啟動(dòng)近十年促1.6萬次團(tuán)圓
新榜訊 6月19日全國救助管理機(jī)構(gòu)“開放日”當(dāng)天,抖音尋人公益項(xiàng)目受邀參與山東省“開放日”活動(dòng),展示其以科技助力尋親的舉措與成效。