與我們合作

我們專(zhuān)注：網(wǎng)站策劃設(shè)計(jì)、網(wǎng)絡(luò)輿論監(jiān)控、網(wǎng)站優(yōu)化及網(wǎng)站營(yíng)銷(xiāo)、品牌策略與設(shè)計(jì)
主營(yíng)業(yè)務(wù)：網(wǎng)站建設(shè)、移動(dòng)端微信小程序開(kāi)發(fā)、APP開(kāi)發(fā)、網(wǎng)絡(luò)運(yùn)營(yíng)、云產(chǎn)品·運(yùn)維解決方案

有一個(gè)品牌項(xiàng)目想和我們談?wù)剢?

您可以填寫(xiě)右邊的表格，讓我們了解您的項(xiàng)目需求，這是一個(gè)良好的開(kāi)始，我們將會(huì)盡快與您取得聯(lián)系。當(dāng)然也歡迎您給我們寫(xiě)信或是打電話(huà)，讓我們聽(tīng)到您的聲音

您也可通過(guò)下列途徑與我們?nèi)〉寐?lián)系：

地址: 上海市長(zhǎng)寧區(qū)華寧國(guó)際7L

電話(huà): 400-825-2717(咨詢(xún)專(zhuān)線)

電話(huà): 13054973230(售后客戶(hù)服務(wù))

網(wǎng) 址: http://www.njgqt.org.cn

傳真: 021-61488448

郵箱: admin@wumujituan.com

快速提交您的需求 ↓

Hugging Face研究人員推語(yǔ)音識(shí)別模型Distil-Whisper 速度提高、參數(shù)減少

發(fā)布日期：2023-11-09 瀏覽次數(shù)：39951

2023-11-09 14:35 · 稿源：站長(zhǎng)之家

劃重點(diǎn):
? Hugging Face研究人員利用偽標(biāo)記創(chuàng)建了一個(gè)龐大的開(kāi)源數(shù)據(jù)集，用于提煉Whisper模型的較小版本，稱(chēng)為Distil-Whisper。
? Distil-Whisper在挑戰(zhàn)性的聲學(xué)條件下保持了Whisper模型的韌性，同時(shí)減輕了長(zhǎng)篇音頻中的錯(cuò)覺(jué)錯(cuò)誤。
? 自動(dòng)語(yǔ)音識(shí)別（ASR）系統(tǒng)已達(dá)到人類(lèi)水平的準(zhǔn)確度，但由于預(yù)訓(xùn)練模型的不斷增大，在資源受限的環(huán)境中面臨挑戰(zhàn)。

站長(zhǎng)之家（ChinaZ.com）11月9日消息:Hugging Face研究人員最近解決了在資源受限環(huán)境中部署大型預(yù)訓(xùn)練語(yǔ)音識(shí)別模型的問(wèn)題。他們通過(guò)創(chuàng)建一個(gè)龐大的開(kāi)源數(shù)據(jù)集，使用偽標(biāo)記的方法，提煉出了Whisper模型的較小版本，稱(chēng)為Distil-Whisper。

圖源備注：圖片由AI生成，圖片授權(quán)服務(wù)商Midjourney

Whisper語(yǔ)音識(shí)別變壓器模型是在68萬(wàn)小時(shí)的嘈雜互聯(lián)網(wǎng)語(yǔ)音數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練。它包括基于變壓器的編碼器和解碼器組件，在零調(diào)優(yōu)的情況下取得了競(jìng)爭(zhēng)激烈的結(jié)果。而Distil-Whisper是通過(guò)使用偽標(biāo)記進(jìn)行知識(shí)提煉得到的緊湊版本。

Distil-Whisper在挑戰(zhàn)性的聲學(xué)條件下保持了Whisper模型的韌性，同時(shí)減輕了長(zhǎng)篇音頻中的錯(cuò)覺(jué)錯(cuò)誤。這項(xiàng)研究引入了一種針對(duì)語(yǔ)音數(shù)據(jù)的大規(guī)模偽標(biāo)記方法，這是一個(gè)尚未充分開(kāi)發(fā)但頗具前景的知識(shí)提煉途徑。

自動(dòng)語(yǔ)音識(shí)別（ASR）系統(tǒng)已經(jīng)達(dá)到了人類(lèi)水平的準(zhǔn)確度，但由于預(yù)訓(xùn)練模型的不斷增大，在資源受限的環(huán)境中面臨挑戰(zhàn)。Whisper作為一個(gè)大型預(yù)訓(xùn)練ASR模型，在各種數(shù)據(jù)集上表現(xiàn)出色，但在低延遲部署方面可能更實(shí)用。而知識(shí)提煉在壓縮自然語(yǔ)言處理變壓器模型方面已經(jīng)得到了有效應(yīng)用，但在語(yǔ)音識(shí)別中的運(yùn)用尚未得到充分探討。

與原始 Whisper 模型相比，源自知識(shí)蒸餾的 Distil-Whisper 顯著提高了速度并減少了參數(shù)，同時(shí)在具有挑戰(zhàn)性的聲學(xué)條件下保持了彈性。它的加速速度提高了5.8倍，參數(shù)減少了51%，在零樣本場(chǎng)景下的分布外測(cè)試數(shù)據(jù)上實(shí)現(xiàn)了不到1% 的 WER。distil-medium.en 模型的 WER 稍高，但直接推理能力提高了6.8倍，模型壓縮率提高了75%。Whisper 模型在長(zhǎng)格式音頻轉(zhuǎn)錄中容易出現(xiàn)幻覺(jué)錯(cuò)誤，而 Distil-Whisper 可以減輕這些錯(cuò)誤，同時(shí)保持有競(jìng)爭(zhēng)力的 WER 性能。

Distil-Whisper 是通過(guò)知識(shí)蒸餾實(shí)現(xiàn)的 Whisper 模型的緊湊變體。這種創(chuàng)新方法在速度和參數(shù)減少方面產(chǎn)生了顯著的好處，與原始 Whisper 模型相比，Distil-Whisper 速度更快，參數(shù)更少。盡管 WER 稍高，但 distil-medium.en 模型提供了更直接的推理和實(shí)質(zhì)性的模型壓縮。

上一篇：北大騰訊提出多模態(tài)對(duì)齊框架LanguageBind 返回列表 下一篇：小米汽車(chē) xiaomiev.com 網(wǎng)站開(kāi)放訪問(wèn)