語音識別,助力會議語音轉寫
2023-10-23?

通常會議記錄的速度是慢于說話速度的,而對于大部分會議而言,會議記錄內容是參與人員復盤和會議重點提煉的一手材料,尤其是對于大型討論決策型會議,會議記錄的內容準確性不言而喻。

在語音轉寫技術出現以前,會議記錄高度依賴會議記錄人員或書記員的精確錄入,后期還需要進行大量詞匯填充工作,繁瑣且出錯率高。

聲菲特語音轉寫

科技是第一生產力,大數據應用的延伸和硬件系統的成本降低、性能的提升,反哺了人工智能所需要的原始訓練資料,根據相關機構預測,中國語音識別的商用市場在2024年會達到接近300億的收入規模,而GPU的使用量與訓練速度也在成倍增長。隨著越來越多的頭部互聯網廠商的布局和許多新興玩家的加入,使得相應的應用產品愈發趨于成熟,開始走向大規模的商業化,而類似于會議記錄困難這樣的問題,自動實時語音轉寫錄入技術的到來將會得到完美解決。

聲菲特語音轉寫

Q1:語音識別技術是如何發展的?

主要有四個階段。第一個階段(模板匹配階段)是上個世紀50到60年代,語音識別尚處在萌芽階段,通過模板匹配的方式實現,這個階段的特點是只能理解有限的詞匯和內存中的數字,并不能將語音信號轉化為完整的語句或者詞匯,且對于不同的聲音模型,機器的識別也極為有限。

第二個階段(模式和特征分析階段)是智能語音識別的起步階段,時間點是上世紀70、80年代,這一階段可以通過對聲音進行設置特定的模式和參數,并基于大量詞匯可以進行連續的語音識別。仍然處于研究和探索的階段,這一階段的成果主要出自于各高校和研究所。

第三個階段(概率統計建模階段)為成長階段,此階段研究算法主流為概率統計算法建模,主要模型為HHM隱馬爾科夫模型和DMM高斯混合模型,這一階段開始有了面向商用市場的初期產品。而神經網絡模型也在這一時期穩定發展,DBN深度置信網絡由HINTON在2006年提出,并頻繁出現在語音識別領域,開始挑戰主流的算法模型。

第四個階段(深度神經網絡階段)也就是2010年至今,消費級產品越來越常見并且更加專業化,而主流算法模型開始轉向為神經網絡模型,語音識別作為AI交互的接口,應用的場景也更加多樣巧妙。

聲菲特語音轉寫

Q2:語音識別和語音轉寫有什么區別?

實際上這兩種技術是包含關系,即語音轉寫技術是AI語音識別技術的一個分支。語音識別的研究對象是指以語音為研究對象,通過語言處理和模式識別讓機器自動識別理解人類口述語言,進而轉化成文本或者命令的技術。從中可以看出,語音識別是一門涉及廣泛的技術,與聲學、語音學、語言學、信息理論、模式識別理論以及神經生物學等學科都有非常密切的關系。而語音轉寫則是其中一種輸出方式,最直接的就是轉換成為可視化文本樣式輸出,即為語音轉寫技術,它包含了識別與轉寫兩個流程。          

聲菲特語音轉寫

Q3:語音識別目前存在的難點或者發展趨勢是什么?

都可分為三點闡述,難點可歸結為三個問題:1.更有效的序列到序列直接轉換的模型。2.雞尾酒會問題也就是遠講拾音識別。3.持續預測和自適應模型。這三個難點解決了,將會進一步提升語音識別的準確率和適用性與易用性。

發展的趨勢,目前來看主要分為:強降噪發展、語音鏈路整合、多模態結合,這也是頭部相關研究機構和企業的發展的大趨勢所在。

Q4.市面上已有不少語音轉寫產品,主要以軟件或者在線識別為主,離線和在線有何區別差異?

我們生活中其實已經在不知覺中接觸了不少的語音轉寫產品,例如一些手機的輸入法或者游戲中的語音翻譯。但是可以看到,基于單個APP類的產品雖然適用終端非常廣泛,但是識別率和適應性是不具備專業化要求的。更加嚴謹的場合需要更精確、魯棒性更好的系統提供轉寫服務,如正式的新聞發布會,高頻、長時間的轉寫出別字錯字將會極大降低觀感和體驗。

以上是軟件端的局限性,由于設備和適用環境的不同,對本身的產品性能要求并不高。而要求更嚴格的會議場景通常會適用專業會議設備配套語音轉寫系統去完成轉寫記錄任務,這也有區別,目前主流的方式是私有云和公有云識別服務。這兩者的異同也較大,在線(公有云)優勢在于:消費者使用方便,不限制命令詞,廠商開發方便,市場方案很多選擇,BAT巨頭都有參與布局,提供接口可任意定制。但是它的劣勢也比較明顯:需要聯網,對接云端,這對信息保密要求高的企業或者單位個人都是不便的。響應速度慢,成本高。一般都是以并發時長或者引擎能力(中英文、角色區分)或者調用次數收費,雖然初期成本投入較低,長期使用則不然。

離線(私有云)的優勢在于:響應速度快,一般在幾百毫秒內,可快速響應對應命令詞指令。即是識別系統故障也不會影響其他系統的使用,由于使用的私有服務器也不用擔心數據外泄,且對工程師而言,小模塊畫板更便捷。當然這種形式的產品也有一定局限,如詞條限制,這和服務器容量與模型訓練能力有關。

聲菲特語音轉寫

Q5:目前語音轉寫技術主要運用在哪些場合?

語音轉寫其實從字面上也很好理解其應用場景和范圍,常見的需要做會議記錄的會議室或者演講報告廳、新聞發布需要實時轉寫字幕投屏的場景,都能用上語音轉寫技術,比如聲菲特智能語音轉寫系統,配合聲菲特手拉手系統或及數字音頻處理器系統,可實現各類型會議室的智能化會議記錄和會議紀要輸出,各類型保密單位,即聽即所見,可廣泛運用于報告演講、活動交流、新聞發布中的字幕投屏。更加專業化的場景還包括了醫療方面的識別,如病歷錄入和特殊診斷病情溝通(如雙耳失聰患者),公檢法機構相關的有庭審記錄,目前國內在此方面案例已經較為成熟。監獄系統里的審訊室等等。民用方面還有不少新興場景和系統也正在整合語音轉寫技術,它真正的潛力還未完全展露出來。

Q6:聲菲特語音轉寫系統的特點和構成是怎樣的?

聲菲特智能語音轉寫系統Cuckcoo使用場景是培訓會議、重要會議投屏和庭審會議記錄、判決記錄等需要實時轉寫或者語音識別投屏的場合,但是由于它還具備特殊的離線轉寫并發流,因此也支持上傳錄音生成文本并導出的使用方法。這對于安裝了該系統的單位和企業來說,無疑是拓展了一項使用方式,即是是來不及搭建系統的環境,只要錄音保存而后通過聲菲特轉寫系統的處理也能生成對應的會議記錄文件,極大方便了相關人員的整理工作。

主要特點是:1.安全:本地離線引擎,保證數據安全。2.精準:轉寫在標準普通話語音識別和轉寫準確率平均可達 98%以上,識別速度<200ms,大大縮短人工記錄時間,支持語氣詞過濾,提高轉寫結果可讀性。3.網線連接,易于部署,接口齊全,功能豐富,交互友好,支持音頻播放音字對照,方便用戶快速校正,提取會議紀要,實現便捷會議錄音管理。4.靈活:支持熱詞優化、敏感詞約定,提升特定行業詞匯識別率。

聲菲特語音轉寫

系統構成拓撲圖:

聲菲特語音轉寫

Copyright ? 深圳市聲菲特科技技術有限公司    粵ICP備15014534號 公安備案 粵公網安備 44030602004268號