銷售咨詢熱線:
售后服務熱線:4000-830-188
捷通華聲靈云語音合成技術:讓人機交互更有“溫度”
【來源】:互聯網 【作者】:匿名 【時間】:2021-12-03 【閱讀】:

      語言的多模態應用已成為人們生活中習以為常的現象,一句簡單的語音控制、一次短暫的智能客服答疑……這些都是 AI 語音交互技術應用為人們生活帶來的便利,與此同時,其社會價值與意義也在被重新估判......

  有 “溫度”的聲音

  語音技術主要分為語音合成(Speech Synthesis, 或者 Text to Speech)、語音識別(Speech Recognition, 或者 Speech to Text)、自然語言處理。其中,語音合成技術發展最早,且應用已較為普遍。

  “說”是人機交互無法忽視的環節,語音合成的重要性日益凸顯。

  語音合成技術旨在通過將文字轉化為語音,讓機器“開口說話”使得機器變得有“溫度”,實現趨于完美的人機交互。

  從早期的機械化語音合成開始發展至今,語音合成的應用場景經歷了較大的轉變。過去語音合成應用主要用于簡單的文本播報,場景相對單調,現其應用場景更復雜更多樣,智能助手、智能機器人、文字閱讀等諸多領域都能見到語音合成技術的身影。

  如在有聲閱讀方面,用戶需求越來越個性化;

  機場、車站廣播等服務業,甜美溫柔的音質可以拉進與乘客間的距離,讓乘客在繁忙的旅途中感受到溫暖;

  人們在聽新聞時,往往期望播音員具有一個渾厚、穩重的聲音;

  服務業客服場景下,人們傾向于聲音更加熱情、親切。

  如何讓合成的聲音聽起來自然并富有情感,是語音合成領域的一個主要發展方向。

  增強語音交互真實感

  傳統的語音合成技術,選音拼接和參數合成兩條路線長期并存。前者音頻、語速真實,但合成效果不穩定,甚至聽不懂,而后者合成內容效果基本穩定,但音質機感濃重,音色損失大,語速不流暢。

  為了提升合成語音自然度、流暢度,研究者們創立了全新的波形生成和序列到序列路線,直接以因果預測的思路逐個生成音頻樣點,追求完全還原,填補了參數合成與波形拼接在音質方面的鴻溝。同時,傳統的參數合成需要另建一個專用的時長模型來預測每字的長度,存在嚴重的機器感。由于端到端路線的發展,Transformer架構的Tacotron系統通過直接建立文本序列到音頻幀序列的映射模型,克服了一字一頓的頑疾。Tacotron-Wavenet填補了參數合成與拼接合成的鴻溝,加大了語音柔順度的提升,完勝傳統參數合成和各種拼接合成。

  捷通華聲所研發的靈云語音合成技術應用最新的深度學習技術,通過引用“全并行架構聲學模型”將轉化速度、韻律預測效果以及聲學模型訓練效果進行提升,將合成語音的音質與自然度提升到與人類接近的水平。

  目前,靈云語音合成技術支持中、英、日、韓、維、藏等多種語言,男聲、女聲、童聲、卡通聲等多種音色,具備熱情、甜美、嚴厲等多種風格,為營銷、導航、新聞、閱讀等領域提供服務支持。

  聲音定制,真正的“人情味兒”

  捷通華聲還可根據用戶需求,通過錄制和制作語音合成定制音庫,在極短時間內定制出各式各樣的高度仿真的人工智能聲音,效果自然且逼真。

  實際上,在AI行業或者用戶群體中,AI語音定制的能力始終被報以高度期待,利用AI模擬人聲,不僅可以注入記憶、陪伴等社會情感因素,還可借助用戶熟悉的聲音觸發更多的應用想象。靈云語音技術可將制作一個高品質聲音所需的訓練時間極大降低,讓AI語音定制不再需耗費過多時間和資源,以更平常方式“飛入尋常百姓家”。

  語音合成技術的快速發展,機器合成語音越發自然生動,富有情感表現力。捷通華聲作為深耕語音合成領域多年的企業,在一次次升級和迭代中,滿足不同場景下越來越多的用戶需求,已廣泛服務于金融、電信、能源、交通、教育、司法、公安、醫療、互聯網等多個領域。

展開
中国chinese军人gay_欧美成人高清在线播放_乱小说录目伦200篇丹丹_两性色午夜视频免费老司机