RevComm Tech Blog

コミュニケーションを再発明し 人が人を想う社会を創る

音声解析

E-BranchformerとMask CTCで高精度かつ高速な音声認識モデルを構築する

概要 こんにちは、RevCommでMiiTelの音声解析機能に関する研究開発を担当している石塚です。前回のRevComm Tech Blogにて、2023年時点でSOTAの精度であったE-Branchformer[1]を利用して日本語の音声認識モデルを構築する記事について書きました。 前回の実験…

日本語の音声コーパスCSJでE-Branchformerの音声認識モデルを作って性能を評価する

こんにちは、RevCommでMiiTelの音声解析機能に関する研究開発を担当している石塚です。 2023年1月に開催された国際会議IEEE Workshop on Spoken Language and Technology (SLT) 2022で発表されたE-Branchformer: Branchformer with Enhanced Merging for Spe…

Whisperの音声認識精度および認識速度の検証

TL;DR 音声認識器Whisperの認識精度と認識速度について調査 認識精度 英語では論文同様の結果 日本語の認識精度はドメインに依存 baseモデルの推論がドメインにより不安定 ビームサーチの利用により、推論の頑健性が向上 largeモデルのCERはbaseモデルの半分…

通話相手が雑音環境下にいても聞き取りやすい電話を目指してみた

RevCommで音声処理の研究開発を担当している加藤集平です。皆さんは電話の通話相手が屋外やカフェなどの雑音環境下にいるために、相手の声が聞こえづらくて苦労した経験はありませんか?本記事では、物理的な音量はそのままに雑音環境下の聞こえ(音声了解度…

音声解析AIによる感情認識機能の裏側 〜筑波大学との共同研究を紹介します〜

こんにちは、RevComm にて主に MiiTel の音声解析機能に関する研究開発を担当している石塚です。 RevComm では、電話営業やお客様対応を可視化する音声解析 AI 搭載型のクラウド IP 電話 MiiTel (ミーテル) を提供しています。 2022年2月9日、その MiiTel に…