RevComm Tech Blog

コミュニケーションを再発明し 人が人を想う社会を創る

Room Simulatorを用いたデータ拡張によるNeural Speaker Diarizationモデルの実環境適応

RevCommで主に音声認識・音声感情認識・話者分離の研究開発を担当している石塚です。

本記事では、日本音響学会2025年秋季研究発表会で発表した「Room Simulatorを用いたデータ拡張によるNeural Speaker Diarizationモデルの実環境適応」の研究について、解説します。

石塚賢吉(いしづか けんきち)
プリンシパルリサーチエンジニア。筑波大学大学院博士後期課程卒業。博士(工学)。日本HP株式会社にて通信事業者向けのシステム開発、株式会社ドワンゴで全文検索システムの開発などに従事。2019年12月、株式会社RevComm入社。音声認識、音声感情認識、全文検索システムの研究開発を行なっている。
過去記事一覧

背景:「いつ、誰が話しているか」の推定は難しい

AI技術の進歩は目覚ましく、その恩恵はビジネスシーンにも広がっています。特に、会議の音声を自動でテキスト化するアプリケーションは、議事録作成の効率化や情報共有の促進に大きく貢献しており、導入する企業が増加傾向にあります。これらのアプリケーションの中核を担う技術の一つが、Speaker Diarization (SD) です。これは、音声データの中から「いつ、誰が話しているか」を推定する技術であり、会議の参加者を識別し、発言内容を整理するために不可欠です。

しかし、現実は理想通りとは限りません。会議室の環境は千差万別であり、アプリケーションの利用環境によっては、音声品質が大きく劣化する可能性があります。例えば、話者とマイクの距離が遠い場合、音声が小さくなり、周囲の雑音に埋もれてしまうことがあります。また、室内の残響が大きいと、音声の輪郭がぼやけて聞き取りにくくなります。これらの要因が複合的に作用することで、SDの精度が低下し、結果として、テキスト化された議事録の信頼性が損なわれてしまうという課題がありました。

課題:SDモデルの学習には「大量の教師データ」が必要…でも、作成コストが高い

SDモデルを特定の環境、例えば「カフェでの会話をスマートフォンで録音する」のような環境でうまく機能させるためには、その環境で録音された大量の音声データでSDモデルをファインチューンすることが有効です。

しかし、この学習データを作成するには、録音された音声を聞きながら「この区間はAさん、次の区間はBさん…」と、手でラベル付け(アノテーション)することとなり、膨大な時間とコストがかかるという問題がありました 。

解決策:「Room Simulator」でリアルな学習データを人工的に作り出す

そこで注目したのが、「Room Simulator」という技術です。これは、部屋の広さや反響、マイクと話者の位置関係などをコンピュータ上で再現し、まるでその環境で録音したかのような音声をシミュレートできる技術です。

RevCommは、話者ごとに録音されたビデオ会議の音声データを大量に保有しています。本研究では、話者ごとに録音されたビデオ会議の音声データを元として、PyRoomAcousticsという、鏡像法に基づくRoom Simulatorで対象の環境を想定した音声の学習データを大量に生成することを考えます。この手法の利点は以下の通りです。

  • 大量の自然な会話データが使える: 合成音声などでなく、実際のビデオ会議の発話録音なので、会話の内容が自然です
  • ラベル付けが不要: 最初から話者ごとに音声が分かれているため、面倒な手作業のアノテーションが必要ありません
  • 低コストで大量生産: コンピュータ上でシミュレーションするため、大量の学習データを生成できます

評価実験: データセット構築

提案手法の有効性を確かめるため、まず対面会議をスマートフォンで録音する環境を想定した3種類のデータセットを構築しました。

1. Computer Simulation Dataset (CSD) - 人工的な学習データ

MiiTelで行われたビデオ会議(2〜7名)の音声をもとに、会議室とカフェで行われる対面会議をスマートフォンで録音する環境をRoom Simulatorでシミュレートしながら生成した音声のデータセットです。

シミュレートした環境: - 会議室: 8畳の部屋 (4m×5m×2.5m) を想定し、反響や音の減衰を再現しました。話者の音源は会議の参加人数に応じて図1の丸の記号に付与された番号の順番で配置します。

仮想会議室の音源とマイクの配置の例

  • カフェ: 広い空間 (20m×20m×4m) を想定し、Musanデータセットの人混みの環境音や音楽をミックスして、より雑音の多い環境を再現しました。音源とマイクの位置関係は会議室と同じです。

このデータセットの長所と短所:

  • 長所: 高速(AWS EC2 r5.2xlargeインスタンスで音声時間の0.0045倍の処理時間)かつ大量にデータを生成可能です
  • 短所: 現実世界の複雑な音響特性を完全には反映できません

2. Human Annotation Dataset (HAD) - 人間がアノテーションした評価データ

対面会議(30件, 24h)をスマートフォンで録音した音声について、人間が手作業で「いつ、誰が話しているか」をアノテーションして構築した評価用データセットです。これは、最も現実に近い評価用データです。

このデータセットの長所と短所:

  • 長所: 現実の音響特性を最も忠実に反映できます
  • 短所: 作成に音声の長さの約2倍から8倍もの時間がかかり、コストが非常に大きいです

3. Loudspeaker Simulation Dataset (LSD) - 物理的に再現した評価データ

話者ごとに録音されたビデオ会議(125件, 112h)の音声を、図1の構成で複数のスピーカー装置で再生し、スマートフォンで録音することで、会議室での対面会議をスマートフォンで録音する環境を物理的にシミュレーションしながら構築したデータセットです。この方法は、LibriCSSデータセットの作り方を参考にしています。

このデータセットの長所と短所:

  • 長所: 低コストでCSDより現実的な録音環境を反映できます
  • 短所: スピーカーから再生される音声と人間の声道から発せられる音声との違いは反映されず、また録音に実時間分の時間がかかります

評価実験: SDモデルのファインチューニング

次に、PyAnnote Audio 3.1というSDツールキットの事前学習モデルをベースライン (モデルP) として、下記の4種類のファインチューン版のモデル(モデルA〜D)を構築し、精度の比較を行います。

  • モデルP: PyAnnote Audio 3.1の事前学習モデルです
  • モデルA: モデルPを元のビデオ会議音声(386件, 309h)でファインチューン (FT) したモデルです
  • モデルB: モデルPをCSD(386×2[会議室とカフェ]件, 647h)でFTしたモデル。386件の会議はモデルAと同じものです
  • モデルC: モデルPをより大規模なCSD(1,516×2件, 2,536h)でFTしたモデルです
  • モデルD: モデルPをより大規模なCSD(1,516×2件, 2,536h)と、中国語のSDデータセット AISHELL-4(168件, 93h)の学習セットでFTしたモデルです

上記のSDモデルP,A~Dを用いて、学習に使用されていないLSDとHAD、および中国語のSDデータセットであるAISHELL-4のテストセットをSDした時のDiarization Error Rate (DER) を下記の図に示します*1。Diarization Error Rateは、値が小さいほど精度が良いことを示します。

各データセットに対するDiarization Error Rate(DER、エラーバーは標準偏差)

ご覧の通り、Room Simulatorで生成したデータで学習したモデルCモデルDは、既存モデル(モデルP)や、シミュレーションなしのデータで学習したモデル(モデルA)よりも、HADとLSDでのエラー率が大幅に改善していることが分かります。

また、モデルDの結果を見ると、ターゲット環境のデータ (CSD) だけでなく、中国語のデータセットなども追加で学習させることで、特定環境への適応(LSDやHADでの高精度)と、他の環境への対応力(汎化性能)を両立した、より安定して堅牢(ロバスト)なモデルになることが示唆されました。

まとめ

本研究により、Room Simulatorという技術を活用することで、「いつ、誰が話しているか」を特定するAIモデルを、低コストかつ効率的に特定の実環境へ適応させられることがわかりました。

今回は、PyRoomAcousticsという、計算量の小さな鏡像法をベースとするRoom Simulatorを用いましたが、より精密な波動音響解析などのシミュレーション手法を用いた場合に、どのように結果が変わるのかにも興味が湧きます。

今後も、SDの精度改善に取り組んでいきます。

*1:こちらのDERは時間の誤差許容量[ms] のcollar を500ms とし、オーバーラップを無視する設定で計算されていることにご注意ください。