Research Engineerの石塚です。スペインのバルセロナで開催されたIEEE International Conference on Acoustics, Speech, and Signal Processing 2026 (ICASSP 2026)という国際会議に参加し、「AUTOMATIC ESTIMATION OF SPEAKER DIARIZATION ERROR RATE BASED ON FEATURES OF AUDIO QUALITY AND SPEAKER DISCRIMINABILITY」というタイトルで研究発表を行ってきました。本レポートでは、ICASSP 2026の概要と発表した研究について紹介します。
ICASSP 2026とは
ICASSP 2026とは、音声・音響・信号処理の分野において最大規模を誇る国際会議IEEE International Conference on Acoustics, Speech, and Signal Processingの年次大会であり、2026年5月4日から8日にかけて、スペインのバルセロナにあるバルセロナ国際会議場で開催されました。今回の大会が掲げるメインテーマは「Where Signals Meet Intelligence」であり、これは長年培われてきた伝統的な信号処理技術と、近年の飛躍的な進化を遂げている人工知能(AI)やデータサイエンスとの融合を表しています。
技術的な議論の対象は非常に多岐にわたり、音声認識や言語処理、画像・ビデオ解析といった馴染み深い領域から、次世代通信、さらには脳・コンピュータ・インターフェースといった最先端の分野までを幅広く網羅しています。また、大学や研究機関といったアカデミアのみならず、世界をリードする企業が数多く参加する、産学連携の巨大なプラットフォームとしての側面も持っています。

RevComm Researchでは、業務で行っていた研究開発の成果の一部を論文としてまとめ、本国際会議に投稿して受理されたため、ポスター発表を行ってきました。以降は、その研究内容について説明します。
発表論文: AUTOMATIC ESTIMATION OF SPEAKER DIARIZATION ERROR RATE BASED ON FEATURES OF AUDIO QUALITY AND SPEAKER DISCRIMINABILITY
Speaker Diarization技術とその課題
会議の自動議事録作成などにおいては、「誰がいつ話したか」を特定するSpeaker Diarization(SD)の技術が欠かせません。しかし、この技術は、下記のような環境に応じて、その難易度が大きく変わるという特徴があります。
- 高レベルの環境ノイズや反響
- マイクの品質の低さ
- 声の特徴が似ている複数の話者の存在
そして、単一の静的なSDシステムで、あらゆる現実の音響環境において、高い精度と、計算コストのバランスを維持するのは簡単ではありません。常時、大規模で高精度なSDモデルを使うこともできますが、それではクリーンで簡単な環境においては計算コストの無駄になる可能性があります。そこでより実用的な解決策となるのが、事前に対象の音声をSDした時のエラー率を推定する適応戦略です。つまり、難易度の高い音声のときだけ、より堅牢なSDアルゴリズムに動的に切り替えるシステムとなります。この実行時の戦略によって、クリアな音声に対する不必要な計算コストを最小限に抑えつつ、ダイアライゼーションの精度を確保することができます。また、システムの運用時においても、事前にSDした時のエラー率を推定することができれば、対象の環境での推定エラー率が高いときにユーザにマイクなどの録音環境の改善を促したりといったこともできるでしょう。
論文の提案:Diarization Error Rateを自動で予測する!
音声認識システムにおける単語エラー率(WER)の自動推定は広く研究されていますが、話者ダイアライゼーションのエラー率であるDiarization Error Rate(DER)の自動推定はまだあまり開拓されていない分野です。Diarization Error Rateは下記の式で計算されます。
ここでの は、非音声を音声と誤って認識した部分の長さ、
は音声を非音声と誤って認識した部分の長さ、
は話者を誤って推定した部分の長さ、
は正解の音声の総時間です。
本記事で紹介する論文では、正解データを必要とせず、音声信号から直接SDアルゴリズムのDERを自動的に推定する手法を提案しています。その推定の鍵となるのが、Diarizationのパフォーマンスに影響を与える「2つの要因」を捉える特徴量を抽出するアプローチです。
- 音声品質の特徴量: バックグラウンドノイズなどの環境要因によって引き起こされる音声信号の劣化を捉えるように設計されています。
- 話者の音響的な識別可能性の特徴量: 対象となるSDモデルが生成する話者クラスターの分離可能性を評価するもので、潜在的な話者の混同エラーに関連付けられます。つまり、対話に参加している話者らの声質が似ていて聞き分けるのが難しい状態になっていないかを確認します。
提案手法:DER(Diarization Error Rate)の自動推定アーキテクチャ
本論文が提案するシステムは、正解データを用いることなく、入力された対話の音声信号から直接DERを推定する手法です。このシステムは、ダイアライゼーションの精度低下を招く要因を定量化するため、「音声品質(Audio Quality)」と「話者の識別可能性(Speaker Discriminability)」の2つの特徴量抽出モジュールを実行します。そして、抽出された特徴量をもとに回帰モデルで最終的なDERの予測値を出力するという構成になっています。

音声品質特徴量(Audio Quality Features)
背景ノイズなどの環境要因による音声信号の劣化を捉えるため、以下の2つの指標を抽出します 。
VAD Difference Rate(VAD検出差分率): 軽量なVoice Activity Detection(Weak VAD)と、ノイズに対して堅牢なDNNベースのVAD(Robust VAD)による音声区間検出結果の差分を利用した特徴量です。ノイズの多い環境下では、軽量な信号処理によるVADなどはノイズを音声として誤検出しやすいため、検出される総音声長が堅牢なVADよりも長くなる傾向があります 。この差分率が高いほど音声品質が低く、結果としてDERが高くなると仮定しています。本特徴量の概念図を下記に示します。

概念図 DNSMOS: 音声の知覚的品質(Mean Opinion Score)を予測するモデルであるDNSMOSを利用します。対象のSDシステムから得られた各音声セグメントのスコアを算出し、セグメントの長さに基づいた加重平均を取ることで、録音全体の品質スコアを求めています。
話者の識別可能性特徴量(Speaker Discriminability Features)
SDの話者クラスタリングの難易度を測るため、対象のSDアルゴリズムが生成する話者埋め込み(Speaker Embeddings)から、以下のクラスタリング評価指標を算出します。つまり、声質が似ているなどで、聞き分けるのが難しい状態になっていないかを確認します。
- Davies-Bouldin Index (DBI): クラスターの凝集度(クラスター内の分散)と分離度(クラスター間の距離)を考慮して、クラスタリングの品質を定量化する指標です 。マクロな視点から全体のクラスター構造を評価し、DBIが低い(クラスターが密集し、かつ他と十分に離れている)ほど話者の音響的特徴が明確であり、DERが低くなると仮定します。
- Silhouette Score: 各データポイント(埋め込み表現)が、自身が属するクラスターにどれだけ適合しているか(凝集度)と、最も近い隣接クラスターのすべてのデータポイントからどれだけ離れているか(分離度)を比較する指標です 。DBIがマクロな指標であるのに対し、こちらは各データポイントの妥当性をミクロな視点から評価するものであり、両者は相補的に機能します。
回帰モデルによるDER推定
上記2つのモジュールから得られた計4つの特徴量(VAD Difference Rate、DNSMOS、DBI、Silhouette Score)を特徴量として結合し、回帰モデル(本研究では主にSupport Vector Regressionを使用)に入力します 。これにより、事前の正解アノテーションなしで最終的な予測DERを出力することが可能となります 。
評価実験
今回の提案手法でどの程度の精度でDERを予測できるのかを確かめるため、以下のような条件で検証が行われました。
検証に使ったデータセット
実験には、話者ダイアライゼーションの評価でよく使われる2つの公開データセットを組み合わせて使用しました 。
- VoxConverse: テレビ番組の動画から構成されるデータセットです 。
- MSDWild: 日常会話の動画から構成されるデータセットです 。VoxConverseと比較すると、声の重なりやノイズが多く、ダイアライゼーションを高精度で行うのがより難しいデータになっています 。
対象となるSDモデル
エラー率予測のターゲットとして、仕組みの異なる2つの事前学習済みモデルを使用しました 。
- pyannote.audio 3.1 (Pyan): End-to-End Neural DiarizationとVector Clusteringを組み合わせたEEND-VC手法を採用したSpeaker Diarizationツールキットです。
- Wespeaker (Wesp): 従来型のアルゴリズムを採用したSpeaker Diarizationツールキットです。
実験結果
まず、VoxConverseとMSD Wildの合計899件のテスト音声データについて、音声の各特徴量と、音声をSDした時のDERの構成要素とのピアソンの積率相関係数を確認しました。相関係数は絶対値が1に近いほど「予測と実際の結果がピッタリ連動している」ことを意味します。結果を見ると、特徴量によって、DERのどの構成要素と関係が強いのかが異なっていることがわかります。

さらに、VoxConverseとMSD Wildの学習音声データでSupport Vector Regressionの回帰モデルを構築します。そして、テスト音声データについて、回帰モデルが算出した「推定エラー率」と「実際のエラー率」のピアソンの積率相関係数を算出しました 。その結果、相関係数は以下のようになりました。
- pyannote.audio 3.1 (Pyan)の場合:0.806
- Wespeaker (Wesp)の場合:0.800
0.8以上という数値は一般的に「非常に強い相関がある」と評価されるため、かなり的確にエラー率を予測できることがわかりました。また、各特徴量とDERの間の相関の値より、SVRで構築したモデルによる推定値との相関の値の方が大きくなっていることからも、4つの特徴量を組み合わせることで、より高い推定精度が得られていることがわかります。下記に推定エラー率と実際のエラー率の散布図を示します。

まとめ
本記事では、国際会議ICASSP 2026にてRevComm Researchが発表した、Diarization Error Rate自動推定技術について紹介しました。本研究では、「音声品質」と「話者の識別可能性」という2種類の特徴量を抽出し、回帰モデルを用いて事前のエラー率を予測する手法を提案しました。評価実験の結果、推定値と実際のエラー率の間で約0.8という高い相関が確認され、高精度な予測が可能であることが実証されました。この技術を活用することで、音声の難易度に応じたモデルの動的な切り替えによる計算コストの削減や、ユーザーへの録音環境の改善提案など、より効率的で実用的なシステム運用への応用が期待できます。
今後もRevComm Researchでは、実社会の課題解決に繋がる研究開発を推進し、機会があればこのような国際的な場でも成果を発信していきたいと考えています。