RevComm Tech Blog

コミュニケーションを再発明し 人が人を想う社会を創る

言語処理学会第32回年次大会(NLP2026):発表・参加レポート

はじめに

こんにちは、Research Engineerの春日です。宇都宮で開催された言語処理学会第32回年次大会(NLP2026)に参加し、「生成的ASR誤り訂正におけるWeb検索の活用と文脈処理の最適化」というタイトルで発表しました。

本学会ではポスター発表形式で研究成果を報告し、幸いにも多くの参加者の方々と活発な議論を交わすことができました。本レポートでは、私たちが発表した研究の概要に加え、会場の様子や、他の参加者の興味深い研究をご紹介します。

学会の概要

https://www.anlp.jp/nlp2026/

言語処理学会(ANLP)は、自然言語処理(NLP)に関する研究・技術の発展と普及を目的とした、国内最大級の学術コミュニティです。年次大会では、大学・研究機関・企業の研究者や実務者が一堂に会し、最新の研究成果や応用事例について、口頭発表・ポスター発表・デモ展示など多様な形式で議論します。

本大会で扱われるテーマは、言語モデル、音声認識・音声合成、機械翻訳、情報検索、対話システム、要約、評価手法、データセット構築、社会実装や倫理・安全性など幅広く、基礎研究からプロダクトに直結する取り組みまでを俯瞰できる点が特徴です。参加者同士の議論を通じて、研究の課題設定の妥当性や評価設計の改善点が見つかるほか、新たな共同研究やプロジェクトのきっかけが生まれやすい場にもなっています。

また、後述の通り年次大会の規模は年々拡大しており、本大会は発表件数が歴代1位の797件となりました。各セッションにはひっきりなしに聴講者が訪れ、発表時間の90分間はノンストップで議論が続く状況でした。

開催場所

期間:2026年3月9日 ~ 3月13日

会場:ライトキューブ宇都宮 (栃木県宇都宮市) https://light-cube.jp/

参加者数・発表件数・スポンサー数

事前+直前参加登録数: 2,236人 (歴代2位)

発表件数:797件 (歴代1位)

スポンサー数:100団体 (歴代2位)

報告内容のご紹介

題目

生成的ASR誤り訂正におけるWeb検索の活用と文脈処理の最適化

背景・モチベーション

自動音声認識(ASR)技術は近年大きく発展していますが、希少語彙や最新語彙など「未知語」の誤認識は依然として解決が難しい課題です。大規模言語モデル (LLM)を用いた生成的誤り訂正(GEC)はその対処法として注目されていますが、LLMの学習データに含まれない語彙は修正が困難で、ハルシネーションのリスクもあります。

本研究では、Web検索を組み合わせた後処理アプローチでこの問題に対処しました。以下に提案手法の詳細を説明します。

提案手法

Web検索を用いたGECパイプライン

提案手法は、以下の3ステップからなるパイプラインです。

  1. クエリ生成:LLMがASR出力と周辺の文脈を読み込み、誤りを含む可能性のある語彙の情報を得るための検索クエリを生成します。
  2. Web検索:生成されたクエリを外部検索エンジンに投入し、最新情報を取得します。これにより、LLMの学習データに含まれない未知語の修正候補を外部知識として補完できます。
  3. 訂正実行:LLMが検索結果と文脈を照合し、誤り箇所を適切な表記へと修正します。

周辺文脈の拡張

訂正の精度は、LLMに与える「文脈の範囲」に大きく依存します。本研究では以下の3段階の文脈設定を比較しました。

  • 局所的文脈:誤りを含む発話1文のみを入力。最小限の情報で訂正を試みます。
  • 大域的文脈:対話全体の書き起こしを入力。会話の流れや話題を参照することで、より適切な修正候補を導きます。
  • 超大域的文脈:対象の対話に加え、データセット全体から「同一の誤り文字列」を含む他の対話を検索・抽出して統合したものを入力。複数の対話に分散しているヒントを集約し、訂正の手がかりを最大化することを狙っています。

要約アプローチ

長大な文脈はLLMのコンテキスト長や推論コストの観点で課題が生じます。そこで、長大な文脈をそのまま入力する代わりに、LLMに文脈から意味的・音響的特徴を推測した要約を生成させてから入力する「要約アプローチ」も検討しました。

データセット

本研究では、既存のベンチマークでは評価が難しい「最新語彙」に特化したデータセットを独自に構築しました。構築手順は以下の通りです。

  1. 最新語彙の選定:実験当時のモデルに含まれない最新語彙(固有名詞・新語など)を30語選定しました。
  2. 対話テキストの生成:LLMにペルソナを付与し、選定語彙を含む2者間の自然な対話テキスト(20ターン以上)を生成しました。その後、TTS (Text-to-Speech)で音声合成しました。
  3. ASR出力の取得とアノテーション:Whisper-large-v3でASRを実行し、誤り箇所を人手でアノテーションしました。最終的に全309箇所の誤りを収集し、ユニークな誤りは204種類となりました。

主な実験結果

  • Web検索の効果:全条件において「検索あり」が「検索なし」を上回り、未知語の訂正精度が向上しました。
  • 文脈範囲の影響:Geminiは文脈が広がるほど精度が向上し、超大域的文脈+Web検索で正答率最高の0.797を達成しました。一方、ClaudeやLlamaは超大域的文脈になると性能が低下、または伸び悩む傾向が見られました。
  • 要約の有効性:モデル間で結果が二分し、Claude・Llamaは要約によりノイズが減って性能が向上した一方、Gemini・Qwen3は情報欠落により性能が低下しました。

考察・まとめ

Web検索の導入は未知語訂正に対して一定の効果があります。ただし、文脈範囲の拡張や要約の活用はモデルの長文脈処理能力に依存するため、一律に有効とは言えません。実運用においては、推論コストと精度のバランスを考慮しながら、文脈範囲や要約の有無をモデルに合わせて切り替えるシステム設計が有効と考えられます。

いただいた主なご質問

Q1. 対話データの多様性はどの程度確保できているのか?実際の対話とどの程度近いのか?

対話テキストの生成プロセスは、Taoらの手法*1を参考にしています。まず、職種、立場(メンバー・リーダー・マネージャー)、態度(ポジティブ・ネガティブ・ニュートラル)がそれぞれ異なる多様なペルソナをLLMで生成します。次に、それらのうち異なる2者間を、それぞれ顧客と営業として対話データを生成しています。そのため、各データは異なる対話の展開になるよう設計されています。

一方で、合成対話データが実データとどの程度近いかという点については評価できていません。実データにおける本提案手法の有効性の検証は今後の課題となっています。

Q2. Web会議など複数者間の対話でも応用できるか?

可能です。ただし、話者が増えるほど参照すべき「誰が何を言ったか」の追跡が難しくなり、誤り訂正時の根拠となる文脈が散逸しやすくなると考えられます。

Q3. 入力の周辺文脈は実際何トークンぐらいの入力になっているのか?

実験条件やデータによって大きく変わりますが、概算としては、

  • 局所的文脈(近傍数発話):数十〜数百トークン程度
  • 大域的文脈(対話全体):数千トークン程度
  • 超大域的文脈(特定の対話に加えてを追加):1万トークン以上

となり得ます。本研究では入力トークン数と正答率間の相関関係は捉えず、あくまで入力の方法によって文脈の長さを定義づけていますが、今後はトークン数そのもの(推論コスト)と精度の関係も含めて定量的に評価し、実運用での設計指針として整理する必要があります。

Q4. 対象の未知語以外の無関係な箇所まで修正されることはないのか?

本研究では、未知語の誤認識箇所に対する訂正精度のみを評価しており、誤り検出の性能や、それに伴う不適切な修正については評価対象としていません。一方、実運用に向けては、誤り検出を含めたパイプライン全体の性能を文字誤り率(CER)などで評価する必要があり、多角的な検証が今後の課題です。

気になる発表

学会の規模が大きいだけに、興味深い研究はいくつもありましたがここでは3件だけご紹介させていただきます。

音声・テキストペアが存在しない状況におけるTTSおよびSTTによる合成データ混合を用いたASR学習*2

ASRモデルの精度向上には、大量の音声・テキストのペアデータが必要ですが、収録や文字起こしにはコストがかかります。本研究では、音声・テキストのペアが一切存在しない状況を想定し、新聞記事テキストから作成したTTSデータと、自然音声からSTT (Speech-to-Text)で生成したテキストを組み合わせ、合成データのみでWhisperをファインチューニングする手法を提案・検証しています。

実験では、TTSデータのみでは性能が悪化する場合がある一方で、TTS・STTを1:1で混合した場合は、音声・テキストのペアデータ(Original)でのファインチューニングと同等以上のCER改善が得られることが示されました。また、STTの比率が高いほどCERが小さくなる傾向があり、自然音声由来のSTTデータがTTSの音響的な弱みを補完していると考察されています。さらに、ポスター発表時には、TTSデータが4,990時間に対してSTTデータが10時間というごく少量の混合でもCERが改善したという、非常に興味深い結果が示されていました。

実運用では「ペアデータを用意できない」場面が多く、異なる由来のTTS・STT合成データを混合するという実践的なアプローチが示された点が印象的でした。弊社でも実音声へのアノテーションにコストがかかるという課題があるため、合成データを活用したASRモデル更新の一つの指針として、特に関心を持ちました。

大規模言語モデルによる日本語診療テキストからの人名抽出*3

診療テキストの二次利用には個人識別情報の非識別化が必要ですが、人手作業はコストが高く、自動化が求められています。本研究では、東北大学病院の経過記録を対象に、ファインチューニング済みBERT(ModernBERT-Japanese)とzero-shot LLM(Qwen3-32B)による人名抽出性能を比較しました。疑似人名を埋め込んだデータセットを用い、学習データに含まれる「既知」人名と含まれない「未知」人名に分けて評価した点が特徴です。

全体ではBERT(F1=0.971)がLLM(F1=0.932)を上回りましたが、未知人名のみを対象とした場合はLLM(F1=0.899)がBERT(F1=0.876)を上回りました。LLMの主な誤りは施設名の誤抽出(55.6%)で、Precisionが低い一方、Recallは高い傾向がありました。

弊社でも対話データにおける個人情報マスキングの需要が高まっているため、学習データで人名を十分に網羅できる場合はBERT、未知人名が多い別施設・別期間のデータに適用する場合はLLMが有効という、実運用上の使い分け指針を示した点が実践的で印象に残りました。

LLMベース文法誤り訂正における編集の多数決による過剰訂正の抑制*4

LLMによるGECでは、文法的に正しい箇所まで書き換えてしまう「過剰訂正」が頻発します。本研究では、モデルの追加学習なしでこの問題に対処するため、単一LLMから複数の訂正候補を生成し、編集レベルの多数決により、投票数が閾値以上の候補にのみ現れた訂正を採用するアンサンブル推論手法を提案しています。投票数の閾値を調整することで、訂正の抑制度合いを柔軟に変えられる点が特徴です。

gemma-2-9b-itやLlama-3.1-8B-Instructを用いた4-shot実験では、過剰訂正が問題となりやすい低誤り密度ドメイン(CWEB-G)でF0.5が大きく向上しました。追加学習済みモデル(EPO)には効果がなかった点から、提案手法は「過剰訂正を抑制するための推論時アンサンブル」として位置づけられます。私たちの研究と同様にGEC分野の取り組みであり、LLMを実用する際の手軽な改善手法として参考になる研究でした。

最後に

私の発表の日、宇都宮は21年ぶりに10センチを超える大雪に見舞われましたが、そのような状況でも会場は熱気に包まれ、参加者で溢れかえるほどでした。大会のSlackでは参加者同士で活発な議論や暖かなふれあいがあり、近隣の飲食店やお土産の情報交換もあるなど、大規模ながらもアットホームな雰囲気に包まれた素敵な大会でした。宇都宮餃子も美味しかったです。

最後に、当日ブースにお立ち寄りいただき、ご質問やコメントをくださった皆さまに感謝いたします。議論を通じて得られた示唆を今後の研究・開発に反映していきます。

参考文献

*1:Tao Ge, Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, and Dong Yu. Scaling synthetic data creation with 1,000,000,000 personas, 2025. https://arxiv.org/abs/2406.20094

*2:野田 陽, 酒井 眞, 杉野 かおり, 田森 秀明, 岡崎 直観, 乾 健太郎. 音声・テキストペアが存在しない状況におけるTTS および STT による合成データ混合を用いた ASR 学習, 2026. https://www.anlp.jp/proceedings/annual_meeting/2026/pdf_dir/C2-20.pdf

*3:岩瀬 裕哉, 柴田 大作, 大西 颯真, 辻川 剛範, 渡辺 純子, 石井 亮, 中川 敦寛, 香取 幸夫, 久保 雅洋. 大規模言語モデルによる日本語診療テキストからの人名抽出, 2026. https://www.anlp.jp/proceedings/annual_meeting/2026/pdf_dir/Q3-8.pdf

*4:五藤巧, 坂井優介, 渡辺太郎. LLM ベース文法誤り訂正における編集の多数決による過剰訂正の抑制, 2026. https://www.anlp.jp/proceedings/annual_meeting/2026/pdf_dir/P7-14.pdf