評価者としてLLMの判定結果はどこまで信頼できるのか？

この記事はRevComm Advent Calendar 2025 8日目の記事です。

1. はじめに

こんにちは。Research Engineerの髙瀬です。近年、大規模言語モデル（LLM）の性能向上により、テキスト生成や分類タスク、さらには評価やアノテーションなど、様々な場面でLLMが活用されるようになってきました。個人的にも注目しているのが、「LLM as a Judge」というアプローチです。これは、LLM自体を評価者として活用し、他のLLMの出力や分類タスクの正誤を自動的に判定させる手法です。人手が必要な判定作業をLLMで自動化できることは素晴らしいことだと思います。

しかし、ここで重要な疑問が浮かび上がります。

「評価者であるLLMの判定結果を、本当に信頼していいのか？」

LLM as a Judgeによる自動化は、人手アノテーションのコストを削減したり、スケーラブルな評価を実現できる可能性があります。一方で、評価者であるLLMの精度が不十分であれば、誤った判定に基づいて意思決定を行うことになり、かえって問題を引き起こしかねません。そのため、実務でLLMを評価者として採用する前に、その精度を事前に検証することが極めて重要になります。

本記事では、実際の業務で行った対話連続性判定タスクにおいて、GPT-4とChatGPTを用いたLLM as a Judgeの実験を実施し、その精度と実用性を検証した結果を紹介します。

※本記事で紹介する実験は1年前に実施しているため利用しているLLMのモデルが古いことに注意してください。

2. 背景と課題

今回、実務上で膨大なデータに対して精度評価を行う際、人手で正解データを用意する必要が生じました。しかし、人手によるアノテーションには以下の課題があります。

コストの問題：大量のデータに正解ラベルを付与するには、多大な時間とコストが必要
スケーラビリティの問題：データ量が増えるほど、人手での対応が困難になる
一貫性の問題：アノテーターによって判断基準にばらつきが生じる可能性がある

そこで、LLMに判定を任せることで、これらの課題を解決できる可能性があります。しかし、冒頭で述べた通り、評価者LLM自体の判定精度が十分かを検証しなければ、実務での採用はできません。本実験では、実際の業務データを用いて以下の点を明らかにすることを目指しました。

異なるLLMモデル（GPT-4とChatGPT）の判定精度はどの程度か？
プロンプト手法（Zero-Shot、One-Shot、Few-Shot、Self-Consistency）によって精度はどう変わるか？
実務で評価者LLMとして採用できる水準の精度を達成できるか？

これらの検証を通じて、LLM as a Judgeの実用性を評価しました。

3. 実験内容

タスク設定

本実験では、対話の連続性判定タスクを設定しました。具体的には、ある発話に対する返答として適切か不適切かを、LLMを使って自動的にフィルタリングできるかを検証しました。

判定基準は以下の通りです。

適切：対話内の連続する発話のペア
不適切：異なる対話から取得した発話同士を組み合わせたペア

このタスクは対話システムの開発やデータ品質管理において重要です。正しい対話ペアを識別することで、学習データの品質やシステムの応答精度が向上します。

データセット

実験には、MediaSUMデータセットから抽出した発話と返答のペア21件を評価データセットとして使用しました。

評価データセットの構成

適切な発話・返答ペア：10件
不適切な発話・返答ペア：11件

適切な対話データの作成方法

MediaSUMから対話Aを抽出
対話Aから連続する話者の発話と返答を取得
適切データとしてラベルを付与

不適切な対話データの作成方法

MediaSUMから対話A、対話Bを抽出
対話A、対話Bから発話を1件ずつピックアップ
不適切データとしてラベルを付与

データセットのサイズは小規模ですが、本実験の目的は「評価者LLMの精度検証の重要性を示すこと」であり、実務での採用判断に必要な初期検証として位置づけられます。

実験手法

本実験では、以下の2つのモデルと4つのプロンプト手法を用いて比較検証を行いました。

使用モデル：

ChatGPT（GPT-3.5）
GPT-4

プロンプト手法：

Zero-Shot：例を示さず、タスクの説明のみを与える
One-Shot： 1つの例を示してタスクを説明
Few-Shot：複数の例（本実験では2つ）を示してタスクを説明
Self-Consistency：複数回試行して出現頻度が最も多い結論を結果とする手法

各手法について5回試行を行い、Accuracyを評価指標として精度を比較しました。

実験結果

以下に、各プロンプト手法とモデルの組み合わせによる実験結果を示します。

Zero-Shot

試行回数	Accuracy（ChatGPT）	Accuracy（GPT-4）
1	71.43%	95.24%
2	76.19%	95.24%
3	66.67%	95.24%
4	76.19%	95.24%
5	71.43%	95.24%
平均	72.38%	95.24%

One-Shot

試行回数	Accuracy（ChatGPT）	Accuracy（GPT-4）
1	76.19%	95.24%
2	85.71%	90.48%
3	76.19%	95.24%
4	71.43%	90.48%
5	80.95%	90.48%
平均	78.09%	92.38%

Few-Shot

試行回数	Accuracy（ChatGPT）	Accuracy（GPT-4）
1	85.71%	95.24%
2	85.71%	90.48%
3	80.95%	90.48%
4	85.71%	95.24%
5	71.43%	90.48%
平均	81.90%	92.38%

Self-Consistency

試行回数	Accuracy（ChatGPT）	Accuracy（GPT-4）
1	71.43%	95.24%
2	71.43%	95.24%
3	80.95%	95.24%
4	66.67%	95.24%
5	71.43%	95.24%
平均	72.38%	95.24%

4. 考察

モデル別の精度比較

ChatGPTはFew-Shotで最高81.9%の精度を示しましたが、適切な対話データで誤判定が多く、実務採用には不十分な水準でした。一方、GPT-4はすべての手法で90%以上を維持し、Zero-ShotとSelf-Consistencyで95.2%の高精度を達成しました。

プロンプト手法の効果

ChatGPTは具体例を示すことで精度が向上（72.4% → 81.9%）しましたが、GPT-4はプロンプト手法による差が小さく、Zero-Shotで既に高精度を実現しました。これは、モデルの性能が高いほど、複雑なプロンプト設計の必要性が低くなることを示唆しています。

最も重要なポイントは、LLMを評価者として実務で採用する前に、必ず精度検証を行うことです。本実験のように、実際のタスクで小規模データセットを用いて事前検証し、求められる精度水準を満たすかを確認することが不可欠です。

5. まとめ

本記事では、実際の業務で行った対話連続性判定タスクにおける、LLM as a Judgeの実用性を検証しました。LLM as a Judgeは、自動化とスケーラビリティの向上により、評価プロセスを大きく変革する可能性があります。しかし、「評価者LLMの結果を盲目的に信じることは危険」であり、必ず事前に精度検証を行い、求められる水準を満たすかを事前に確認する必要があります。実務においてLLM as a Judgeを活用する際は、事前検証プロセスを踏むことで、信頼性の高い自動評価システムを構築できると思います。

参考文献

https://github.com/zcgzcgzcg1/MediaSum

RevComm Tech Blog

コミュニケーションを再発明し人が人を想う社会を創る