教師データの選び方

2020年11月26日配信

教師データの選び方

FRONTEOのアニサ・ヘンダーソン（米国フロリダ州弁護士／米国ワシントンD.C.弁護士）が、AIを活用したレビューにおける教師データの選び方を解説します。

AIを活用したレビューの多くにおいて、まずは教師データが必要になります。eディスカバリの文書レビューで私たちが「教師データ」と読んでいるのは、何らかの方法で選ばれた文書のことで、これをもとにAIで様々な解析を行うことになります。

教師データと言っても、一体どれくらいのデータをどうやって選べばよいでしょうか。

レビュー対象の文書全体から、統計学的理論に基いてランダム抽出された一定数の文書が理想的な教師データとされています。全て統計によって決められる、というわけです。

教師データとして使われるのはどれくらいの数の文書？

レビュー対象の文書からランダム抽出したものが教師データとして使われる、というのは先ほど説明したとおりですが、ではどれくらいの数があれば十分と言えるのでしょうか。ここでは、統計モデルを用いて、どれくらいの数の文書を教師データとして使うべきか（サンプルサイズ）を決めていきます。

参照：https://www.calculator.net/sample-size-calculator.html

レビュー対象の文書数をstatistic calculator（統計計算機）に入力すると、一定の統計的信頼水準と許容誤差を確保するには、どれくらいの数の文書が教師データとして必要になるかが算出されます。FRONTEOでは通常、統計的信頼水準を95%、許容誤差を±2.5%に設定しています。10万件の文書であれば、1,514件のサンプルサイズで、これだけの信頼水準と許容誤差が達成できるというわけです。

信頼水準と許容誤差、サンプルサイズはいずれも相関しています。これについては、EDRM.netで詳しく解説されていますので、参考にしてください。

参考：https://edrm.net/resources/project-guides/edrm-statistical-sampling-applied-to-electronic-discovery/

教師データを新たに作りたくない！

教師データの作成は、正直楽しいものではありません。以前作成した教師データは使えない？サンプルサイズはもっと少なくてもよい？などと思ってしまうのもうなずけます。

何千件もの教師データに目を通す余裕はないけれど、ランダムサンプリングを使いたいというような場合もあるでしょう。そのような場合は、信頼水準や許容誤差を調整することでサンプルサイズを小さくすることができます。しかし、信頼水準、許容誤差ともにそれぞれ90%未満、±5%以上にならないように留めておくのがよいでしょう。

過去に使用した教師データを使うという手もありますが、レビューのプロトコルに変更があったような場合にはリスクを伴います。

その点、FRONTEOが独自に開発した人工知能KIBITは、教師データが少なくても解析に着手することができます（関連性のある文書が50件あれば解析可能）。

その場合のリスクですが、AIはユーザが与えた教師データを元にrelevancy model（関連性の有無を表すモデル）を作成していくため、過去に使用した教師データを再利用したり、教師データの数を減らしたりしてしまうと、最新のレビュー対象文書にうまく適合しないということも考えられます。しかし、通常のレビューでは大量のデータを扱うため、適合率（precision rate）と再現率（recall rate）を使って事前に予想した結果と実際のレビュー結果を比較してみることができます（お使いのレビュープラットフォームや解析ツールによって、簡単に行える場合もありますし、難しい場合もあります）。

実際にレビューした結果が、事前の予想とだいぶ違っているというような場合は、教師データの質や量を改善する必要があります。しかし、そうなればむしろ、レビューしたての文書を、今度は新たな教師データとしてAIに覚えこませることができるので、ラッキーとも言えるでしょう。

アニサ・ヘンダーソン（米国フロリダ州弁護士／米国ワシントンD.C.弁護士）