ディスカバリ入門(1/7):ディスカバリベンダー選びは人任せにしない!
2020年2月27日ディスカバリ入門(3/7):「単価」の詳細に要注意!知らないと大損をするディスカバリ支援の見積のトリック
2020年2月27日そのベンダーで本当に大丈夫?
日本企業が国際訴訟に巻き込まれ、ディスカバリベンダーを選ぶことになったらどのようにすればよいでしょうか。
ディスカバリベンダーを選ぶ際に「一番やってはいけない」のが、少しでも費用を安くおさえようとして、見積もり上(ここ注意!)安価な価格を提示してくるディスカバリベンダーを選ぶことです。
作業のクオリティを確認せずに価格だけでベンダーを選んでしまうと、結局見積もりの範囲内では高い精度の作業ができず、予想外の費用が追加されてしまい、逆に割高になることもあります。っまり、単価が安いことは総額が安いことと同義ではないのです。
また、国際訴訟は時間との闘いでもあります。特に、初動対応に遅れると、本来は自社にとって不利な訴訟ではなかったものが、違った結末となってしまったり、本来は支払う必要のなかった和解金を支払わなければならなくなったりしてしまいます。
「初動対応」とは、主に、弁護士選定とディスカバリベンダー選定、そしてリティゲーション・ホールド(証拠対象となる文書およびデータの保護)を指します。ここではベンダー選定と弁護士選定についてお伝えしましょう。
「ディスカバリ入門(1/7):ディスカバリベンダー選びは人任せにしない!」でも説明したように、ベンダー選定は弁護士に一任せず、企業の訴訟担当者と弁護士で共に考えていくことが理想です。そのためにできる、シンプルかつ最も効力がある方法は、弁護士と契約を結ぶ際には必ず契約書に「ディスカバリベンダーの選定については企業側の本社が決める」という一文を入れておくことです。そうすれば、弁護士が自分の既得権益を守るために企業側の意向を聞かずにベンダーを決めるという事態は防げます。
また、ベンダーを決める際には、次のような質問を投げかけることが最低限必要です。
(1) プレディクティブ・コーディングを使うことができるかどうか
プレディクティブ・コーディングとは、レビュー作業をコンピュータによって行うことです。
もう少し詳しく説明するならば、一定のサンプルデー夕を元にして、未調査の関連ファイルを自動で分類することができる「自動ファイル重みづけ機能」のことです。
従来、レビューは人の目視作業によって行ってきましたが、人間は長時間作業を続ければ疲労がたまり、作業効率が落ちたり、正確性が落ちたりします。そもそも正確性や作業スピードはレビュアーによって差があります。Aというレビュアーが平均80%の精度でチェックできたものでも、Bというレビュアーでは60%の精度でしかチェックできなかったり、同じAでも朝一番の作業と比べれば夕方には精度が落ちたりしてしまいます。
コンピュータは疲れ知らず
この点、マシンは疲れ知らずです。しかも、処理が速くて正確です。文書別に重要度を付与するなど、データの分類については90%以上の精度があるとも言われています。作業によっては1台のプレディクティブ・コーディングマシンで4,000人の弁護士に匹敵するスピードと正確性を得ることができるとされています。
このプレディクティブ・コーディングを使えば、確実にディスカバリのコストを下げることができます。それにもかかわらず使おうとしないベンダーは、技術を持っていないか、あるいは、レビューで高額の作業を行うことによる「うまみ」がなくなるから敢えて採用していないのかもしれません。そのようなべンダーは候補から外すべきでしょう。
(2) 日本語対応可能かどうか
次に重要なのは「日本語対応の可否」です。日本に進出しているベンダーにとって日本語対応可能であることが大前提となっていますが、ここではその品質について確認しておこうと思います。
まずは、マシンだけでなく、担当者も日本語対応できるかどうかが重要です。単に「日本語のドキュメントを分析・レビューできるシステムを搭載している」ということでは話になりません。
日本語対応可能の定義:
ここで言う「日本語対応」とは、日本語を母国語として使える人がプロジェクトマネージャーとして関与し、企業のフォローまで行うことを意味します。ベンダー側の担当者が日本語を理解していない場合、依頼者である企業とのやり取りは英語で済ませられたとしても、現場で生じる異変に気付くことは難しいでしょう。例えば、文字化けが発生しているのに、日本語の漢字と文字化けした文字を見分けることができなければ、先の工程まで文字化け対応をしないまま進めてしまうことも考えられます。
また、キーワード検索の語句の選定などにおいてもその差は現れます。こういった小さな差の積み重ねが、結果として納期や費用の大きな違いにつながってしまうことは少なくありません。
日本語対応の範囲と精度
次に、日本語対応の範囲と精度を見てみましょう。
データの収集からレビューに至るまで、一貫した日本語対応が可能でない場合、レビュー前に全ての書類を翻訳する必要が生じ、その分レビューが遅れ、費用も割高になります。レビュー前に資料を翻訳することで、証拠資料が発見できなくなることも考えられるため、このようなことは確実に避けなければなりません。
また、(1)で紹介した「プレディクティブ・コーディング」についても同様のことが言えます。海外ベンダーの中には、「プレディクティブ・コーディングは可能だけれど、日本語には対応していない」というところもあります。見積もりを取ろうとしているベンダーが、日本語に対応したプレディクティブ・コーディングの技術を保有しているかどうか、この点は特に念入りに確認するとよいでしょう。
また、これらについて「全ての範囲で日本語に対応している」とベンダーが主張していても、精度はベンダーごとにばらつきがあるため、精度を確認するためにも、デモンストレーションをしてもらったり、リコール・レートやプレシジョン・レート(以下参照)を確認させてもらったりすることをお勧めします。
プレディクティブ・コーディングとは
※プレディクティブ・コーディング=予測符号化
【人工知能技術/テキストマイニングの高度な分析機能】
▼仕組み
1. 企業の法務担当者あるいは弁護士が少数の文書を精査し訴訟との関係の有無を判断する
2. 教師データを人工知能が学習し、全レビュー対象ファイルを、法務担当者あるいは弁護士が判断した基準で仕分けする。(スコア付け)
学習する教師データによって、学習する対象(専門知・集合知)を選択することができます。
(3)リコール・レートやプレシジョン・レートは開示できるか
プレディクティブ・コーディングの正確性を図る指標のひとつに、「リコール・レート」と「プレシジョン・レート」があります。
リコール・レート(再現率)とは、検索結果として抽出されるべき文書のうち、実際に正しく判定できたものの割合を言います。システムの網羅性を示す指標で、関連性の高い資料を示す値である「レレバント(Relevant)」の捕捉率のことです。その式は以下のように表されます。
対して、プレシジョン・レート(適合率)とは、システムが出した結果において本当に正しい文書が抽出できた割合を言います。システムの正確性を示す指標で、「レレバント」の判定精度を表しています。その式は以下のように表されます。
これらのレートは非常に複雑なものですし、一般の方がその数値を理解するのは難しいかもしれませんが、きちんとしたディスカバリベンダーであれば、サンプルから抽出した数字を蓄積していますし、過去の使用例を提示することも可能なはずです。
ところが、この数字をあいまいにしたがったり、データを抽出していないというベンダーは要注意です。
リコール・レートとプレシジョン・レート
リコール・レート(再現率)とは
プレディクティブ・コーディングで「関連性あり」と抽出した文章のうち、正確データをどれくらい網羅しているかを表す指標。
プレシジョン・レート(適合率)とは
プレディクティブ・コーディングが抽出した文章のうち、正確データとどれくらい一致しているかを表す指標
3つの質問は弁護士を判断する目安にもなる
国際訴訟に慣れていない日本企業の場合、ディスカバリベンダーと直接交渉するのはハードルが高いというケースもあるでしょう。また、弁護士が自社の役員と旧知の仲であるなどして信頼関係が強いため、弁護士がベンダーを選定することに異議を唱えにくいという場合もあるかもしれません。
そんな場合でも、上述の3つの質問は必ず弁護士に投げかけるべきです。「大丈夫!任せてください」という弁護士はいかにも怪しいのです。大丈夫かどうかより、具体的な回答を得られるまで質問を続けていくことが大事です。弁護士と話しても埒が明かない場合は、直接ベンダーと会話させてほしいと交渉すべきです。
弁護士がかたくなにそれを拒む場合、その背後にいるベンダーの実力と対応力を注意深く確認しておくと共に、その弁護士自体も見直した方がよいかもしれません。つまり、ベンダー選定の物差しが、そのまま弁護士選定の物差しとしても機能するということです。