ディスカバリ入門(5/7):ディスカバリのノウハウと同様に重要なディスカバリベンダーの技術力
2020年2月29日用語集
2020年3月5日あらゆるビジネスの場面で「相見積もり」を取ることが一般的になっていますが、実はディスカバリ業界では相見積もりに至るケースは多くありません。
その理由は、ベンダーによって見積もりの形式がまちまちで、見積もりの見方が分からない、比較のしようがない、という点にあります。競合企業が少ないというわけではないのです。むしろ、ディスカバリ市場は企業の保有するデータ量の増加に比例して拡大を続けており、新たなディスカバリ支援ベンダーやベンダーが次々と誕生しています。この点が企業側がうまくディスカバリのコストをコントロールできない一番の理由のようです。
見積額と請求額に差があるのは日常茶飯事?
製造販売業にしてもサービス業にしても、一般的なビジネスでは見積もりの価格と実際の価格が大きく異なるケースはまれです。仮に実際の請求額が見積もりよりも大幅に増えたということになれば、発注担当者に迷惑がかかりますし、請け負った企業も見積もり段階での計画性の甘さを指摘されかねないため、少しオーバーした位なら見積もり通りの金額で収めてしまいます。やむを得ない事情で見積額を超えてしまうことが予想される場合でも、受注側から発注側に一声かけ、許可を得るのが通常ではないでしょうか。
ところが、ディスカバリ業界では、見積額と実際の請求金額が大きく異なる場合が往々にして発生します。これは見積もりは「参考価格」でしかないことを示しています。見積もりの段階で複数社の価格を比較し、安いベンダーを選んだつもりが、最終的に請求額を見たら他のベンダーより割高になっていたというケースも少なくありません。
なおかつ、企業にとっては、そのように請求された金額が妥当かどうかの判断すら難しいというのが現状です。ベンダーから直接請求されるのではなく、間に入っている法律事務所を通してディスカバリ料金を請求されるということも、余計に内容を確認しづらくさせている要因です。
請求金額に疑問があったとしても、その金額の妥当性について、ディスカバリ終了後に業務委託したベンダー以外のベンダーに「第三者としてこの金額は果たして妥当ですか」とたずねるわけにはいきません。かといって、訴訟を経験した他の企業の法務部に「あなたの会社ではどれくらいのディスカバリ費用がかかりましたか?」と聞くのも非現実的です。結果として、ディスカバリの費用内容はあいまいなままに始まり、あいまいなままに終わるケースが非常に多いと言えます。
正しい見積もりを手にするためのポイント
相手方から訴状が届き、応訴すると決めた段階で、おそらく弁護士からは「ディスカバリ対策を講じるように」との要請があるでしょう。企業の法務部は要請を受けて、ディスカバリ支援ベンダーに見積もりを依頼し、その金額と内容、実績などを参考にしてベンダーを選定していくことになります。
ベンダー選びは、弁護士自身(正確に言えば弁護士ではなく、弁護士の所属する法律事務所のリティゲーション・サポートという社内部署)が行います。しかし、ここで注意しなければいけないのは、このディスカバリベンダーの選定を、アメリカの法律事務所や米国の現地法人に一任するのは非常にリスクが大きいという点です。
なぜかといいますと、ディスカバリの経験がない企業にとっては、見積もりの内訳やベンダー選びの企業が分かりづらく判断が難しいため、法律事務所の言うがままにベンダーを選び、言い値で契約してしまうケースも少なくないケースが見られます。選んだベンダーの作業が高品質であればよいのですが、もしそうでなかった場合、相場より高い金額で契約した上に低品質なディスカバリとなってしまい、訴訟が不利な結果となってしまっては目も当てられません。
以下では、そうした失敗を未然に防ぐために「失敗しない見積もりの見方」を紹介していきます。
質の高いディスカバリベンダーは見積もりの項目が細かい
例1は、あるディスカバリ総合支援ベンダーが実際に用いている見積書です。ディスカバリを経験したことのない法務担当者にとっては、初めて目にする内容かもしれません。
詳しい解説は後で行うので、ここではまず、自身がディスカバリベンダーを選ぶつもりで、自分なりの所見や疑問点をメモしながら見てみることをお勧めします。ご自分なりの解釈や疑問点をメモしてみてください。
その後に下記の解説を見ていただければ、どのような誤りに陥りやすいかが分かりやすいでしょう。
チェックポイント 1.ディスカバリの工程ごとに見積もりが算出されているか
「データコレクション」「データプロセス/アナリシス」「データホスティング」といった項目は、ディスカバリの各工程を示しています。こうして工程ごとに費用が算出してあれば、たとえ概算であってもトータルの金額における各作業のコスト割合が分かりやすいのです。
各工程の中でも「レビュー費用」に最も多くのコストがかかっている点に注意しましょう。このレビューこそがディスカバリにおける最重要工程で、勘の良い方であれば「このレビュー費用を圧縮すれば全体のコストが大きく変わるのでは」と判断することもできるでしょう。
ディスカバリ作業では、ドキュメントを集め、(ドキュメントを)分析し、それ(ドキュメント)が証拠として成り立つかどうかを調べ、(ドキュメントを)提出します。つまり、対象のほとんどが「ドキュメント」です。ですから、見積もりは常に「単価ベース」で算出されるのが一般的です。
しかし、ドキュメント1部あたりの計算になると正確な数を調べるだけでも大変なので、実際には「パソコン1台あたり」「ハードディスク1枚あたり」といった数え方をします。あるいはデータごとに容量が異なるために「1 GBあたり」といった計算をする場合もあります。
ディスカバリの実績のあるベンダーであれば、企業規模によってどれくらいの作業を行えばよいか、把握しているものです。そこで算出されるのが「想定量」です。つまるところ、ディスカバリの見積もりは「単価x想定量」でトータルコストが算出されるわけです。
ベンダーによってはこの想定量を示さず「単価」のみの見積書を提示するところも少なくありません。「どうしてトータルコストが算出されないのか」と聞いてみると、たいてい「どれくらいのデータ量をディスカバリすることになるか分からないので算出できない」という回答が返ってくるはずです。
この回答を額面通りに受け取るなら「なるほど、データが少なければトータル金額も少なくなり、逆にデータが多ければ増えるのだな」と理解できます。
そうなった時に法務担当者がコスト削減の方法として真っ先に考えるのは「データ量の削減」です。ですが、不用意にデータ量を削減しようとして、本来証拠として提出しなければならないものまで削除してしまうと、証拠の隠ぺいとして逆に罰せられることがあるので、そのあたりは慎重にならなくてはいけません。
また、「想定データ量が分からない」という回答は、うがった見方をすれば「ディスカバリの実績が少ない」あるいは「見積もりとして開示したくない」とも捉えられます。見積もりの算出方法がざっくりとしたものであればあるほど、見積額と実際の請求金額との間に開きがあっても言い訳ができるからです。
特に時間あたりで算出されている項目は気をつけなければなりません。例えばレビュー金額を見積もる際、「ドキュメントを1時間あたり〇枚レビューする」というデータが示されているベンダーは良心的です。しかし、そのデー夕が明らかでない場合、「わざと時間をかけて金額をつり上げる」ことだってできてしまいます。
また、作業品質の低いベンダーや、日本語対応ができていないベンダーの場合では、レビュー前に文字化けが発生し、データプロセスの段階までさかのぼって作業のやり直しが必要になるようなケースが発生します。そうした「ベンダー自身のミス」に起因するやり直し作業を発注者に堂々と請求してくるベンダーも少なくありません。
だからこそ見積もりは「単価×想定量」で計算されていることが前提条件です。ディスカバリに実績のあるベンダーなら、企業規模から想定量を推測するのは難しいことではありません。
冒頭で挙げた見積もりでは「(注)」として別途発生する費用の項目が記されています。これも一般的な見積もりとしては当然のことと言えますが、ベンダーによっては全く記さないこともあります。
例えば、「日本語で作成された文書は別途見積もりによって計算し直す」といった注意事項や、「メーラーを介して送受信されたメールの解析は別料金」といった、本来は事前に説明すべきオプションが次から次へと加算され、結果的に最初に提示された見積もりから大きくかけ離れた金額になったという話もよく聞きます。
また、後述するホスティング費用やロードファイル作成、アップロード費用といった作業が見積もりに含まれていない場合も多くあります。さらに特殊なファイル形式の処理に対処する追加作業も費用に含まれていないことが多いので、そういったファイルを扱う企業は注意して確認することをお勧めします。
ディスカバリの作業工程別見積もりの見方
ここまで、見積もりを見る際の基本的事項や前提条件、特に他社と相見積もりを取った際の比較の仕方について簡単に説明しました。ここからは、先ほど例に挙げた見積もり例に沿って、詳細を説明していきます。
(1) データコレクション
データコレクションとは、狭義で言えば証拠となりうるデータを複製、収集することです。この見積もり例では、準備工程から複製、収集に至るまでのプロセスをひとくくりにまとめてあります。準備工程とはすなわち、デー夕の特定、保全作業です。
- デー夕の特定・保全のファ-ストステップとして、ヒアリングを行います。訴訟に関連する部署や関係者の特定から始まり、情報システム担当者に対してはシステムやファイル形式の確認はもちろんのこと、データの保管ルールや規定についても聞き出さなければなりません。
- データの上書きや消失、改ざんなどが行われないよう保全の手順についても打ち合わせし、関係者の同意を得ておく必要があります。
- どの人物がどういった資科を所持しているか、あるいはどのメディアにどういったデータが保存されているか、後々のディスカバリ作業ですぐに確認できるよう「データマップ」を作成することも必要です。
このデータコレクションを行うにあたり、ベンダーはエンジニアを企業に派遣する必要があります。作業は数日かけて行われることが多く、その場合の交通費や宿泊費は別途加算さます。また、見積もりにある「想定量」とは対象デバイスに対する作業費であり、複製したデータを保存するハードディスクや、さらにそれをバックアップするためのハードディスクは別途請求となる場合もあります。
(2) データプロセス
データプロセスとは、収集したデータを分析に、電子データから必要な情報を取り出し、データベース化する「データの処理」作業です。
前工程で保全・収集したデータは膨大な量で、これを原告・被告が全て閲覧することは不可能です。当然、訴訟に関係のないデータも多く含まれており、そうした不要な書類を迅速にふるい落としていかなくてはなりません。
データプロセス作業には、データのカリング(culling)、フィルタリングに関する7種類の作業とその周辺作業(準備作業など)が含まれます。
以下に示す①~⑥は、⑦およびこのあとのデータアナリシスのための準備作業となります。カリングとは、まったく関係のないデータを事前に対象から外すことで、もっとも分かりやすいのはプログラムの構成ファイルやOSの構成ファイルを外す作業です。
① 圧縮ファイルやアーカイブファイルの展開
② プログラムファイルやOSデータの除外
③ 重複ファイルの削除
④ 日付や期間によるフィルタリング
⑤ テキスト情報の抽出
⑥ メタデータの抽出
⑦ 検索用インデックスの作成
圧縮されているファイルは、そのままでは内容を確認することができないため、展開して確認できるようにし、同一のファイルを複数の関係者が所持していたり複数の記録媒体に保存してある場合には、それらも対象から外します。ある程度絞り込みを行った上でテキスト情報やメタデータ情報を抽出し、作成されたインデックスごとに整理・格納していきます。
現在、ディスカバリで開示される情報のほとんどが電子データです。複数台のパソコンやサーバ、移動端末に保存されたデータ、電子メールのアーカイブデータまで含めると、膨大な情報量になります。前述したとおり、パソコン1台分のデータをプリントアウトすると2トントラック約4台分の書類になってしまうというから、カストディアン(データ保持者)が20人いれば、純粋にトラック80台分の書類が対象となってしまいます。
それらの全ての書類を、弁護士やスタッフロイヤーが目視し、証拠として採用するかどうかを特定していくのは事実上不可能です。仮に可能だとしても、弁護士への支払いだけで巨額の費用が必要となり、加えて気の遠くなるような時間が必要です。
また、訴訟に関係のないデータを開示することは、企業戦略の上で不利となることは明らかです。新製品に関する情報を、発売前にみすみす公開するようなことがあってはなりません。
だからこそ高度なIT技術を用い、明らかに訴訟と関係のない書類を振るい落としていくことになります。この仕分けの作業が「データプロセス」であり、この作業の精度が後のディスカバリ工程の精度に関わってくる、非常に大切な作業です。
(3)データアナリシス
データアナリシスでは、今までの工程で準備されたデータを解析し、証拠となるデータをレビューするための準備を行います。詳細なデータプロセス作業を行ったとしても、訴訟に関係のないデータは依然として大きな割合を占めるからです。そこで企業と弁護士がキーワードを選定し、ディスカバリ支援ベンダーが協力して、技術的なアドバイスを行っていきます。
その後、さらに高度なキーワード検索を行い対象データを特定・抽出していくことで、必要なデータだけに絞り込みをかけます。これが「分析(アナリシス)」と呼ばれる作業です。
ここで発生する作業は、大きく分けて3つあります。
① キーワード検索
② ASCIIコードおよびアジア言語処理
③ 言語検出
アナリシスが適切に行われ、必要なデータを絞り込むことができれば、次工程であるレビューの精度・効率が高まり、ディスカバリそのものもスムーズに進むはずです。
ここで注意しなければならないのは、ベンダーが②のようにアジア言語に対応した処理を行っているかです。
日本語に対応していなければレビュー工程で「書類が文字化けして見られない」あるいは「ドキュメントの絞り込みが充分でない」という問題が起こり、レビューが計画通りに終了しない、といったトラブルが発生することも考えられます。
「日本語が読める」という環境と
「日本語に対応できる」環境は違う
日本独自のアプリケーション文化に対応しているかどうかも重要です。例えばメールソフト(メーラー)はMicrosoft社製のOutlookを使用している企業が多いと思われていますが、日本ではRimArts社製「Becky!」やJustSYSTEMS社製の「Shuriken」などを使用している企業も少なくありません。
外部とのコミュニケーションツールである電子メールの情報は、ディスカバリにおいて非常に重要な意味を持つにも関わらず、こうした日本独自のメーラーに対応していないのであれば、プロセス作業の精度は格段に落ちてしまいます。
見積もりではそのあたりのことまで記されていない場合が多く、「日本語のファイルは別料金」と記されていればまだ良心的ですが、そもそも日本語ファイルに対応できるのかどうか、対応できるとすれば、見積もりの範囲内なのか、日本独自のアプリケーションも対応しているのか、というところまできちんと確認したほうがよいでしょう。
(4)データホスティング
データホスティングとは、レビューで使用するデータをレビューツールで閲覧できるよう、指定のサーバ上で管理することです。
過去に見た例では、相見積もりの段階で最も単価が低かったベンダーのホスティング総額が、他社のおよそ3倍になったことがありました。どの段階で、どのようなデータをホスティングするのかによって金額が大きく異なるというわけです。
残念ながら、ディスカバリ業界に、ディスカバリの工程管理(進め方)のグローバルスタンダードはまだありません。どの段階でホスティングを行おうが、結果として証拠を開示できればそれでよいという考え方がまかり通っているのです。そのためいつまで経っても「標準的な見積書」が現れません。ベンダーごとに費用算出根拠が異なっているのです。
ディスカバリ入門(1/7):ディスカバリベンダー選びは人任せにしない! でふれたとおり、データの圧縮を解凍する前のデータ容量で課金するのか、解凍後のデータ容量で課金するのか、ベンダーによって計算方法が異なり、単価は安くても解凍後にデータ容量が数倍に膨らむ案件などはその最たる例です。
ディスカバリを依頼する側の法務担当者はそのような認識をお持ちでしょうか?単に「ホスティング」と書いてあれば単価だけを見比べてしまうのは危険です。明確なガイドラインのない業界だからこそ単価ではなく費用の総額を見ていくことが必要です。
最近はディスカバリが終了した後も、収集したデータをそのままホスティングしておく企業が増えています。訴訟や当局調査・捜査がクロス・ボーダー案件に発展した場合は同じデータを他の訴訟や調査・捜査のディスカバリで用いることがあるためです。そのため、継続的にホスティングを行う可能性の高い企業は、ディスカバリ終了後にかかるホスティング料金についてもベンダーに求めた方がよいでしょう。
(5)プロジェクトマネージメント
大抵の国際訴訟におけるディスカバリ案件では、プロジェクトの統括にプロジェクトマネージャーを2人程度配備するのが望ましいとされます。プロジェクトマネージャーの役割は、企業の法務担当者とともに検索キーワード設定を考えたり、レビュー用のドキュメントバッチを作成したり、企業と法律事務所との間に入って円滑なプロジェクト進行をサポートなどが挙げられます。
FRONTEOのこれまでの経験上、1つのプロジェクトにプロジェクトマネージャーが費やす時間は月20時間程度です。ただし関連して発生する交通費・出張費等は別途請求されるため、海外のベンダーに依頼する場合はこれら費用が発生することに注意が必要です。
例2) プロジェクトマネージメントの見積書
(6)レビュー費用
「ディスカバリ費用=レビュー費用」と言っても過言ではないくらい、費用のうち多くの割合をレビュー費用が占めることになります。見積もりを見れば分かるように、レビュー費用のほとんどが人件費です。
そこで最近ではレビューにおいて「プレディクティブ・コーディング」というコンピュータによる自動解析を導入する企業が増えています。
FRONTEOでは人工知能を用い、アジア言語を解析することのできるプレディクティブ・コーディングを開発し実際の案件でこれを用いたところ、アメリカ人がレビュー作業を行った場合と比較し、他社想定の3分の1の期間で処理することができました。かつ人件費が発生しないため、かかった費用は5分の1に圧縮される結果となり顧客の高い評価を得ることができました。
プレディクティブ・コーディングを用いるか否かはベンダーの判断によりますし、精度もまちまちです。見積もりを確認する場合は、プレディクティブ・コーディングの使用の有無に加え、プレディクティブ・コーディングのプレシジョン・レート、リコール・レートを確認することを強くお勧めします。
ちなみに、多くのディスカバリベンダーでは、このプレシジョン・レート、リコール・レートを提示することには後ろ向きのはずです。ディスカバリ実績のあるデータならサンプルは持っているはずですが、「日本語は難しいからレートは出せない」といった言い逃れをして出さないケースが多いことも事実です。レートはレビューコストに直結しているためです。
(7)プロダクション
プロダクションとは証拠提出にかかる作業となります。レビューによって証拠となる書類が選ばれた段階で、訴訟代理人である弁護士が相手方にどの証拠ファイルを提出するか決めます。ベンダーは、弁護士から指定されたデータを証拠として信頼性のあるファイル形式(Tiff形式)に加工し、必要に応じて英語の翻訳ファイルを作成します。
案件にもよりますが、レビュー対象のファイルのうち、プロダクション対象となるのはおおよそ3%です。仮にレビューファイルが9万ファイルあればそのうちの2,700ファイルをプロダクションすることになるというわけです。