ディスカバリ入門(6/7):コストをコントロールする鍵は見積もりチェックにあり (Part 1)
2020年3月1日数十件の学習データで「人の判断」を再現する
2020年3月23日A B C D E F G H I J K L M
N O P Q R S T U V W X Y Z
あ か さ た な は ま や ら わ
A
AccessData
調査ツールであるFTKを製造・販売する米国企業。
Android
Google社が2007年に発表した、携帯電話などのモバイル機器のためのOS。
APFS (Apple File System)
Appleが20年ぶりに導入する新しいファイルシステムで、フラッシュメモリ及びSSDに最適化されており暗号化に重点を置いている。
B
BIOS (Basic Input / Output System)
ファームウェアの一つ。コンピュータに接続された周辺機器を制御するプログラムで最下レベルの入出力を行うためのプログラム。
Black Bag
Mackintoshの保全・解析ツールであるMacQuisition・Black Lightを製造・販売する企業。
Black Light
Black Bag社が提供する、Macに対応するイメージファイル解析ツール。FTK同様、取得したイメージデータからデータベースを自動作成し、統合した解析環境を提供する。
C
CHS(Cylinder / Head / Sector)
シリンダ数、ヘッド数、セクタ数の三つの要素を用いることで、ハードディスクやフロッピーディスクの記録媒体にアクセスする際にその絶対位置を示す方式。
Concept Encoder
FRONTEOヘルスケアがヘルスケア・インダストリーに特化して開発した人工知能(AI)。読み:コンセプトエンコーダー。自由記述のテキストデータを大量に含むヘルスケア関連のビッグデータを、エビデンス(根拠)に基づいて有効に解析・活用することを目標に開発された。ヘルスケア従事者の共通認識である「エビデンスに基づいた医療(EBM)」に欠かせない有意差検定などの統計学的手法を自然言語解析に導入、実現している。
CPU(Central Processing Unit)
コンピュータの構成部品の1つで、5大装置の制御装置、演算装置にあたる。中央演算処理装置とも呼ばれ、コンピュータに装着された各装置の制御やデータの計算・加工を行う装置。
D
DF(Document Frequency)
解析対象の文書群の中で、その形態素が何個の文書に出現したかを示す。
Digital Intelligence (DI)
米国のディスカバリ総合サービス企業。ディスカバリやフォレンジックのサービスを始め、フォレンジック関連のソフトウェアやハードウェア、トレーニング等を提供している。
E
EnCase
フォレンジック調査技術におけるグローバルスタンダードの製品であり、フォレンジカリーサウンド(Forensically Sound、フォレンジック的なものの見方や手法)に基づくデータ収集や調査を支援するソフトウェア。データプレビューの他に、データの復元、特定の条件に一致するデータの抽出(絞込み)等が可能。
ESI(Electronically Stored Information)
電子的に保存された情報のこと。電子データ。
exFAT(Extended FAT)
従来のFAT32を拡張したMicrosoft社が開発したファイルシステム。大容量のサポートを目的の一つとし、リムーバブルメディア向けのファイルシステムとして開発された。FAT64と称されることもある。
ext2 / ext3 / ext4 (Extended File System)
Linux / UNIX系 OSで使用されているファイルシステム。ext3 / ext4はジャーナリング機能を持ったファイルシステム。
eディスカバリ(e-Discovery)
電子証拠開示制度 を参照のこと。
Eメールスレッディング(Email Threading)
電子メールの会話全体を順番に整理すること。電子メールのレビュー時間短縮に役立つ。
Eメールファミリー(Email Family)
Eメールの本文とその添付ファイルを1つのグループとして扱うこと。
F
FAT(File Allocation Table)
Windows OS / Mac OS / UNIX(Linux)等、様々なOSで認識可能なファイルシステムであり、HDDパーティションの他、FDDやUSBメモリ、SDカード等のストレージのフォーマット形式としても用いられている(形式としてはFAT12、FAT16、FAT32がある)。
FTK
フォレンジック調査技術におけるグローバルスタンダードの製品であり、データ収集や調査を支援するソフトウェア。PRTKやRegistry Viewerとの連携も可能。データプレビュー、データの復元、特定の条件に一致するデータの抽出(絞込み)等が可能。
FTK Imager
データプレビューおよびイメージファイル作成ツール。物理的に接続されているドライブやロジカルデータの閲覧に加え、フォレンジックイメージファイルの展開やデータのハッシュ値算出、簡易的なデータ復元も可能。
G
GUIDANCE SOFTWARE
調査ツールであるEnCaseを製造・販売する米国企業。
H
HFS / HFS+(Hierarchical File System)
Apple社のOSであるMac OSで使用されているファイルシステム。HFS+ではデータの信頼性を高めるため、ジャーナリング機能が加えられた。
I
IDE (Integrated Drive Electronics)
PCで一般に使われている、ハードディスクを接続するためのインターフェイス。簡易的な構造をしているため、ハードディスクドライブの価格を抑えられる。現在使われているのは、もとのIDEを拡張した「EIDE(Enhanced IDE)」と呼ばれる規格。
Intelligent Computer Solutions (ICS)
Solo-4を製造・販売する米国企業。
iOS
iPhone、iPad、iPod touchなど、アップルのモバイル端末に搭載されているOS。同社のパソコン、マッキントッシュ向けOS「Mac OS X(テン)」をベースに開発された。タッチパネルを前提としたユーザーインターフェースが特徴。
J
Jupyter Notebook
Pythonを含むプログラムコードや数式、図、説明文などを含む文書を作成し、共有することができるWebアプリケーション。
K
KIBIT
FRONTEOのAIの名称。読みは「キビット」。日本語の “機微”(KIBI)と情報量の最小単位 “ビット ”(BIT)の組み合わせで、人間の機微を理解する人工知能」という意味の造語。正解、不正解というラベルに分類されたテキストデータを使って教師あり学習を行い、テキストに含まれる特徴(形態素)から自動で正解ラベルの共通点を見つけることが可能。
KIBIT Email Auditor
メール監査ツール。情報漏えいやカルテルの兆候の発見などに利用される。
KIBIT Find Answer
FAQツール。自然文で入力された質問の特徴を学習することで、過去の類似質問を抽出し、エキスパートの回答データを迅速に提示することができる。
KIBIT G2
独自開発の人工知能エンジン「KIBIT(キビット)」を強化し、人工知能(AI)実装の汎用性を高めた次世代版の人工知能エンジン。読み「キビットジーツー」。
KIBIT Knowledge Probe
汎用的にテキストデータを解析するビジネスデータ分析支援ツール。営業日報やお客様からのお問い合わせなどのテキストデータを解析する。
KIBIT Patent Explorer
特許調査ツール。複雑な検索式の策定が不要のため、調査の効率化を図ることができる。日米の特許公報のデータベースを搭載している。
KIBIT-Connect
KIBIT G2および外部システムとの連携を容易にするWeb API。文章データの登録や教師データの作成、解析結果となるスコアリングの提供など、KIBIT-Connectを通じたデータの収受をシームレスに行うことができる。
L
LBA(Logical Block Addressing)
ハードディスク内のデータ位置を示す方法の1つで、ハードディスク内の全セクタに通し番号を振り、その番号によってセクタを指定する方式。
Linux
リーナス・トーバルズにより開発されたUNIX互換OS。無償で入手可能な上、オープンソースとして提供されており、世界中の開発者やユーザにより改良が加えられ、多くのディストリビューションが登場している。
Lit i View XAMINER /Lit i View E-Discovery
各データの検索やレビュー等が可能なソフトウェア。FRONTEOの独自開発。人工知能関連技術により、文書のスコア付けができるので、大量の文書を効率よくレビューすることに向いている。多くのメールタイプの処理が可能で、日本特有のメールソフトへの対応力が高く、日本語・中国語・韓国語のアジア言語の解析に強い。またCentral Linkage機能により、調査対象者の相関図を分かりやすく表示することができる。
※自社製品
M
Mac OS
Apple社のMacintoshに搭載されているOS。
MacQuisition
Black Bag社が提供する、Macに対応するイメージファイル作成ツール。FTK Imager同様、起動したマシンでのデータ取得も可能。
MBR(Master Boot Record)
コンピュータの起動時に最初に読み込まれる、ハードディスク上の先頭セクタ内の領域。Windows OSやプログラムが起動して操作可能になるまでの流れとしては、「PC電源ON→BIOS起動→MBR読み込み→ブートローダー(OSをHDDから読み込んで起動するプログラム)読み込み→OS起動」となっている。
MFT(Master File Table)
NTFSでフォーマットされたパーティションごとに作成されているシステムファイルの1つ。パーティション上に記録されているデータの管理情報の集まり。
Micro Systemation (MSAB)
MSAB Officeを製造・販売するスウェーデン企業。
MSAB Office/XRY/XAMN
スマートフォン等、携帯端末のデータを抽出、解析を行うことのできるソフトウェア。XRY(データ抽出ツール)、XAMN(データ解析ツール)
XRYで抽出したデータには自動的に暗号化が施され、暗号化をかけたデータを解析するためにはXAMNを使用する必要がある。他の解析ツールではデータを確認することができないため、データの改竄ができない。世界100カ国以上の警察や法執行機関で使われている。
※自社取り扱い製品
N
NAS (Network Attached Storage)
ネットワークに直接接続して使用するファイルサーバ。筐体サイズが比較的小さく価格帯にも富み、容量も数TB(テラバイト)のものがある。
NTFS(NT File System)
Microsoft社のOSであるWindows NT系が標準採用している、ジャーナリングファイルシステム。MicrosoftではNT File Systemとしているが、New Technology File Systemと呼ばれることもある。
O
OS
コンピュータにおいて、ハードウェアを抽象化したインターフェイスを各アプリケーションに提供するソフトウェア。
P
PRTK
パスワード解析ツール。
Python
データサイエンスで人気のプログラミング言語。簡潔で読みやすい文法が特徴的。ウェブ、データベース、ネットワーク、並行処理といった応用から、大規模データの処理までできる。
R
RAID (Redundant Arrays of Inexpensive Disks)
複数のハードディスク(HDD)を組み合わせて1台のハードディスクとして管理・運用をする技術であり、アクセス速度の高速化や安全性の向上など冗長性の確保を目的とした仕組みを指す。実現手法としては、専用のハードウェアを使うものとソフトウェアを使うものが挙げられる。
RAIDは、その機能に応じて種類が分かれており、「RAID0」から「RAID6」までの7種類が存在するが、「RAID0」と「RAID1」を組み合わせた「RAID01」や「RAID10」といった種類も存在している。
・「RAID0」は、複数のHDDに均等にデータをそれぞれ振り分けていき、同時並行で記録を行う。「ストライピング」と呼ばれることもある。HDDが1台壊れた場合はデータが失われるため、「RAID0」には冗長性はない。
・「RAID1」は、2台のHDDに全く同一のデータを同時に記録する。「ミラーリング」と呼ばれることもある。全く同じデータを持つHDDが2枚つくられるため、冗長性が確保される。
・「RAID2」は、データに加えてエラー修正用のコードも別途記録する。最小構成の場合でも、データ用で2台、修正コード用で3台のHDDをそれぞれ要する。修正用コードにより、データ用のHDDが壊れてもデータを復旧できる仕組みになっており、冗長性が確保される。
・「RAID3」は、データに加えてデータ復旧のための情報(パリティ)も別途記録する。データ復旧のための情報を1台以上のHDDに記録し、合計で最低3台以上のHDDを使用する。パリティによって冗長性が確保される。
・「RAID4」は、「ストライピング」方式でデータを記録すると共に、パリティも別途記録する。データ復旧のための情報を1台以上のHDDに記録し、合計で最低3台以上のHDDを使用する。パリティによって冗長性が確保される。
・「RAID5」は、最低3台以上のHDDを使用し、均等にデータをそれぞれ振り分けていく。ハードディスクが1台故障しても、残るディスクからデータを復旧できるため、冗長性が確保される。
・「RAID6」は、「RAID5」と同様に、同時に最低3台以上のHDDを使用し、均等にデータをそれぞれ振り分けていくが、ハードディスクが2台故障しても、残るディスクから元のデータを復旧できるため、冗長性が確保される。
RECON IMAGER
SUMURI社が提供する、Macに対応するイメージファイル作成ツール。メモリ情報の取得も可能である。
RECON LAB
SUMURI社が提供する、Macに対応するイメージファイル解析ツール。メモリ情報の解析も可能である。
ReFS (Resilient File System)
Windows 2012年に導入された障害復旧に優れたファイルシステム。
Registry Viewer
レジストリ解析ツール。
S
SATA (Serial ATA)
コンピュータとハードディスクや光学ドライブなどの記憶装置を接続するIDE(ATA)規格の拡張仕様の一つ。
SCSI (Small Computer System Interface)
コンピュータ本体にストレージ装置(外部記憶装置)などの周辺機器を繋いで通信するための接続方式の標準規格の一つ。
Solo-4
HDDやUSBのデータコピー、データ消去を行うことのできるハードウェア。1対2、2対2、1対1×2系統のコピーが可能で、消去方式はDoDワイプにも対応。Windows OSを搭載しコンピュータとして使用することも可能。FRONTEOのSolo-4にはFTK Imagerも搭載されている。
SSD (Solid State Drive)
大容量のフラッシュメモリで構成されたディスクドライブ。ソリッドステート・ドライブ(Solid State Drive)の頭文字を取ったもので、シリコンディスクとも呼ばれている。低消費電力で軽いうえ、故障しにくいため、軽量なモバイル・パソコンやタブレット型パソコンで採用されている。
SUMURI
Mackintoshの保全・解析ツールであるRECON IMAGER・RECON LABを製造・販売する企業。
T
TAR (Technology Assisted Review)
Predictive Coding、クラスタリング、Eメールスレッディング等の効率的なレビューを行うための技術の総称。FRONTEOは、独自開発した人工知能「KIBIT(キビット)」によるPredictive Codingを強みとし、レビューの効率化とコスト削減を図っている。
TF(Term Frequency)
解析対象の文書群の中で、その形態素が何回出現したのかを示す。
UNIX AT&T社(米国)のベル研究所で開発されたOSの1つ。有志やベンダーにより開発が続けられている。
U
USBメモリ
コンピュータのUSB(Universal Serial Bus)端子に接続して使用するフラッシュメモリを内蔵した外部記憶媒体の総称を指す。 伝送速度が規格によって異なり、世代ごとに伝送速度が異なる。
USB 1.0: 12 Mbps
USB 1.1: 12 Mbps
USB 2.0: 480 Mbps
USB 3.0: 5 Gbps
USB 3.1: 10 Gbps
※ 上記の数値はすべて「最大データ転送速度」
規格による伝送速度の違いにより、データコピー速度が異なるため、ソフトウェアベースで証拠保全を実施した場合、保全に要する時間が大幅に異なる場合がある。
機密データの持ち出し(情報漏えい)事案に対しては、依然としてUSBメモリが流出経路として用いられることも多く、USBメモリ等外部記録装置の接続履歴調査は有効な調査手法の一つとなっている。
W
Windows
Microsoft社のOS。
Windows 9x
Windows 95/98/98 SE/Meの総称で、基本設計はWindows 95のものを引き継ぐ。
Windows NT
Windows NTの基本設計を元に制作されたOSの総称。サーバ、ワークステーション用として開発されたOS。Windows 9x系に対して多くの部分で上位互換性を持つが、構造は全く異なるOS。
Wipe
単語の意味としては拭く、ぬぐい落とす、消し去る、消すなどの意味を持っている。デジタル・フォレンジックにおいてWipeはWipe-out(データの消去)を意味し、データ消去方法には以下の3点が挙げられる。
1. ソフトウェア方式:記録媒体に特定の数字や文字等を書き込む
【メリット】
・ HDDの再利用が可能
【デメリット】
・ ゼロ、乱数、NSA(米国国家安全保障局)、NATO(北大西洋条約機構)、Gutmann(グートマン)等方式が多数ある
・ データ復元の可能性を考慮すると複数回の書き込み(上書き)が推奨されるが、処理時間を必要とする
2. 磁気破壊方式:記録媒体に強力な磁気を照射し、機器自体を電磁的に破壊する
【メリット】
・ 記録媒体の容量、インタフェース、OSに依存しない
【デメリット】
・ HDDの再利用及び目視確認が不可
3. 物理破壊方式~記録媒体に穴等をあけ物理的に破壊する
【メリット】
・ 記録媒体の容量、インタフェース、OSに依存しない
【デメリット】
・ HDDの再利用は不可、破損していない箇所にデータが残る
Wipeの実施例としては、証拠保全の準備段階におけるデータコピー先HDDの事前のWipeが挙げられる。この作業はサニタイズと呼ばれ、コピー先HDDの微細なデータを残留させず、証拠保全データとの一切の混在を避ける目的で実施する。また、HDDの残留データを原因とする情報流出を防ぐことが目的の場合、Wipeを適切に行えたかの確認は必須といえる。
Z
Z-Score
偏差値の一種。標本の平均と母集団の平均とが統計学的にみて有意に異なるかどうかを測定する指標。Z-Scoreが正であれば、標本の平均は母集団の平均よりも有意に高いといえる。KIBITの複数の学習結果を比較する際に利用する。
あ
アトーニーマネージャー(Attorney Manager)
弁護士資格を有したレビュー管理者で、代理人の弁護士とコミュニケーションをとってレビュワーからの質問に回答することによりレビューの品質を担保する。
暗黙知(Tacit knowledge)
言葉などで表現が難しい、経験や勘に基づく知識のこと。
イメージング(Imaging)
提出用のファイルを、ページことにTIFF形式またはPDF形式に変換すること。
インシデント・レスポンス
インシデント・レスポンスとは、情報システム等における事故(インシデント)が発生した後の措置、対応のことを指す。情報セキュリティの分野における事故(インシデント)とは、情報システム等全般に対する脅威となる事象のことを指し、セキュリティインシデントとも呼称される。
昨今のインシデントは、不正アクセスやシステム障害などシステムを主眼としたものだけでなく、粉飾決算やインサイダー取引、隠蔽工作など、モラルハザードにおけるインシデントもインシデント・レスポンスの対象としている。
企業活動等において、情報システム等における事故(インシデント)が発生すると、企業価値の低下に繋がるおそれがある。データの損失やサービスの低下、企業価値の低下等リスクを抑止、極小化し、ダメージコントロールを行うことがインシデント・レスポンスの一つの目的である。
インシデント・レスポンスは、いかに早い段階でインシデントについて把握し、「迅速」「的確」「円滑」に初動対応をとることが重要である。適切な初動対応、調査を実施するためには、平時にインシデント発生時の対応の手順、体制の構築を整え、定期的に訓練を行うことが重要である。
インシデント発生時の調査において、準備・体制構築ができていない、問題解決のためのプロセスが分からないといった場合もある。また、調査の信頼性、信憑性等の観点からも第三者的立場である調査会社などに依頼することが有効である。これに伴い、実際に調査を実施するデジタル・フォレンジック調査会社の選定も重要なポイントとなる。価格だけでなく経験・品質を含めた総合的能力をもとに決定すべきである。
インタビュー(Interview)
訴訟対象者(Custodian)に対して、弁護士や法務・知財部が聞き取り調査を行うこと。
インターフェース (Interface)
「境界」や「接点」を示す言葉であり、ITの分野においては、主に「ハードウェア同士の接点、あるいは接点となる機器類やプログラム」を意味する。具体的には、コンピュータとその周辺機器など、ハードウェア間で通信を行う際に必要となる物理的な接続の形状や仕様を指す。
インターフェースは、その情報通信の方式によって2種類に分けることができ、データを1ビットずつ順に送信する「シリアルインターフェース」とデータを一度に複数ビット送信する「パラレルインターフェース」がある。
前者に該当する規格としては「SATA」(Serial Advanced Technology Attachment)や「IEEE 1394」等が、後者に該当する規格としては、「SCSI」(Small Computer System Interface)や「IDE」(Integrated Drive Electronics)、「ATA」(Advanced Technology Attachment)等が挙げられる。
インターフェースは、証拠保全におけるデータコピーの可否や速度を左右する、重要な留意事項の一つである。例えば、HDDから直接データをコピーする場合、インターフェースによって接続形式が異なることから、各規格に応じた接続ケーブルを事前に用意しておく必要がある。また、データコピーの速度はインターフェースによって左右されるため、各規格のデータの転送速度も把握しておくことが望ましい。
インデックス(Indexing)
【広義】ツール(Lit i View)上で検索(Search)を円滑に行うための索引を作成すること。(※注:ドキュメントへの固有の番号(Doc. ID)の付与やメタ情報の抽出)
【狭義】Text Extraction後にIndexingデータベースを作成し、キーワード検索(Search)をできる状態にすること。
閲覧/レビュー(Review)
収集、処理、分析を経た電子データについて、FRONTEOレビュアーや法務・知財担当者、弁護士が訴訟に関連する内容か目視で確認すること。
エンドースメント(Endorsement)
通し番号や情報の機密性のレベルをファイルに刻印すること。
か
書き込み防止装置
HDDなどの記録媒体にデータ書き込みを阻止する装置。
フォレンジック調査では、証拠データの完全性と原本性を維持するために、調査・解析対象となるデータへアクセスする際には読み込み専用(ReadOnly)でアクセスし、データの書き込みを防がなければならない。書き込み防止装置はHDD等の記録媒体に対し、一切のデータの書き込みを無効とすることができるため、データの改変を回避し、安全なデータ閲覧が可能となる。
拡張子
そのファイルが何のファイルなのか、どのアプリケーションで開けるのかについて識別するためにファイル名末尾に付与された文字列が拡張子である。
ファイル名の末尾の” . “(ピリオド)以降の文字が拡張子であり、Windows OSは拡張子をもとにファイルの種類を判別している。拡張子の例として、”.xls”(エクセル書類)、”.jpg”(jpeg画像)、”.pdf”(PDF書類)などがある。
Windowsの初期設定では拡張子は非表示に設定されているため、参照するには設定変更が必要である。
不正事件では、証拠となるデータの拡張子を変更して隠蔽するケースなどがある。(ワードファイル”.doc”の拡張子を変更し、画像ファイル”.jpg”にするなど)
また、コンピューターウィルスの中には拡張子の見え方を偽装することでユーザーを騙し、ウィルスファイルを実行させようとするものもあり、拡張子を表示しない設定の場合、ウィルスの入った実行ファイル”Sample.txt.exe”は、”Sample.txt”と表示されるため、ユーザーはただのテキストファイルと思い、実行してしまうことがある。
課徴金減免制度(Leniency)
自らが関わった談合行為(カルテル)などの独占禁止法違反の行為を犯した場合に、通報者として公正取引委員会に違反事実を自主申請・報告することで、処罰が軽減される制度のこと。
概念実証(PoC: Proof of Concept)
実証実験。製品の本番導入前に、お客様のデータを用いて、製品の有効性を調査/検証すること。
書き込み防止装置
フォレンジック調査で重要となる証拠データの原本性と完全性を維持するために、データの書き込みを防ぐことが可能なツール。接続されたHDDやUSBインターフェースデバイス等、多様な規格のメディアに対して、データの書き込みを一切無効にする。
※自社取り扱い製品
拡張パーティション(extended partition)
ハードディスクをいくつかに区切ったパーティションの内、基本領域以外のDOSパーティション。
カストディアン(Custodian)
関連データやドキュメントの保持者。情報開示の対象者となる。
カリング(Culling)
法廷提出や弁護士によるレビューの前に、不要なファイル(システムファイル等)を除き一定のファイルを選別すること。FRONTEOではEnCaseを用いて必要なデータ(Userが作成したファイル)のみを抽出する。
記憶装置(memory)
5大装置の1つ。コンピュータ内部のメインメモリを主記憶装置と呼び、CPUが直接やり取りを行う記憶装置で、コンピュータ電源がオフになると情報は消失する。主記憶装置に対し、電源オフになってもデータ消失が起きないハードディスクやUSBメモリ等の記録媒体を補助記憶装置(二次記憶装置)と呼び、ユーザやOSによって作成されたデータが記録される。
機械学習(Machine Learning)
データから反復的に学習し、そこに潜むパターンを見つけ出すこと。そして学習した結果を新たなデータにあてはめることで、パターンにしたがって将来を予測することが可能になる。人手によるプログラミングで実装していたアルゴリズムを、大量のデータから自動的に構築可能になるため、さまざまな分野で応用されている。機械学習を行う際は、学習させやすいように人間がデータからパラメータを事前に調整する必要があった。しかしながら、そのパラメータ調整さえも自動で行うことが近年可能となっている。
教師あり/教師なし学習(Supervised Learning/Unsupervised Learning)
コンピュータに対して、入力(質問)と出力(答え)の組からなる訓練データを用いて、その背後に潜んでいる入出力関係(関数)を学習させる方法を「教師あり学習」と呼ぶ。一方、出力(答え)のない入力データのみから学習させる方法を「教師なし学習」と呼ぶ。例えば、入力データの似た者同士をグループ化するクラスタリングがその典型的な例である。
教師データ/訓練データ(Training Data)
教師あり学習でコンピュータにデータの分類方法を学習させるためのデータ。KIBITの教師データは、HOT(発見したいデータ)、NOT HOT(発見したくないデータ)の2種類の分類ラベルを付与したデータからなる。
業務仕様書/スコープオブワーク(SOW: Scope of Work)
保全範囲の選定など、案件に必要な作業範囲を定め、記した書面のこと。(※注:Processの段階でも、Processの各種条件(Dedupの種類等)を示すためにこの文書が用いられる。)
クライアントサーバ方式(client-server system)
多くの情報を持つサーバとクライアントコンピュータをネットワークで結ぶことで、クライアントコンピュータの要求に応じてサーバが情報や機能を提供するシステム。例としてコンピュータとNASをネットワークで結ぶことで、NASから必要なファイルをダウンロードすることが可能となる。
クラスタ(cluster)
クラスタとは、OSが管理するデータの最小単位のことを指す。データ書き込みの最小単位であるセクタをいくつか集めたもので、セクタの個数やサイズはOSやファイルシステムにより異なる。クラスタ単位でOSが管理する理由として、データ書き込みの最小単位であるセクタ単位では読み書きなどに時間がかかり、効率が悪くなるためセクタを一定数まとめてクラスタとして取り扱うことにより効率化を図っている。
例えば、クラスタサイズが4Kバイト(4,096バイト)で管理している場合、1KバイトのデータをそのOS上で書き込むとディスク上のサイズは4Kバイト(4,096バイト)と表示される。これは、データそのものは1Kバイトであるが、OSの管理するデータの最小単位が4Kバイト(4,096バイト)のため、その分の領域を使用したことを意味する。また、このデータを書き込んでいない余分な領域のことをスラックスペースと呼称する。デジタル・フォレンジックにおいては、このスラックスペースに残された残存データを復元・解析に利用できる場合がある。
クラスタリング(Clustering)
特徴が類似するもの毎にデータを分類する手法全般を示す。データのみを見て分類する教師なしClustering、ラベルを参考にデータを分類するクラス分類に大別される。
原告(Plaintiff)
訴訟において訴えを提起した当事者。
光学式文字認識(OCR: Optical Character Recognition)
手書きの文字や印刷された文字を読み取り、データと照らし合わせ文字を判断し、電子テキスト化する装置のこと。テキストを保持していないファイルはText Extractionできないため、OCRによりテキスト化することもある。
形式知(Explicit knowledge)
文章や図表、数式などによって説明・表現できる知識のこと。
形態素(morpheme)
意味を持つ最小の言葉の単位。←の説明を形態素に分解した例として、「意味/を/持つ/最小/の/言葉/の/単位」が考えられる(分解に使う辞書、手法によって結果が異なる)。
ケーススタディシート(CSS: Case Study Sheet)
案件に関係するデータの所在、保全方法や保全日時等が記載される。
言語特定(Language Detection)
各ドキュメントに使われている言語(またはその割合)を特定すること。
コーディング(Coding)
タグ付け。各データに、そのデータが訴訟関連文書であるか否か、また、どのような事項に関係ある文書か等の情報を付加するために、証拠閲覧システム(FRONTEOではLit i View)上で判別用のタグを付けていくこと。
コンピュータの5大装置
コンピュータは様々なパーツの組み合わせで構成されるが、各機能を5つに分類した際の呼称。制御装置、演算装置、主・補助記憶装置、入力装置、出力装置。
さ
サーバ(server)
ネットワーク上に設置され、ユーザ(クライアントコンピュータ)からの要求に対してサービス機能やデータを提供するコンピュータ。
再現率(Recall Rate)
評価データ群の中から取り出したい正解データのうち、実際に取り出せた割合。網羅性に関する指標。KIBITの学習結果を評価するために利用する。
作成/プロダクション(Production)
閲覧/レビューで訴訟に関連すると分類された電子データを、裁判所に提出するための形式に変換すること。
事実審理(Trial)
ディスカバリや略式判決(Summary Judgment)で決着がつかない場合に公開の法廷で行なわれる審理のこと。
収集(Collection)
対象となるあらゆる電子データを収集すること。(紙でしか残っていない情報をスキャンにより電子化して収集することもある。)データの複製を行う。(※注:FRONTEOではEDRMでいうCollection(収集)を「証拠保全」と呼んでいる)
召喚状(Subpoena)
裁判所への出頭を促すために発行される命令書のこと。
証言録取(Deposition)
法廷外で弁護士同伴のもと証人へ尋問を行い、内容を記録すること。
証拠開示(Discovery)
米国民事訴訟における「審理」の前に、原告・被告双方が訴訟に関係する証拠を開示する手続きのこと。例えアメリカの子会社が訴訟対象となった場合であっても、日本本社のデータも証拠開示の対象となる。
情報開示支援業者(Discovery Vendor)
ディスカバリの支援を行う業者。FRONTEOも情報開示支援業者のひとつ。
情報管理(Information Governance)
企業が行っている電子データの分類・格納などの平時における情報管理。FRONTEOでは、Email Auditorのアーカイブ機能で用いられている。
証拠保全 (Preservation of evidence)
一般に、民事訴訟や刑事訴訟の裁判などに用いる証拠を確保することを指す。
デジタル・フォレンジックにおいては、証拠保全は主に、対象となるPC内のHDD等のデータを全く書き換えることなく、完全な複製(HDD等の全領域のコピー)を取得する作業を指す。
適切に証拠保全した複製には、原本と同様の証拠としての価値が認められ得るが、そのためには証拠保全作業の信憑性および原本と複製の情報の同一性などが確保されていなければならない。
作業の信憑性を担保するためには、「作業手順の記録を書類に残す」「作業状況をカメラ・ビデオで撮影する」などの記録化が必要とされており、原本と複製のデータの同一性を担保するためには、原本HDDと複製HDDのハッシュ値を求め、算出されたハッシュ値の比較による同一性検証が必要であり、いずれも、客観性と第三者再現性に配意した作業が行われなければならない。
処理/プロセス(Processing)
収集した電子データの分析や閲覧を行うために、Eメールなどの圧縮ファイルの展開や、テキスト、メタデータの抽出を行う事前処理。
シリンダ(Cylinder)
ハードディスクにおける記録単位の1つ。プラッタ上ではデータは同心円状のトラックに分割されたセクタに記録されるが、トラックの円筒状の集まりをシリンダと呼ぶ。
人工知能(AI: Artificial Intelligence)
人工的に人間の知能を機械で実現させる技術の総称。「人工知能」自体、非常に広い概念であり抽象度が高い。いまだにその定義が研究テーマになっている。人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法の総称であり、FRONTEOの人工知能技術LandscapingやDeep Learningという技術はその代表。
墨塗り(Redaction)
秘匿特権(Privilege)や機密情報を部分的に墨塗する処理のこと。
制裁(Sanction)
ディスカバリにおいてデータを提示できないと、罰金などの法的措置がとられる。
セカンドレビュー(2nd Review)
1stレビュー後に行う、より高度なレビュー。弁護士やパラリーガルが訴訟に関係する資料か否かの振り分けを行う。秘匿特権(Privilege)のチェックも行う。
セクタ(Sector)
円盤(ディスク)状の記録装置におけるデータの最小記録単位。
円盤状のディスクの表面には、同心円状に分割されたトラックと呼ばれる領域があり、そのトラックをいくつかに分割して扇形となる部分をセクタと呼称する。セクタのサイズは、ファイルシステム等によりさまざまであるが、NTFSは一般に1セクタ512バイトとされている。また、昨今のハードディスクの大容量化に伴い、4Kセクタ(1セクタ4096バイト)のものも登場している。
セクタは、データ書き込みの最小単位であるが、ファイルシステムでデータを管理する最小単位は、このセクタのいくつかの集合体であるクラスタと呼ばれる単位となる。NTFSのクラスタサイズは、一般に4,096バイトであり、8セクタ分の領域となる。セクタ単位で管理しない理由としては、OSがセクタ単位でデータを読み書きすると効率が悪くなるためである。
デジタル・フォレンジックにおいて、セクタサイズ、クラスタサイズからスラックスペースの残置データについて調査することが可能である。
訴訟支援(Litigation Support)
ITの専門家を弁護士事務所内に設置し、リーガルテクノロジーを利用する体制のこと。
早期事例評価(ECA: Early Case Assessment)
訴訟で起訴または弁護するためにリスク(時間や金銭的コスト) を見積もること。
た
第三者委員会 (Third-party panel)
第三者委員会とは、対立関係にある当事者とは直接の利害関係をもたない中立的な第三者によって構成される調査委員会のことを指す。世論に大きな影響を与える不祥事や、事実究明が必要な事案が発生した際に設置される。
第三者委員会は、事案の原因を明らかにし、再発防止策への提言を行うため、専門的知見を備えたメンバー・チームで構成されている。
企業や官公庁が有する情報の多くは電子ファイルやメールなどの電子データのため、何らかの不祥事が発生した場合、それら電子データの解析が必要となる場合がある。しかしながら、電子データは揮発性が高く改変も容易のため、証拠性を失うことなく、調査・解析を行うためには、デジタル・フォレンジックに関する高い技術が必要となる。
近年、第三者委員会における電子データの調査は増えており、フォレンジックベンダーが第三者委員会もしくは第三者委員会の電子的解析部分の補助として参加し、原因の解明および客観的事実を記載した報告書を作成する機会が増えている。
チェーンオブカストディ/証拠の連続性(CoC: Chain of Custody)
保管の継続性を証明する書面。FRONTEOでは対象のデータを「いつ、誰が、誰から、どのHDDにコピーして持ち帰ったかを記録し、保管の継続性を証明している。この書類は、データ保全後にお客様に確認・署名いただき、保管する。
重複削除(De-duplication, Dedup)
複数のカストディアン内で同一のメールを受信していた場合、カストディアンに優先順位を付けて重複削除するGlobal Dedupと、1人のカストディアンの中でFileのタイプや対象デバイスに優先順位を付けてDedupするCustodian Dedupがある。重複削除を行うことで同じメールのレビューを行う必要がなくなりレビュー時間の削減につながる。
提案要求(Request for Proposal)
ディスカバリおよびeディスカバリに必要な作業範囲を記した資料。業務仕様書(Scope of Work)を基に作成する提案書のこと。
提出(Presentation)
公聴会や公判などの場に、EDRMに沿って作成された資料を法的手続きに応じて提出すること。
ディープラーニング/深層学習(Deep Learning)
人間の神経をモデルにした多層構造の機械学習手法であり、これまでは画像や音声などそれぞれのデータの研究者、技術者が手動で設定していた特徴量が自動で計算される。データ内部の大小様々な特徴を学習するため、何層ものネットワーク構造を利用する。しかしながら、学習にかかる時間や学習データの量は今までよりもはるかに多く必要である。
ディスカバリ(Discovery)
証拠開示 を参照のこと。
ディレクトリ(directory)
データやファイルの保存場所のことを指し、Windowsでは「フォルダ」と呼ばれる。階層構造(ツリー構造)でのディレクトリ作成、データやファイルの保存が可能。
データコレクションシート(Data Collection Sheet)
データの収集(Collection)後に、保全したEvidenceの情報を記載するシート。
適合率(Precision Rate)
人工知能が正解データとして抽出した情報の中に、実際の正解データが含まれる割合。精度に関する指標。KIBITの学習結果を評価するために利用する。
テキスト抽出(Text Extraction)
キーワード検索をするために、実データからテキストを抽出すること。
デジタル・フォレンジック (Digital forensics)
デジタル・フォレンジック研究会では「インシデント・レスポンスや法的紛争・訴訟に対し、電磁的記録の証拠保全及び調査・分析を行うとともに、電磁的記録の改ざん・毀損等についての分析・情報収集等を行う一連の科学的調査手法・技術」と定義している。(出典:デジタル・フォレンジック研究会編『改訂版 デジタル・フォレンジック事典』、2014年)
また、コンピュータフォレンジックに限定するならば、調査対象となるHDD内のデータを全く書き換えることなく、完全な複製(HDD全領域のコピー)を改ざん・変更が困難な形式(イメージデータ)で作成(証拠保全)し、その複製したHDD内のデータを調査・解析することを指す。OS上で消去されているものの、HDD内にデータが残置している部分を復元し、調査・解析することも含まれる。
電子証拠開示制度(e-Discovery)
米国の民事訴訟における証拠開示(ディスカバリ)のうち、電子データを対象としたもの。2006年12月の法改正(FRCP:「連邦民事訴訟規則」の改正)により開始され、 民事訴訟の当事者に関連した電子メールや図面など、内部の電子データ開示を求める米国の訴訟制度のこと。
電子情報開示参考モデル(EDRM: Electronic Discovery Reference Model)
国際的標準のeディスカバリのワークフロー。
伝達情報量/相互情報量(Transinformation/mutual information)
2つの確率変数の相互依存の尺度を表す量。KIBITは教師データのTF・DFを基に伝達情報量を計算して学習を行う。正解データのみ、不正解データのみでよく出現する形態素ほど伝達情報量の値が高くなり、KIBITは正解データのみによく出現する形態素を正解の特徴として学習している。
通し番号(Bates Number)
指定の形式に変換された提出用のファイルに採番される、通し番号。
特定(Identification)
訴訟対象者(Custodian)の特定と、関連情報となりうる全ての電子データの保管場所を特定すること。FRONTEOは、その特定の際に必要となるインタビューなどに同席し、保全収集可能かどうかの技術的見地でサポートをしている。
トラック(Track)
円盤(ディスク)状の記録装置における記録単位の1つ。ハードディスクやフロッピーディスクなどの磁気ディスクを利用した記録媒体では、データは木の年輪のように同心円状に分割されて記録されており、同心円状の領域をトラックと呼ぶ。
は
パーティション(partition)
ハードディスクの記憶領域を論理的に分割された領域。
ハッシュ値(Hash Value)
ハッシュ関数とは、任意長のデータ “x” から、固定長のデータ “h(x)” に変換する関数のことを指す。このハッシュ関数で求められる値をハッシュ値という。
ハッシュ値は人間でいうDNAや指紋に相当し、非常に高い固有性を持っている。フォレンジック業界では、このハッシュ値の同一性をもって、データの改ざんや改変が生じていないことを担保している。
ハッシュ関数には大きな2つの特徴がある。一つはハッシュ関数によって求められた値“h(x)”から“x”を逆算することは非常に困難であるという点。もう一つはたとえ“x” が与えられたとしても、”h(x)=h(y)” となる “y” を求めることが困難である点である。ゆえにハッシュ関数によって求められたハッシュ値は非常に高い固有性を持ち、データの同一性を担保する値となりうる。
ハッシュ関数の代表例としては、MD5、SHA-1、SHA-256などがあるが、MD5は脆弱性が認められており、また日本においては2013年にSHA-1のアルゴリズムにも脆弱性があるとして、SHA-1を電子政府推奨暗号リストから運用監視暗号リスト入りされている。
MD5は異なるデータA・Bから同じハッシュ値を算出する方法は出回っているが、任意のハッシュ値からデータ列を再現することは容易に行えないことから、フォレンジック業界では現状においてもMD5がデータ同一性検証に用いられている。
巡回冗長検査(CRC)はハッシュ値の一種として扱われることもあるが、誤り検出符号の一種であるため、データ改ざんに対する耐性がない。
被告(Defendant)
訴訟において訴えを起こされた側の当事者。
秘匿特権(Privilege)
例としては、企業と弁護士間のリーガルアドバイスに関するコミュニケーションが挙げられる。レビューの段階で、秘匿特権の対象となる電子データは提出(Presentation)の対象から必ず外されなければならない。
評価データ(Evaluation Data)
学習結果を評価するためのデータ群。教師データとは別のデータを評価データに設定することで、学習結果の汎用性を評価することができる。
標準偏差(Standard deviation)
データのばらつきの大きさを表わす指標。(例:「平均年収が500万円の会社」という情報だけでは、特定の社員の年収がとびぬけて高いのか、社員の給料が平均的に500万円に近いのかが分からない。標準偏差を用いることで、社員全体の年収の範囲を把握することができる。)
ファーストレビュー(1st Review)
最初に行うレビュー。多くのレビュアーを動員し、大量にあるデータを振り分けしていく。FRONTEOが行うレビューはこのレビューがほとんどを占める。
ファイルシステム(File system)
ハードディスクなどの記録媒体に記憶されているデータを、OSが効率よく管理する方式。OSから各種データを参照、作成、削除可能にするための仕組み。
ファイルスラックスペース(file slack space)
データがセクタに記録された際、セクタ内で未使用部分となったスペース。
ブートセクタ(boot sector)
コンピュータ起動時にOSを呼び出すプログラムが記録された、ハードディスク上のセクタ。
フォーマット(format)
HDD、USB、SDカード等の電子記憶媒体の「ファイルシステムの識別子」や「パーティション情報」、「ディレクトリやファイルの名前や構成情報」等の管理情報を保存する領域(以下、管理領域)の初期値を記録し、使用できる状態にすることを指す。
使用中の記憶媒体をフォーマットした場合、管理領域が初期化されてしまうため、保存していたデータをOS上から視認することができなくなる。
Windows PCを用いてフォーマットを行う場合、管理領域の初期化だけでなく、不良セクタの診断も同時に行われる。また、オプションの「クイックフォーマット」を選択することで、不良セクタの診断を行わずに管理領域の初期化のみを行うこともでき、通常のフォーマットと比較して短時間でフォーマットを完了することができる。
デジタル・フォレンジックにおいては、フォーマットにより管理情報が初期化された電子記憶媒体を調査する場合、フォーマットがされてもデータ保存が可能な領域の上書き等は行われない場合もあるため、データ保存が可能な領域に残存データがあれば、フォレンジックツールや復元ソフト等を用いてデータを復元することが可能となる。
フォレンジックコピー (Forensic copy)
HDDやUSBメモリなどの全てのデータ領域をコピーすることをいう。
Windows上でコピー&ペーストなどによりファイルのコピーを実施する場合、OSで見えている現存するデータ等はコピーできても、削除データが存在する可能性のある領域や未使用領域はコピーすることができない。
一方、フォレンジックコピーでは、専用の機器やソフトウェアを使用することで、削除データ等が存在する可能性のある、未使用領域および未割り当て領域、データの管理情報等を含めた全てのデータ領域をコピーすることができる。そのため、フォレンジックコピーで取得したデータをもとにして、削除されたデータを復元することも可能となる。
フォレンジックコピーには大きくわけて2つの方式がある。一つは、完全なクローンを作成する「100%物理コピー」と呼ばれるコピー、もう一つは、対象のデータをイメージファイル形式で一定の容量に区切って取得する「イメージファイルコピー」と呼ばれるコピーである。両者は、見た目では異なるデータに見えるが、あくまでコピーの形式が異なるだけであり、コピーした結果として取得した中身は同一のものである。
上記の通り、フォレンジックコピーでは、通常取得できない削除されたデータ領域や隠されたデータ領域も取得することができるために、より多くの情報を確保することが可能である。この点において、フォレンジックコピーは「有用性」を担保しているといえる。
プライマリーパーティション(primary partition)
起動ドライブとして指定できるパーティションで、1つのHDDに4つまでプライマリーパーティションを作成可能。
プラッタ(platter)
ハードディスク等の磁気ディスク媒体内に収納されている、磁性体を塗布した円盤状部品でデータが記録される部品。材質はアルミニウム、セラミック、ガラス等が用いられる。
プレディクティブ・コーディング(Predictive Coding)
TARの一種。人間がサンプルレビューした結果に基づき、データのスコア付けを行う機能。従来の人間による訴訟関連文書のレビューを機械が強力にサポートし、レビュー時間の短縮や効率化を図り、レビューコストを抑えることができる。(※注:本機能は、自社製品Lit i Viewに搭載されている。データのスコアは0点から10000点まであり、スコアが高いほど関連性が高いデータであると考えられる)
不良セクタ(Bad Sector)
ディスクの物理的な損傷により、ディスクアクセスが出来なくなってしまったセクタ。
分析(Analysis)
電子データに対して、閲覧の優先度などを加味しながらキーワードによる絞り込みや分類分けをすること。
ヘッド(head)
プラッタ上のデータを読み書きするハードディスク内の小さな部品。プラッタの両面にデータが記録されている場合は、両面それぞれに一つずつヘッドが搭載される。
ホスティング(Hosting)
プロセス作業により抽出されたファイルが、オンラインの証拠閲覧システムにアップロードされ、閲覧用のデータベースとして構築されること。
保全(Preservation)
電子データが、不適切に改ざんされたり破棄されたりしないように保護すること。(例:自社製品Lit i ViewのEasy Hold機能:Custodianに対してLitigation Hold Noticeメールの送信、訴訟に関係するアンケートを取る機能)
ま
マウント(mount)
周辺機器をコンピュータに認識させ、操作可能にすること。
マザーボード(mother board)
コンピュータの部品の1つ。CPUやRAMモジュールなど他の部品を装着する基板。
マルウェア (malware)
コンピュータを不正に動作する目的で作成されたソフトウェア類の総称であり、トロイの木馬、コンピュータウィルス、ワーム、アドウェア、バックドア、スパイウェアなどが含まれる。
マルウェアの行動としては、コンピュータの乗っ取りやデータの盗難・破壊などの悪質なものから、ブラウザ上で望まない広告を頻繁に表示するものまで含まれる。
マルウェア対策としては、ファイアウォールの設定、ウィルス対策ソフトの導入、OS・アプリケーション類を常に最新に保つこと、メール内の不審な添付ファイルを開かない、などがある。
デジタル・フォレンジックにおいては、感染有無の調査、感染により不正な操作が実行されたか等の調査、感染範囲の特定、感染経路調査等がある。
メールアーカイブ(Mail Archive)
専用の保存領域に安全にメールデータを保存することであり、1つのMailArchiveに複数のEメールメッセージが格納されている。バックアップとは違い復元するためではなく、データ容量の軽減化やデータの保存を目的としている。例としては、Outlookのpstや、Outlook Expressのdbx、ThunderBirdのmsfなどがある。
メタ情報(Meta Data)
データに付随する情報のこと。例としてデータの「作成日時」や「作成者」、「データ形式」、「タイトル」、「注釈」などが挙げられる。(注:ここでいう「作成日時」は、ファイル自身が管理している「作成日時」であり、ファイルシステムが管理している「作成日時」の情報とは異なる。
文字コード(character code)
コンピュータ上で文字を表示するために、ひとつひとつの文字に固有に割り当てた番号のこと。「キャラクターコード」とも呼ばれる。ASCIIコード、シフトJISコード、Unicodeなどの体系がある。
ら
リティゲーションホールド(Litigation Hold)
訴訟の発生時点で、または訴訟の可能性が判明した時点で課せられる、電子文書の保全義務のこと。企業内の文書管理規定より優先される。この保全義務期間中に関連電子文書を削除するなどした場合は、証拠隠滅行為とみなされ、厳しい制裁措置が課される。
リニエンシー(Leniency)
課徴金減免制度 を参照のこと。
略式判決(Summary Judgment) 陪審員の評決を必要とせずに、裁判所の判断によって事実審理(Trial)前に訴訟を終結させること。
ルーズファイル(Loose file)
MailArchiveやZIP、LZHなどの圧縮ファイルのように1つのファイルに複数のドキュメントが固まっているものではなく、単一ファイルや単一メールの状態で保管されているもの。
レジストリ(registry)
Windows95以降のWindows系OSにおいて用いられるデータベースで、Windowsの基本情報やシステム、アプリケーションソフトの設定データが記録されている。
レビュアー(Reviewer)
FRONTEOにおいては、主に1stレビューを担当している。自社製品Lit i ViewやRelativity(競合製品)で、データが訴訟に関連するものかどうか振り分け(データへのタグ付け、コーディング)を行う。
レビュープロトコル(Review Protocol)
レビューの背景や、タグ付けの判断基準が記された手順書。レビュアーがレビューを行う上で指針とする。
レビューマネージャー(Review Manager)
レビューを管理する人物。レビューの質や進捗を管理し、弁護士やプロジェクトマネージャーに報告する。