디스커버리 입문(7/7): 벤더의 디스커버리 대응력을 파악하기 위해 꼭 물어봐야 할 사항들

2020年04月24日配信

beatriz-perez-moya-XN4T2PVUUgk-unsplash-scaled

디스커버리를 진행함에 있어 기업이 주도권을 쥐지 못하면 비용도 통제할 수 없다. 앞서 언급했듯이 일본 기업에게 바람직한 것은 디스커버리 벤더와 직접 계약하는 것이다.

이에 벤더 선정 및 협상 시 반드시 물어봐야 할 사항과 이에 대한 이상적인 답변, 주의해야 할 답변 예시, 그 이유를 간결하게 정리해 보았다.

디스커버리의 커버리지 범위는 어디까지인가?
이상적인 답변 주의해야 할 답변
모든 공정을 자체적으로 진행하고 있다. 1. (재위탁을 통해) 모든 공정을 직접 수행한다.
2. 디스커버리의 일부 작업만 담당하고 있다.

e디스커버리의 흐름은 EDRM 모델에서 규정한 대로 정보 거버넌스, 식별, 보존/수집, 처리/열람/분석, 작성, 제출의 과정으로 나뉜다. 벤더를 선정할 때, 해당 벤더가 이러한 프로세스의 어느 단계부터 어디까지를 수행할 수 있는지 확인해야 한다.

대형 벤더의 경우 대부분 '모든 공정을 다 처리하고 있다'고 대답할 것이다. 하지만 이를 그대로 믿어서는 안 됩니다. 하청업체에 대한 재위탁 가능성도 확인해야 합니다. '디스커버리 커버리지'를 확인할 때 하청업체에 재위탁, 아웃소싱을 하고 있지 않은지 확인하는 것이 좋습니다. 계약서에는 '외부에 재위탁할 경우 반드시 발주처의 서면 동의를 얻어야 한다'는 문구를 넣어두는 것이 좋습니다.

주의해야 할 답변 예시 중 '2. 일부만 담당하고 있다'고 답한 벤더는 그 '일부 작업'조차도 범용 툴을 사용하거나 타사에 맡기는 경우가 많습니다. 공정에 따라 벤더를 변경하는 것은 실수가 발생하기 쉽고, 정보 유출의 위험도 있기 때문에 모든 작업을 일관되게 처리할 수 있는 '디스커버리 종합 지원 벤더'를 선택해야 합니다.

프로세스 작업과 검토 작업은 어디에서 하는가?
이상적인 답변 주의해야 할 답변
작업은 일본 국내에서 한다. 작업은 미국 또는 해외에서 한다.

미국 벤더에 위탁하는 경우, 프로세스 및 검토 작업을 어디에서 할 것인가가 문제가 됩니다. 대부분의 경우 미국에서 진행하게 되는데, 그렇게 되면 필요 이상의 번역 비용과 시간이 필요하게 됩니다. 일본에서 프로세스와 검토를 진행하면 그런 비용과 시간이 필요하지 않습니다.

또한 데이터 관리 측면에서도 주의해야 합니다. 해외로 반출하는 순간 데이터 관리를 포기한 것이나 다름없습니다. 아무리 외주업체와 NDA를 맺었다 하더라도 재위탁을 하게 되면 누가 어디서 누가 데이터를 열람하고 있는지 알 수 없으므로 기업 입장에서는 리스크가 됩니다.

일본어에 대응하고, 일본 기업 디스커버리 실적과 풍부한 경험이 있는가?
이상적인 답변 주의해야 할 답변
일본어에 대응하고 있으며, 지금까지 최소 100건 이상의 일본 기업의 디스커버리 안건을 처리한 경험이 있다. 일본어에 대응하고 있지만, 일본기업에 대한 경험은 적다.

이것도 디스커버리 입문(6/7): 비용 관리의 핵심은 견적 확인에 있다(Part 2)에서 상세히 설명한 바와 같이, 일본어에 대응하지 않으면 데이터가 깨지거나 프로세스의 정확도가 떨어지고, 번역 비용과 시간이 낭비되는 등 효율성이 떨어집니다. 효율적이지 못합니다.

더욱 주의해야 할 점은 기업이 '일본어 대응'을 하고 있어도 디스커버리 작업이 대응하지 않는 경우가 있다는 점이다.

예를 들어 일본에 사무실이 있거나, 미국에서도 일본어를 이해할 수 있는 직원이 있다면 '대응할 수 있다'는 답변을 받을 수 있습니다. 그러나 중요한 것은 일본어가 통하는지 여부가 아니라 일본 기업의 디스커버리에서 높은 실적과 풍부한 경험을 가지고 있는지 여부입니다.

일본어를 비롯한 아시아 언어에 높은 실적이 있는 프리딕티브 코딩을 사용하고 있는가?
이상적인 답변 주의해야 할 답변
사용하고 있다(데모 및 수치 데이터 제공도 가능). 사용하지 않는다. 또는 사용 중이지만 시연이 불가능하다.

'디스커버리' = '리뷰'라고 해도 과언이 아닐 정도로 전체 디스커버리 비용에서 리뷰 비용이 차지하는 비중은 크며, 비용을 잘 관리하기 위해서는 이 과정을 최대한 효율적으로 만드는 것이 중요합니다. 여기서 활약하는 것이 바로 프리딕티브 코딩이다.

프리딕티브 코딩은 컴퓨터 처리를 통해 인간에 가까운 정확도로 사전 검토를 수행하는 것을 말합니다. 이 기술을 도입하면 기존에는 전적으로 사람의 눈에 의존하던 검토 작업을 비용과 시간 모두 크게 압축할 수 있습니다.

프리딕티브 코딩은 사용하지 않을 이유가 없을 정도로 리뷰의 효율성을 높이는 데 필수적인 요소로 자리 잡고 있다. 그럼에도 불구하고 이를 사용하지 않는 벤더는 해당 기술을 가지고 있지 않거나, 수익률을 높이기 위해 일부러 '사람에 의한 검토'를 통해 비용이 발생하기 쉬운 방법을 택하고 있는 것이다. 이런 업체는 선택에서 제외하는 것이 좋다.

Responsive(관련성 있는) 문서(=Relevant 문서)를 어느 정도 포괄하고 있는지 비율 = 재현율을 Recall Rate(추출율)라고 한다. 위 그림은 점수가 높은 것부터 정렬한 문서 수에 대해 플롯한 그림이다. 예를 들어, 점수가 높은 30%를 검토하면 Responsive 문서의 75%를 검토할 수 있다는 것을 의미한다.

Precision(적합률)은 Relevant(관련성 있음)으로 판정된 문서 중 실제로 Relevant로 판정된 문서의 비율을 의미하며, Relevant임에도 불구하고 Not Relevant로 판정된 문서가 많을수록, 즉 오판이 많을수록 값이 작아진다. 위 그림에서 상위 몇 %의 문서들의 Precision이 낮고, 높은 점수를 받은 문서에서 오판정이 발생하고 있음을 알 수 있다.

프리딕티브 코딩의 정확도를 파악하는 데 가장 효과적인 방법은 시연이다.

PC 1대 분량의 샘플 데이터만 있으면 하루 만에 시연과 작업의 정확도를 확인할 수 있다. 또한 벤더의 '튜닝' 능력도 중요하다. 시연에서는 샘플 데이터의 채취 방법 등에 따라 결과의 편차가 발생할 수 있습니다. 이런 상황에서 기업 측 소송 담당자와 소통하면서 어떻게 고정밀도의 작업을 수행할 수 있는지, 그 대응 능력에 대해서도 파악해야 합니다.

또한, 시연을 하기 전에 리콜률, 정밀률 등을 바로 제출할 수 있는지 여부도 벤더의 대응력을 가늠할 수 있는 포인트가 됩니다. 이러한 수치적 근거 데이터를 지원 벤더 또는 벤더 담당자가 파악하고 이해하지 못하면 정확한 견적을 작성하는 것이 불가능하기 때문입니다.

번역은 어느 단계에서 진행해야 하는가?
이상적인 답변 주의해야 할 답변
검토 완료 후 증거로 제출할 서류만 번역한다. 수집한 모든 데이터에 대해 프로세스 전에 번역한다.

증거로 제출할 서류를 추려내지 못한 상태에서 번역을 하는 것은 비용적으로나 시간적으로나 낭비일 뿐입니다. 일부 벤더는 수집한 모든 자료를 프로세스 작업 전에 번역하기를 원하지만, 가장 이상적인 것은 제출할 증거자료만 번역하는 것이다.

그것이 불가능하다면, 번역 작업을 어느 시점에 진행할 것인지는 확인해야 합니다. 검토 후 번역을 하겠다고 하는 업체라면 믿을 수 있다.

OCR은 어느 단계에서 진행하나요?
이상적인 답변 주의해야 할 답변
OCR을 하지 않는다(*) OCR은 수집된 모든 데이터에 대해 프로세스 전에 수행한다.

(※PDF본의 이미지 파일이나 종이 자료 등은 OCR 대상이 될 수 있음)

서류를 Tiff화하여 OCR을 하면 데이터의 문자화 현상을 방지할 수 있기 때문에, 이름뿐인 '일본어 대응 가능 업체'가 선호하는 수단이다. 그러나 OCR은 정확도에 한계가 있기 때문에 신뢰할 수 있는 증거를 추출한다는 점에서 불안감을 떨쳐버릴 수 없으며, 고정밀도의 일본어 분석 기술을 보유한 업체라면 OCR을 사용하지 않고도 제대로 된 데이터 분석을 할 수 있습니다.

⑦ 검토 속도는 어느 정도인가?
이상적인 답변 주의해야 할 답변
명확한 수치를 구두 또는 자료로 제시한다. 안건 내용에 따라, 또는 일본어가 어려워서 잘 모르겠다는 등의 이유로 명확한 수치를 제시하지 않는다.

검토 속도를 물어봐도 명확하게 대답하지 못하는 벤더가 많을 수 있다. 그 이유에 대해서도 '일본어가 복잡해서 시간이 얼마나 걸릴지 모르겠다', '문서에 의존하기 때문에 모르겠다' 등 애매모호한 대답을 하는 경우 주의해야 한다.

왜냐하면 가능한 한 많은 시간을 들여서 비용을 추가로 발생시키고 싶어하는 경우가 많기 때문이다. 이들에게는 매출의 대부분을 차지하는 리뷰 비용과 직결되기 때문에 명확한 수치를 제시하면 필요한 비용을 알 수 있고, 시간이 오래 걸려 많은 비용을 청구하는 것도 어려워지기 때문에 최대한 애매모호한 답변을 하고 싶어하는 것이 그들의 속마음일 것이다.

제대로 된 수치를 제시하는 업체라도 시간당 처리할 수 있는 파일 수에 대해 확인해야 한다. 효율적인 검토를 위한 노하우가 축적된 업체라면 복잡한 자료라도 시간당 60개의 파일을 검토할 수 있는 경우도 있습니다. 많을 때는 120개까지 늘린 사례도 있습니다.

검색을 위해 벤더에게 제공한 데이터를 호스팅하는 서버는 어디(어느 나라)에 위치하는가?
이상적인 답변 주의해야 할 답변
일본 국내 데이터센터에 둔다. 미국 등 해외에 둔다.

미국 변호사나 로펌에서 데이터를 요구하는 경우가 종종 있습니다. 공정의 여러 단계에서 '데이터를 미국으로 보내달라'는 이야기가 나오는데, 이에 따를 필요는 없습니다. 일본의 데이터 센터에 보관할 수 있다면 그곳에서 작업을 진행해도 상관없다. (데이터를 자사가 관리할 수 없는 곳으로 보내면 정보 유출의 위험이 높아진다는 것은 앞서 언급한 바와 같다).

변호사에게 그 이유를 물었더니, 데이터를 미국에 두면 법원이나 법무부에 좋은 인상을 줄 수 있기 때문이라고 한다. 증거 서류(다른 데이터도 있지만)를 제출함으로써 일본 기업이 조사에 협조적이라는 인상을 심어주는 것이 목적이다.

이는 결코 틀린 말이 아니다. 법원이나 법무부의 관할 하에 데이터가 있다는 것은 '언제든 조사를 할 수 있다'는 상황이 만들어지기 때문입니다.

하지만 미국과 유럽 기업이 소송으로 다투게 되면 어떻게 될까요? EU에 적용되는 '데이터 보호 지침'이라는 규정은 충분한 데이터 보호 수준이 확보되지 않은 제3국으로의 데이터 이전을 금지하고 있습니다. 미국에는 개인정보보호를 위한 포괄적인 법이 없기 때문에 기본적으로 데이터 이동이 금지되어 있다. 미국 변호사가 이를 요구할 경우, 변호사 자신이 처벌을 받을 수도 있습니다. 이 점은 세미나 등에서 자주 언급되기 때문에 미국 변호사라면 상식적으로 알고 있는 내용이다.

그럼에도 불구하고 '데이터를 미국으로 가져가면 소송에 유리하다'는 이유라면, 유럽 기업은 항상 불리한 입장에 놓이게 됩니다. 이는 아무리 생각해도 앞뒤가 맞지 않습니다.

또한, 크로스보더 사건에서는 동일한 데이터가 여러 소송에 증거로 사용되는 경우가 있습니다. 하나의 파일이 A라는 소송에도, B라는 소송에도 사용된다고 생각하면 이해가 쉬울 것입니다.

소송의 범위가 크든 작든 간에, 현재는 디스커버리 발생 시마다 방대한 양의 데이터가 수집되고 있습니다. 동일한 서류를 사건마다 매번 디스커버리 작업을 하는 것은 비용적으로나 시간적으로나 낭비입니다. 그렇기 때문에 데이터센터 등에서 관리하고 사안별로 꺼내볼 수 있도록 하는 '크로스 매터 매니지먼트'가 효율적이라고 할 수 있습니다.

미국으로 데이터를 보내거나 미국 서버에 데이터를 호스팅하는 것은 '크로스 매터 매니지먼트'와는 정반대의 행동이며, 시대의 흐름에 역행하는 행위라고 할 수 있습니다.

이전 기사:디스커버리 입문(6/7): 비용 관리의 핵심은 견적 확인에 있다(Part 2)