
Cellular Agriculture and US Regulatory Considerations
2020년 11월 24일
해외 당국에 의한 안티 덤핑 조사에 대한 실무적 대응 방법
2020년 11월 26일교사 데이터 선택 방법
FRONTEO의 Anisa Henderson (미국 플로리다 주 변호사 / 미국 워싱턴 DC 변호사)은 AI를 활용 한 리뷰에서 교사 데이터를 선택하는 방법을 설명합니다.

교사 데이터라고 해도, 도대체 얼마나의 데이터를 어떻게 선택하면 좋을까요.
검토 대상 문서 전체에서 통계적 이론에 따라 임의로 추출된 일정 수의 문서가 이상적인 교사 데이터로 되어 있습니다.모두 통계에 의해 결정된다는 것입니다.
교사 데이터로 사용되는 것은 얼마나 많은 문서?
검토 대상의 문서로부터 랜덤 추출한 것이 교사 데이터로서 사용된다는 것은 앞서 설명한 대로입니다만, 그럼 얼마나의 수가 있으면 충분하다고 말할 수 있습니까?여기에서는, 통계 모델을 이용해, 얼마나 많은 수의 문서를 교사 데이터로서 사용할지(샘플 사이즈)를 결정해 갑니다.
참조 :https://www.calculator.net/sample-size-calculator.html
검토할 문서 수를 statistic calculator(통계 계산기)에 입력하면 일정한 통계적 신뢰 수준과 허용 오차를 보장하기 위해 얼마나 많은 문서가 교사 데이터로 필요한지 계산됩니다. FRONTEO는 일반적으로 통계적 신뢰 수준을 95%, 허용 오차를 ±2.5%로 설정합니다. 10만건의 문서라면 1,514건의 샘플 크기로 이만큼의 신뢰 수준과 허용 오차를 달성할 수 있다는 것입니다.
신뢰 수준과 허용 오차, 샘플 크기는 모두 상관됩니다.이에 대한 자세한 내용은 EDRM.net에서 자세히 설명합니다. 참고하십시오.
참조 :https://edrm.net/resources/project-guides/edrm-statistical-sampling-applied-to-electronic-discovery/
교사 데이터를 새로 만들고 싶지 않아!
교사 데이터를 만드는 것은 솔직히 즐겁지 않습니다.이전에 작성한 교사 데이터를 사용할 수 없습니까?샘플 크기가 더 적을 수 있습니까?등이라고 생각해 버리는 것 더 이상 합니다.
수천 건의 교사 데이터에 눈을 통할 여유는 없지만, 랜덤 샘플링을 사용하고 싶은 경우도 있을 것입니다.이 경우 신뢰 수준과 허용 오차를 조정하여 샘플 크기를 줄일 수 있습니다.그러나 신뢰 수준, 허용 오차 모두 각각 90% 미만, ±5% 이상이 되지 않도록 두는 것이 좋을 것입니다.
과거에 사용한 교사 데이터를 사용하는 손도 있지만 검토 프로토콜에 변경이 있었을 경우에는 위험이 수반됩니다.
그 점에서 FRONTEO가 독자적으로 개발한 인공지능 KIBIT는 교사 데이터가 적어도 해석에 착수할 수 있습니다(관련성이 있는 문서가 50건 있으면 해석 가능).
이 경우의 위험이지만, AI는 유저가 준 교사 데이터를 바탕으로 relevancy model(관련성 유무를 나타내는 모델)을 작성해 나가기 때문에, 과거에 사용한 교사 데이터를 재이용하거나, 교사 데이터 수를 줄이면 최신 검토 대상 문서에 잘 맞지 않을 수 있습니다.그러나 일반 리뷰는 대량의 데이터를 처리하므로 적합률(precision rate)과 재현율(recall rate)을 사용하여 미리 예상한 결과와 실제 리뷰 결과를 비교해 볼 수 있습니다(오 사용 리뷰 플랫폼 및 분석 도구를 사용하면 쉽게 수행 할 수 있으며 어려울 수 있습니다).
실제로 검토한 결과가 사전 예상과 크게 다르다면 교사 데이터의 품질과 양을 개선해야 합니다.하지만 그렇게 되면 오히려 새로 검토한 문서를 이번에는 새로운 교사 데이터로서 AI에 기억할 수 있기 때문에 럭키라고도 말할 수 있을 것입니다.
아니사 헨더슨 (미국 플로리다 주 변호사 / 미국 워싱턴 DC 변호사)