
수십 건의 학습 데이터로 "사람의 판단"을 재현
2020년 3월 23일
검색 시작(6/7): 비용을 제어하는 키는 견적 점검에 있습니다(Part 2).
2020년 4월 1일텍스트 데이터를 지식으로 변경
KIBIT라면 소량의 교사 데이터로 학습 가능

인공지능에는 수천~수만건의 데이터가 필요하다고 생각되기 쉽지만 KIBIT라면 수십건의 데이터로도 시작할 수 있습니다.
FRONTEO의 인공지능 KIBIT를 사용했을 경우, 해석에 어떠한 특징이 있는지, 그 구조나 프로세스를 보면서, 인공지능 활용의 방향성을 생각해 봅시다.
FRONTEO의 인공지능 엔진 KIBIT는 기계 학습의 일종인 독자 개발한 알고리즘으로 텍스트의 해석을 실시하고 있습니다. KIBIT의 개발시에 목표로 한 것은 「작고, 가볍고, 정밀도 높다」입니다. '작음'은 학습할 데이터의 양입니다.아무리 우수하더라도 데이터의 수집이나 학습에 1년이나 걸리면 실천적, 실용적인 인공지능이라고는 할 수 없습니다.또, 해석에 고성능의 프로세서가 필요해, 이용 비용이 커지거나, 환경의 구축에 수고가 걸려 버리면, 이것도 또 실천적, 실용적이라고는 할 수 없습니다.
다음에 「정밀도」를 내기 위해서는, 인공 지능에 데이터를 주어, 학습시키는 것이 필요합니다. KIBIT에서는 해석의 초기 단계, 학습 단계에서 가치를 가지고 있다고 생각하는 정보는 「찾고 싶다」, 가지고 있지 않은 정보는 「찾지 않아도 된다」라고 나누어 학습시킵니다.이 배분이 KIBIT의 특징인 적은 학습으로 속도와 정밀도를 내는 것입니다.주의하는 것은 「키워드를 선택한다」가 아니고, 문서마다, 예를 들면 A4의 종이 1장이나 메일 1통의 단위로 배분을 실시하는 점입니다.왜냐하면 KIBIT는 단어뿐만 아니라 문장에서 사용되는 문자의 구성, 즉 문맥 전체를 보고 있기 때문입니다.
이제 KIBIT가 분석을 수행하는 과정을 살펴 보겠습니다.다음은 기업의 부정행위를 발견하는 조사에서 기업끼리 '담합'하려는 증거를 찾을 때의 예입니다. <그림 1>.담합 전에는 종종 「밀담」이 행해집니다.그 밀담의 조짐을 찾으려면 아래와 같은 메일의 문장을 「찾고 싶다」또는 「찾지 않아도 좋다」로 나누어 KIBIT에게 가르칩니다.빨간색 세로선은 문장을 최소 단위로 구분하는 "형태소 해석"이라는 자연 언어 처리를 할 때 수행되는 첫 번째 프로세스입니다.이 "찾고 싶다"와 "찾지 않아도 좋다"를 비교하면, 언뜻 보면, 양쪽의 메일문에 큰 차이는 없을 것 같습니다만, KIBIT는 순간에 차이를 찾아냅니다.예를 들면, 「이자카야」나 「마시는」은 양쪽의 문장에 있습니다만, 「개인실」이나 「전회부터」, 「시간도 지나」는 전자 밖에 없습니다. KIBIT는 '찾고 싶다'에 있는 단어나 문장을 중시하여 높은 점수를 붙여, '찾지 않아도 된다'에 있는 단어나 둘 다 있는 것에는 낮은 점수를 붙입니다.독자 개발 알고리즘의 계산식에 근거한 점수의 높낮이에 의한 가중의 예는 아래와 같습니다. <그림 2>.
그림 1. 담합의 증거를 찾을 때의 메일 예
그림 2. 개인실, 마시기, 선술집에서 비교한 무게의 차이와 계산식(일부)
KIBIT는 문장에 있는 "찾고 싶다" "찾지 않아도 된다"의 다차원 조합을 학습한 후 주어진 대량의 데이터를 판별하는 분석을 수행합니다. <그림 3>.예를 들어, A4 크기의 종이를 1장 쌓아 올리면 약 1미터 높이가 됩니다.이것을 사람의 눈으로 1장씩 찾아가면 방대한 시간이 걸리고, 또, 많은 사람들이 손으로 나누면 누출이나 실수가 일어날 것입니다. KIBIT가 "찾고 싶다" "찾지 않아도 된다" 문서 데이터를 학습시켜 텍스트 데이터 해석을 실시한 경우, 1만장의 해석이 약 3분 반으로 완료됩니다.해석 결과는 「찾고 싶다」라고 학습한 문장과 비슷한 순서로 스코어를 붙여 재정렬되어 지금까지 엉망이었던 대량의 문서를 「찾고 싶은」우선도가 높은 순서로 재정렬할 수 있게 됩니다 .
그림 3. KIBIT 분석의 흐름
해석의 정확성을 낼 때 가장 중요한 것은, 「찾고 싶다」라고 KIBIT에 학습시키는 교사 데이터입니다. KIBIT의 활용예에서는 다양한 분야의 전문가나 경험자가 “이 메일이 좋지 않다”, “이런 대답은 세일즈의 기회” 등의 경험이나 감각, 이른바 암묵지를 바탕으로 메일이나 일보, 고객의 소리 등의 문서를 선택하는 것만으로, 「찾고 싶은」교사 데이터가 됩니다.또, 전문가와 같은 지견이 없어도, 과거에 「찾고 싶다」 사실이 일어났을 때의 문서가 있으면, 그것도 훌륭한 교사 데이터입니다.이 경우에도 키워드가 아니라 문서를 통째로 가르치는 것으로, KIBIT가 단어의 연속을 분석해, 특징을 파악해 줍니다.그리고 사람이 눈치채지 못했던 「찾고 싶은」 일을 KIBIT가 떠오를 수 있습니다.인공 지능의 학습은 목적이나 관점이 명확한 것이 효과적입니다.주는 교사 데이터는 「많으면 많을수록 정밀도가 높아진다」라고 생각하는 사람도 있다고 생각합니다만, 실은, 데이터의 양이 너무 많거나, 불필요한 정보가 들어가 있으면, 거기서 정밀도는 내려 버립니다 . 「찾고 싶다」 관점에 근거한 기록이나 과거에 일어난 사실에 짜서 학습시키는 것이, 정밀도를 높이는 포인트가 됩니다.
이러한 구조를 사용한 KIBIT의 활용 예를 <그림 4>에 정리했습니다.
営 業 판매 | ・수주 기회/실주 리스크 추출 · 컴플라이언스 위반 점검 | 인원 | ・인재 유출/괴롭힘 방지 ・HRTech(평가, 배치, 채용 등) |
마케팅 | · 고객의 목소리 분석 / 활용 · 시장 · 경쟁 조사 · 기술 조사의 효율화 | 카스타 마사 포트 | ・숨겨진 클레임의 발견 · 성약 가능성이 높은 아웃 바운드 콜 추출 |
제조 개발/지재 | · 시장 · 경쟁 조사 · 기술 조사의 효율화 ・논문 검색 ・기술개발 Q&A 서포트 · 특허 조사 · 분석 · 지재 전략 | 법무 컴플라이언스 | ・정보 유출의 예방과 대책 · 카르텔 · 독점 금지법 대책 · 부정 회계 · 뇌물 수수 · FCPA 대책 ・경표법에의 저촉 체크 |
그림 4. KIBIT의 활용 영역
사내에, 「사람의 눈이나 귀로 대량의 기록을 체크」하고 있는 업무는 없습니까? KIBIT를 사용하면 이전에 일부만 확인할 수 있었던 기록을 포괄적으로 볼 수 있습니다.또, 인간은 같은 것을 전하는 경우에서도, 그 말의 사용법이나 표현은 다양해, 「키워드」를 몇개인가 넣는 것만으로는 「찾고 싶은 것」을 추출할 수 없는 일이 있습니다.
언뜻 보면, 아무런 변철도 없는 단어의 연속이라도 KIBIT에 관점이나 사실을 교사 데이터로 주는 것으로 사람의 행동을 발견하는 센서로 사용할 수 있습니다.예를 들어, 이직을 고민하고 있는 사람에게 상사가 「괜찮습니까? KIBIT라면 과거에 이직해 버린 사람의 면접시 기록에서 특징을 잡고 말의 의미와는 다른 사람의 행동을 찾아낼 수 있습니다.따라서 KIBIT는 대량의 데이터 분석과 찾는 정확도의 "양과 품질"을 모두 제공 할 수 있습니다.
인공 지능을 활용하는 이미지가 조금 솟아 왔습니까?가까이 있는 텍스트 데이터이기 때문에 바로 손을 잡을 수 있는 인공 지능 「KIBIT」.또한 해석의 언어는 일본어뿐만 아니라 영어, 중국어, 한국어에도 대응하고, 비즈니스 솔루션에서의 활용은 국내뿐만 아니라 해외에도 퍼지고 있습니다.당신이 가지고 있는 텍스트 데이터와 "찾고 싶은" 관점을 KIBIT에 넣어보십시오.