
클라우드와 사물인터넷(IoT)
2020년 5월 27일
미국 소송 변호사가 말한다 ~격동기에는 스피드가 소중한 것은 진짜?자고 기다리는 「어부의 리」작전~
2020년 5월 28일FRONTEO의 2개의 AI 엔진은 텍스트 데이터로부터 모호한 감각과 행동의 의미, 조짐을 보이게 하고, “판단”으로 이끈다.



· 왜 "블랙 박스"라고 말하는가?
· FRONTEO의 AI 엔진이 "보이게"하는 접근법
・ 「행복」과 같은 애매한 감각을 AI로 찾는 방법? (곧 공개)
・ FRONTEO가 찾아온 「○○○○○○」 (곧 공개)
AI를 이용한 서비스의 이용이 세상에 퍼지고 있습니다.개인에서는 스마트폰으로 찍은 얼굴 사진을 깨끗하게 하거나, 스마트 스피커로 상품을 주문하거나, PC로 외국어 문장을 일본어로 번역하거나 등의 이용이 생활 속에서 정착하고 있습니다.
그렇다면 기업은 어떻습니까?기업용으로도 AI를 활용한 서비스가 제공되고 있습니다만
실제로 업무에 도입하고 있는 기업은
14.1 %
(출처: 총무성·ICR·JCER “AI·IoT의 대처에 관한 조사”(2019년 3월 발표))
선구적인 이용은
단지 7.6 %
(출처: IDC Japan 「국내 유저 기업의 AI 활용의 대처에 관한 성숙도를 발표」(2020년 3월 발표))
라는 조사 결과도 나와 있습니다.기업의 AI의 이용이 진행되지 않은 것은 업무 내용이나 이용 환경에 맞춘 커스터마이즈가 어렵고, 사용할 수 있는 데이터가 충분히 갖추어지지 않는, 개념 실증(PoC)으로 효과가 있어도, 채산이 맞지 않는다고 하는 이유 그러나 최근에 보는 것들 중 AI'블랙박스' 문제합니다.
2012년경부터 시작되었다고 하는 제3차 AI 붐으로, 기술적인 브레이크스루가 된 것에, 딥 러닝(심층 학습)이라고 하는 수법이 있습니다. (그림 1)]
그림 1. 딥 러닝의 예
딥러닝은 뇌의 신경회로, 뉴런과 시냅스의 작용을 수학적으로 모방한 신경망이 베이스가 되고 있습니다.입력층과 출력층 사이에 숨겨진 층을 다수 끼워 계산함으로써 복잡한 학습을 할 수 있어 화상이나 영상의 해석, 번역 등 다방면에서 성과를 올리고 있습니다.한편, 해석에는 만 단위의 데이터나 고성능의 기재가 필요하다는 과제에 가세해, 숨겨진 층중에서 「AI가 어떤 특징을 파악했는지 모르는」점이 「블랙 박스」라고 말해지고 있습니다 .
AI는 주어진 데이터에서 어떤 특징을 찾아 처리한 결과를 보여주고 있습니다만, 이전의 딥 러닝의 예에서는 어떤 실험에서 올바른 결과가 나오더라도 처리를 하는 판단의 과정이나 근거를 모르기 때문에, 다른 미지의 케이스에서 똑같이 사용할 수 있을지 어떨지 판단이 어렵다고 되어 있습니다.
현재 딥 러닝을 사용한 모델을 제공하고 있는 각사는 데이터가 결과에 미치는 영향을 정량화하고, 추정 결과의 이유나 근거를 나타내거나, 가설을 추출하는 등, 사람이 확인할 수 있는 것으로 AI 을 안심하고 활용할 수 있도록 개발이 진행되고 있습니다.
그럼, FRONTEO는, AI에서의 해석에 있어서 「블랙 박스」에 어떤 접근을 취하고 있습니까?
FRONTEO의 AI 엔진은 KIBIT(키비트)가 2012년부터, Concept Encoder(컨셉 엔코더)가 2018년부터 가동하고 있습니다.이들을 이용하여일상적인 단어, 문장, 문서 등 자연언어를 분석하여 이 세상에서 "찾고 싶은 것"을 발견하는 프로세스, 솔루션을 제공계속하고 있습니다.딥 러닝과는 다른 독특한 접근 방식으로,몇 건에서 수십 건이 적은 데이터에서도 학습이 가능하고 처리가 가볍습니다.것이 특징입니다.
FRONTEO는 '블랙박스'가 되지 않도록 AI에 의한 해석의 프로세스나 결과를 '가시화'함으로써 사람에게 설명하거나 판단이 가능해지는 '설명가능성'을 높이는 것을 중시하고 있습니다. 합니다.
FRONTEO의 AI 엔진 KIBIT에서는, 언어 해석에 있어서, 2016년부터 스코어링(점수화)에의 영향도가 높은 곳(구두점이나 개행 코드로 단락지어진 단위)을 중요한 부분으로서 하이라이트로 표시하는 것에 임 , 2019년 10월에는 비즈니스 데이터 분석 지원 시스템 'Knowledge Probe20'에 구현되었습니다. (그림 2)
그림 2: KIBIT의 하이라이트 기능
하이라이트된 부분이 제시됨으로써, 일정량의 문장 중에서 KIBIT가 어느 문장을 중요하다고 판정하고 있는지를 「가시화」하고 있습니다.이용자는, 상기 개소를 보는 것으로, 「찾고 싶은 것」 「갖고 싶은 결과」에 대한 설명성이나 납득도를 재빠르게 확인할 수 있습니다.
여기서 다시 KIBIT나 Concept Encoder의 언어 해석 프로세스를 해설해, 어떻게 「가시화」를 실시하고 있는지를 보자.우선 KIBIT를 부정 조사에 사용하는 경우로 설명합니다.이번 조사는 「담합」입니다.직원이 매일 교환하고 있는 방대한 메일 중에서 담합을 할 가능성이 있는 것을 AI에서 찾습니다.
먼저 KIBIT가 학습하도록 이메일 데이터를 준비합니다.담합을 실시하기 위해, 술자리에 초대하는 「찾고 싶다」메일과, 문제가 없는 보통 술자리의 「찾지 않아도 좋다」메일의 2 종류입니다.그리고 데이터를 KIBIT에 넣고 메일 문장을 '형태소'로 나눕니다.형태소는 문장에서 의미있는 언어의 최소 단위이며 형태소로 나누는 과정은 언어 분석의 시작입니다.
동시에 준비한 데이터가 "찾고 싶은"메일인지 "찾지 않아도 좋다"메일인지라는 정보도 KIBIT에 학습시킵니다 (그림 3).담합으로 이어지는 「찾고 싶은」메일은, 기업이 가지는 과거의 메일이나 FRONTEO로 축적한 데이터를 사용할 수 있습니다.
각 이메일에서 학습
KIBIT는 전달정보량이라는 방법으로 이용하여 메일로 주어진 형태소 중 '찾고 싶은' 메일에만 포함되어 있는 것을 '중요도가 높다'고 보고 '찾지 않아도 좋다' 에 있는 것을 "중요도가 낮다"고 간주합니다(그림 4).
그리고 학습한 메일의 형태소의 출현 빈도와 함께 계산하고, 0과 1점 사이에 「가중치」를 나타내는 점수를 붙여 갑니다.이 예에서는 「찾고 싶다」메일에만 있는 「개인실」이라고 하는 형태소는 점수가 높아져, 중요한 성분이라고 말할 수 있습니다.한편, 「찾고 싶다」 「찾지 않아도 된다」의 양쪽에 있는 「음료」나 「이자카야」는 점수가 낮고, 특히 출현 빈도가 많은 「음료」는 점수가 낮아지고 있습니다(그림 5).
다음에 문장에 포함되는 형태소의 중요도의 「성분」과 「양」을 학습한 KIBIT를 사용해, 조사 대상이 되는 사원의 메일을 해석합니다.통상은 수천에서 수만 통의 메일을 조사하는 일이 있습니다만, 이미지로서, 26통의 메일, 합계 100개의 형태소가 분포하는 해석 결과를 그래프로 나타내 보았습니다.
「찾고 싶다」만에 있는 형태소는, 앞의 표의 「개인실」과 같이 높은 점수가 붙어, 그래프상에서는 길어집니다.한편, 「찾지 않아도 된다」에 있는 형태소, 또 양쪽에 있는 형태소는, 「음료」와 같이 낮은 점수가 붙어, 그래프상에서 짧아집니다(그림 6).
이와 같이 메일 1통 1통을 스코어화하는 것으로, 차례로 늘어놓아 바꾸는 것이 용이하게 됩니다.점수가 높은 쪽이 담합의 가능성이 높기 때문에, 차례로 보는 쪽이 랜덤하게 메일을 보아 가는 것보다 훨씬 빠르고, 증거가 되는 메일이 발견하기 쉬워집니다.또한 전문가의 지식이나 경험에 근거해 「어떤 점수보다 낮은 메일은 보지 않아도 좋다」라고 하는 사람의 판단을 더해, 역치를 설정하는 것으로, 조사 시간을 대폭 단축하는 것도 수 있습니다.
KIBIT는 마치 요리의 재료를 나타내듯이 문장의 성분을 밝히고, 점수가 높은 형태소를 포함한 한 문장을 중요한 부분으로 하이라이트함으로써 「보이기」의 실현과 조사해야 할 메일을 사람에게 제시한다 수 있습니다.