
EU 경쟁법 체계
2020년 6월 4일
시리즈 기업의 내부 부정에 있어서의 디지털 포렌식 조사 / 외부 위탁처로부터의 개인 정보의 유출편
2020년 6월 8일FRONTEO의 2개의 AI 엔진은 텍스트 데이터로부터 모호한 감각과 행동의 의미, 조짐을 보이게 하고, “판단”으로 이끈다.



· 왜 "블랙 박스"라고 말하는가? 【전편】
・ FRONTEO의 AI 엔진이 「보이게 하는」 어프로치【전편】
· '행복'과 같은 애매한 감각을 AI에서 찾는 방법?
· FRONTEO가 찾아온 「○○○○○○」
FRONTEO가 생명 과학 영역을 위해 개발한 또 다른 AI 엔진Concept Encoder는 해석을 실시한 문서나 단어의 관련성을 평면에 전개하거나(그림 7), 구상으로 표현하는 것으로 「가시화」를 실시합니다.
Concept Encoder의 특징은언어 분석을 통해 단어와 문서를 "벡터화"하는 것
벡터화에서 위치와 관계를 보여줌으로써 사용자에게 "찾고 싶은 것"에 접근하는 감각적인 경로를 보여줄 수 있습니다.현재, 진찰이나 입원 기록으로부터 병리학의 변화를 보거나, 대량의 논문으로부터 신약을 개발하거나, 기존의 약의 이용을 넓히는 연구에 사용되고 있습니다.
Concept Encoder의 접근법은 분포 가설 (distributional hypothesis)단어의 의미는 그 단어가 나타날 때 주변 단어에 의해 결정됩니다.라는 생각에 근거해, 문자의 덩어리에 지나지 않는 단어에 유사성을 찾아, 분류나 거리의 판정을 실시합니다.같은 문맥에서 나타나는 단어는 의미가 가까운 경향과 관련성, 중요성이 높은 것으로 확인되었습니다..
또한 한 단어가 문장에 나올 때 동시에 다른 단어가 자주 나타난다는 것을공기"라고 말합니다.
예를 들어, alcohol(알코올)이라는 단어를 중심으로 두고, 1어나 2어 등 근처에 나타나는 단어를 논문에서 조사한 경우, content(도수)나 consumption(소비), drug, Tobacco등의 「공기어 '가 분포되어 있습니다(그림 8: 오렌지색 둘러싸기).
또한 alcohol과 다른 단어의 출현 빈도를 공동 행렬로 정리하면 alcohol은 벡터 [122, 145, 18, 42, 31, 53, 23, ... ·]로 나타낼 수 있습니다 (그림 9).
Concept Encoder는 이러한 방식으로 분포 가설과 공동 정보를 사용하여 단어와 문서의 관계를 벡터화합니다.예를 들어, 해석 대상으로서 50만의 논문으로 형태소(단어)가 6만 있었을 경우, 6만×6만의 공기 행렬을 만드는 것으로, 단어끼리의 벡터를 만들 수 있습니다.또한 문서 행렬과 단어 행렬을 곱하여문서와 단어 간의 유사성을 볼 수 있으며 어떤 단어와 문서가 관련되어 있는지 알 수 있습니다..
100차원에서 1000차원이 되는 단어나 문서의 벡터 계산에는 대개 대규모 계산 자원이 필요하지만 Concept Encoder는 벡터끼리의 내적의 합을 근사식(유효성을 잃지 않는 범위) 내에서 간편화하는 방법)으로 구하기 때문에, 슈퍼 컴퓨터 등 대규모 설비를 이용하지 않아도 해석이 가능합니다.
Concept Encoder에서 벡터화를 실시한 결과는 수치화를 실시해 리스트로 나타내거나 위치 정보로서 좌표나 맵과 같은 형태로 나타낼 수 있습니다(그림 10).
이와 같이 조사의 목적이나 프로세스, 요구하는 결과에 응한 「가시화」가 가능하기 때문에, 조사하는 사람은 해석 결과가 나타내는 정보를 정사하는 것으로, 설명성, 납득도를 확인할 수 있습니다 .
지금까지 본 FRONTEO의 언어 분석 접근법을 사용하면 무엇을 할 수 있으며 어떤 이점이 있습니까?원래 사람의 뇌의 작용은 딥 러닝과 마찬가지로 「블랙 박스」로, 왜 그 판단을 했는지 알기 어려운 것이 많이 있습니다.그러나 FRONTEO의 언어 분석을 사용하여 답변을 찾는 방법을 따르는 방법이 있습니다. AI가 약한 추상도가 높고 모호한 것, 예를 들어 "행복"이라는 질문으로 그 과정을 살펴 보겠습니다.
최근, 집에 있는 여러가지 물건을 버리는 것으로 행복해질 수 있다는 이야기가 몇가지있었습니다.버리는 물건과 버리지 않는 물건, 이 두 가지의 차이로 인해 어떤 사람의 "행복"을 찾을 수 없습니까? (그림 11)
「버리다」 「버리지 않는다」로부터 사람의 감각에 다가가는, 행동 정보 과학의 어프로치입니다.
어떤 사람이 "행복"을 느끼고 싶다고 말합니다.하지만 어떻게 해야할지 모르겠습니다.뇌의 작용은 자신도 다른 사람도 직접 볼 수 없습니다.그렇지만, 그 사람이 집의 정리로 「버리는 것」 「버리지 않는 것」을 구별할 때, 버리지 않는 것은 소중히 하고 있는 것, 버리는 것은 그렇지 않은 것,이라고 생각할 수 있어 그 사람이 「 "좋아하는 것"의 이미지가 다른 사람이라도 아는 것은 아닐까요?
「버리는 것」 「버리지 않는 것」을 설명하는 문장을 각각 준비합니다.인터넷 통신 판매의 리뷰나 상품 설명이라도 광고 선전의 말이라도, 문장이라면, 무엇이든 상관없습니다.그리고 그 텍스트를 KIBIT나 Concept Encoder를 사용해 해석하는 것으로, 그 사람이 좋아하는 것으로부터 “행복”의 성분이나 관계가 밝혀져, 행복을 느끼는 것을 찾아낼 수 있습니다.
KIBIT에서 해석한 결과, 스코어가 높은, 상위의 문장에 「생물과의 접촉과 부드러움」에 관한 문장이 많이 보였습니다.그 사람이 좋아하는 "행복을 느끼는"것을 추출할 수 있었다고 생각할 수 있습니다.
그런데, KIBIT 에서의 해석 결과를 보고, 그 사람은 「애완동물을 기르는 것이 좋은 것은?」라고 판단했습니다.그렇지만, 무엇을 기르는 것이 좋은 것인지, 눈에 띄지 않습니다.그래서 Concept Encoder를 사용하여 어떤 생물이 좋은지 살펴 보았습니다.
애완동물의 자료나 리뷰, 체험기를 입력한 후 벡터화하고, 몇 가지 조건이나 가설을 넣어 보았더니, 「골든 리트리버」가 떠올랐습니다. (그림 12)
‘행복’을 느끼고 싶다는 애매한 생각이 ‘개를 기른다’는 판단에 도착했습니다. (※ 해석 프로세스를 설명하기 위한 가상의 결과입니다)
앞의 예에서는 어떤 사람의 "행복"이라는 애매한 일을 FRONTEO의 XNUMX개의 AI 엔진으로 해석한 경우라는 경우를 보았습니다.
실제로 FRONTEO는 2012년부터 KIBIT를, 2018년부터 Concept Encoder를 사용하여 수치로 표현할 수 없는 "행복"보다 더 복잡하고 모호한 일을 많이 찾아 왔습니다.

FRONTEO는 이와 같이 언어 분석을 통해 수많은 위험과 문제로부터 대답과 기회를 찾아 왔습니다.앞으로도 「AI×자연언어」에 의해 사회에 있는 과제를 해결해 나갈 것입니다.