“万物は言（logos）によって成る” ― 言葉の重要性に着目したAI解析【後編】

EU競争法の体系

2020年6月4日

シリーズ企業の内部不正におけるデジタルフォレンジック調査 / 外部委託先からの個人情報の漏えい編

2020年6月8日

Published by webmaster on 2020年6月5日

FRONTEOの2つのAIエンジンは、テキストデータから曖昧な感覚や行動の意味、予兆を見える化し、“判断”に導く

FRONTEOが提供している2つのAIエンジン

AIエンジン　その1文章の特徴を学んで、成分を抽出し、重要度を明らかにするKIBIT

AIエンジン　その2単語や文書の関係を「位置」で示し、自由に足し引きができるConcept Encoder

目次
・　なぜ「ブラックボックス」と言われるか？【前編】
・　FRONTEOのAIエンジンが「見える化」するアプローチ【前編】
・　「幸せ」のような曖昧な感覚をAIで見つけるには？
・　FRONTEOが見つけてきた「○○○○○○」

Concept Encoderは、分布仮説と共起情報を元にベクトル化する

FRONTEOがライフサイエンス領域向けに開発した、もう１つのAIエンジンConcept Encoderは、解析を行った文書や単語の関連性を平面に展開したり（図7）、球状で表現することで「見える化」を行います。

Concept Encoderの特徴は、言語解析を通じて、単語や文書を「ベクトル化」することです。

ベクトル化で位置や関係を示すことで、利用者に「見つけたいもの」にアプローチする感覚的な道筋を示すことができます。現在、診察や入院記録から病状の変化を見たり、大量の論文から新薬を開発したり、既存の薬の利用を広げる研究に使われています。

Concept Encoderのアプローチは、分布仮説（distributional hypothesis）という「単語の意味は、その単語が出現した際の周囲の単語によって決まる」という考えに基づき、文字のかたまりに過ぎない単語に類似性を見出し、分類や距離の判定を行います。同じ文脈で現れる単語は、意味が近い傾向や関連性、重要性が高いことが確認されています。

また、ある単語が文章に出てきた時、同時に別の単語が頻繁に現れることを「共起」と言います。

例えば、alcohol（アルコール）という単語を中心に置いて、1語や2語といった近くに現れる単語を論文から調べた場合、content（度数）やconsumption（消費）、drug、Tobaccoなどの「共起語」が分布しています（図8：オレンジ色囲み）。

さらに、alcoholと他の単語の出現頻度を共起行列で整理すると、alcoholは、ベクトル [122, 145, 18, 42, 31, 53, 23, ・・・・]で表すことができます（図9）。

Concept Encoderは、このようなに分布仮説と共起情報を使って、単語や文書の関係をベクトル化していきます。例えば、解析対象として、50万の論文で形態素（単語）が6万あった場合、6万×6万の共起行列を作ることで、単語同士のベクトルを作ることができます。また、文書の行列と単語の行列を掛けることで、文書同士や単語同士の類似度を見ることができ、どの単語と文書が関連しているかを知ることができます。

100次元から1000次元となる単語や文書のベクトルの計算には、通常、大規模な計算資源が必要となりますが、Concept Encoderは、ベクトル同士の内積の和を近似式（有効性を失わない範囲内で簡便化する方法）で求めるため、スーパーコンピュータなど大規模な設備を用いなくても解析が可能です。

Concept Encoderでベクトル化を行った結果は、数値化を行ってリストで表したり、位置情報として、座標やマップのような形で表すことができます（図10）。

このように調査の目的やプロセス、求める結果に応じた「見える化」が可能なため、調査する人は解析結果が示す情報を精査することにより、説明性、納得度を確認することができます。

「幸せ」のような曖昧な感覚をAI で見つけるには？

ここまで見てきたFRONTEO の言語解析のアプローチを使うことで、何ができ、どんなメリットがあるでしょうか？　そもそも人の脳の働きは、ディープラーニングと同様に「ブラックボックス」で、何故その判断をしたか分かりにくいことが沢山あります。しかし、FRONTEO の言語解析を使うことで、答えを見つける道筋をたどる方法があります。AI が苦手とされる抽象度が高く、曖昧なもの、例えば「幸せ」という問いで、そのプロセスを見てみましょう。

近年、家にある色々なモノを捨てることで幸せになれる、という話がいくつかありました。捨てるモノと捨てないモノ、この２つの違いによって、ある人の「幸せ」を見つけられないでしょうか？（図11）

「捨てる」「捨てない」から人の感覚に迫る、行動情報科学のアプローチです。

ある人が「幸せ」を感じたいと言っています。でも、どうすればいいか、分かりません。脳の働きは、自分も他人も直接見ることはできません。でも、その人が家の片付けで「捨てるモノ」「捨てないモノ」を区別する時、捨てないものは大切にしているもの、捨てるものはそうでないもの、と考えることができ、その人が「好むこと」のイメージが他の人でも分かるのではないでしょうか？

「捨てるモノ」「捨てないモノ」を説明する文章をそれぞれ用意します。ネット通販のレビューでも商品説明でも広告宣伝の言葉でも、文章であれば、何でも構いません。そして、そのテキストをKIBIT やConcept Encoder を使って解析することで、その人の好むことから“ 幸せ” の成分や関係が明らかになり、幸せを感じるものを見つけられます。