EU競争法の体系
2020年6月4日シリーズ 企業の内部不正におけるデジタルフォレンジック調査 / 外部委託先からの個人情報の漏えい編
2020年6月8日FRONTEOの2つのAIエンジンは、テキストデータから曖昧な感覚や行動の意味、予兆を見える化し、“判断”に導く
・ なぜ「ブラックボックス」と言われるか?【前編】
・ FRONTEOのAIエンジンが「見える化」するアプローチ【前編】
・ 「幸せ」のような曖昧な感覚をAIで見つけるには?
・ FRONTEOが見つけてきた「○○○○○○」
FRONTEOがライフサイエンス領域向けに開発した、もう1つのAIエンジンConcept Encoderは、解析を行った文書や単語の関連性を平面に展開したり(図7)、球状で表現することで「見える化」を行います。
Concept Encoderの特徴は、言語解析を通じて、単語や文書を「ベクトル化」することです。
ベクトル化で位置や関係を示すことで、利用者に「見つけたいもの」にアプローチする感覚的な道筋を示すことができます。現在、診察や入院記録から病状の変化を見たり、大量の論文から新薬を開発したり、既存の薬の利用を広げる研究に使われています。
Concept Encoderのアプローチは、分布仮説(distributional hypothesis)という「単語の意味は、その単語が出現した際の周囲の単語によって決まる」という考えに基づき、文字のかたまりに過ぎない単語に類似性を見出し、分類や距離の判定を行います。同じ文脈で現れる単語は、意味が近い傾向や関連性、重要性が高いことが確認されています。
また、ある単語が文章に出てきた時、同時に別の単語が頻繁に現れることを「共起」と言います。
例えば、alcohol(アルコール)という単語を中心に置いて、1語や2語といった近くに現れる単語を論文から調べた場合、content(度数)やconsumption(消費)、drug、Tobaccoなどの「共起語」が分布しています(図8:オレンジ色囲み)。
さらに、alcoholと他の単語の出現頻度を共起行列で整理すると、alcoholは、ベクトル [122, 145, 18, 42, 31, 53, 23, ・・・・]で表すことができます(図9)。
Concept Encoderは、このようなに分布仮説と共起情報を使って、単語や文書の関係をベクトル化していきます。例えば、解析対象として、50万の論文で形態素(単語)が6万あった場合、6万×6万の共起行列を作ることで、単語同士のベクトルを作ることができます。また、文書の行列と単語の行列を掛けることで、文書同士や単語同士の類似度を見ることができ、どの単語と文書が関連しているかを知ることができます。
100次元から1000次元となる単語や文書のベクトルの計算には、通常、大規模な計算資源が必要となりますが、Concept Encoderは、ベクトル同士の内積の和を近似式(有効性を失わない範囲内で簡便化する方法)で求めるため、スーパーコンピュータなど大規模な設備を用いなくても解析が可能です。
Concept Encoderでベクトル化を行った結果は、数値化を行ってリストで表したり、位置情報として、座標やマップのような形で表すことができます(図10)。
このように調査の目的やプロセス、求める結果に応じた「見える化」が可能なため、調査する人は解析結果が示す情報を精査することにより、説明性、納得度を確認することができます。
ここまで見てきたFRONTEO の言語解析のアプローチを使うことで、何ができ、どんなメリットがあるでしょうか? そもそも人の脳の働きは、ディープラーニングと同様に「ブラックボックス」で、何故その判断をしたか分かりにくいことが沢山あります。しかし、FRONTEO の言語解析を使うことで、答えを見つける道筋をたどる方法があります。AI が苦手とされる抽象度が高く、曖昧なもの、例えば「幸せ」という問いで、そのプロセスを見てみましょう。
近年、家にある色々なモノを捨てることで幸せになれる、という話がいくつかありました。捨てるモノと捨てないモノ、この2つの違いによって、ある人の「幸せ」を見つけられないでしょうか?(図11)
「捨てる」「捨てない」から人の感覚に迫る、行動情報科学のアプローチです。
ある人が「幸せ」を感じたいと言っています。でも、どうすればいいか、分かりません。脳の働きは、自分も他人も直接見ることはできません。でも、その人が家の片付けで「捨てるモノ」「捨てないモノ」を区別する時、捨てないものは大切にしているもの、捨てるものはそうでないもの、と考えることができ、その人が「好むこと」のイメージが他の人でも分かるのではないでしょうか?
「捨てるモノ」「捨てないモノ」を説明する文章をそれぞれ用意します。ネット通販のレビューでも商品説明でも広告宣伝の言葉でも、文章であれば、何でも構いません。そして、そのテキストをKIBIT やConcept Encoder を使って解析することで、その人の好むことから“ 幸せ” の成分や関係が明らかになり、幸せを感じるものを見つけられます。
KIBIT で解析を行った結果、スコアの高い、上位の文章に「生き物との触れ合いや柔らかさ」に関する文章が多く見られました。その人が好む「幸せを感じる」ものを抽出できた、と考えることができます。
さて、KIBIT での解析結果を見て、その人は「ペットを飼うのが良いのでは?」と判断しました。でも、何を飼うのが良いのか、見当がつきません。そこでConcept Encoder を使って、どんな生き物が良いか、を調べてみました。
ペットの資料やレビュー、体験記をインプットした上でベクトル化し、いくつかの条件や仮説を入れてみたところ、「ゴールデンレトリバー」が浮かび上がってきました。(図12)
「幸せ」を感じたいという曖昧な思いつきが、「犬を飼う」という判断にたどり着いたのです 。(※ 解析プロセスを説明するための架空の結果です)
先程の例では、ある人の「幸せ」という曖昧な事柄を、FRONTEO の2つのAI エンジンで解析した場合というケースを見てきました。
実際にFRONTEO は、2012 年からKIBIT を、2018 年からConcept Encoder を用いて、数値では表せない、「幸せ」よりももっと複雑かつ曖昧な事柄を数多く見つけてきました。
FRONTEO は、このように言語解析を通じて、数多くのリスクや問題から、答えやチャンスを見つけ出してきました。これからも「AI ×自然言語」によって、社会にある課題の解決を行っていきます。