トピック解説/コラム

“万物は言(logos)によって成る” ― 言葉の重要性に着目したAI解析【後編】

FRONTEOの2つのAIエンジンは、テキストデータから曖昧な感覚や行動の意味、予兆を見える化し、“判断”に導く

FRONTEOが提供している2つのAIエンジン
AIエンジン その1文章の特徴を学んで、成分を抽出し、重要度を明らかにするKIBIT
AIエンジン その2単語や文書の関係を「位置」で示し、自由に足し引きができるConcept Encoder

 

目次
・ なぜ「ブラックボックス」と言われるか?【前編
・ FRONTEOのAIエンジンが「見える化」するアプローチ【前編
・ 「幸せ」のような曖昧な感覚をAIで見つけるには?
・ FRONTEOが見つけてきた「○○○○○○」

 

Concept Encoderは、分布仮説と共起情報を元にベクトル化する

FRONTEOがライフサイエンス領域向けに開発した、もう1つのAIエンジンConcept Encoderは、解析を行った文書や単語の関連性を平面に展開したり(図7)、球状で表現することで「見える化」を行います。

Concept Encoderの特徴は、言語解析を通じて、単語や文書を「ベクトル化」することです。

ベクトル化で位置や関係を示すことで、利用者に「見つけたいもの」にアプローチする感覚的な道筋を示すことができます。現在、診察や入院記録から病状の変化を見たり、大量の論文から新薬を開発したり、既存の薬の利用を広げる研究に使われています。

Concept Encoderのアプローチは、分布仮説(distributional hypothesis)という「単語の意味は、その単語が出現した際の周囲の単語によって決まる」という考えに基づき、文字のかたまりに過ぎない単語に類似性を見出し、分類や距離の判定を行います。同じ文脈で現れる単語は、意味が近い傾向や関連性、重要性が高いことが確認されています

また、ある単語が文章に出てきた時、同時に別の単語が頻繁に現れることを「共起」と言います。

例えば、alcohol(アルコール)という単語を中心に置いて、1語や2語といった近くに現れる単語を論文から調べた場合、content(度数)やconsumption(消費)、drug、Tobaccoなどの「共起語」が分布しています(図8:オレンジ色囲み)。

さらに、alcoholと他の単語の出現頻度を共起行列で整理すると、alcoholは、ベクトル [122, 145, 18, 42, 31, 53, 23, ・・・・]で表すことができます(図9)。

 

Concept Encoderは、このようなに分布仮説と共起情報を使って、単語や文書の関係をベクトル化していきます。例えば、解析対象として、50万の論文で形態素(単語)が6万あった場合、6万×6万の共起行列を作ることで、単語同士のベクトルを作ることができます。また、文書の行列と単語の行列を掛けることで、文書同士や単語同士の類似度を見ることができ、どの単語と文書が関連しているかを知ることができます

100次元から1000次元となる単語や文書のベクトルの計算には、通常、大規模な計算資源が必要となりますが、Concept Encoderは、ベクトル同士の内積の和を近似式(有効性を失わない範囲内で簡便化する方法)で求めるため、スーパーコンピュータなど大規模な設備を用いなくても解析が可能です。

Concept Encoderでベクトル化を行った結果は、数値化を行ってリストで表したり、位置情報として、座標やマップのような形で表すことができます(図10)。

このように調査の目的やプロセス、求める結果に応じた「見える化」が可能なため、調査する人は解析結果が示す情報を精査することにより、説明性、納得度を確認することができます。

 

「幸せ」 のような曖昧な感覚をAI で見つけるには?

ここまで見てきたFRONTEO の言語解析のアプローチを使うことで、何ができ、どんなメリットがあるでしょうか? そもそも人の脳の働きは、ディープラーニングと同様に「ブラックボックス」で、何故その判断をしたか分かりにくいことが沢山あります。しかし、FRONTEO の言語解析を使うことで、答えを見つける道筋をたどる方法があります。AI が苦手とされる抽象度が高く、曖昧なもの、例えば「幸せ」という問いで、そのプロセスを見てみましょう。

近年、家にある色々なモノを捨てることで幸せになれる、という話がいくつかありました。捨てるモノと捨てないモノ、この2つの違いによって、ある人の「幸せ」を見つけられないでしょうか?(図11)

「捨てる」「捨てない」から人の感覚に迫る、行動情報科学のアプローチです。

ある人が「幸せ」を感じたいと言っています。でも、どうすればいいか、分かりません。脳の働きは、自分も他人も直接見ることはできません。でも、その人が家の片付けで「捨てるモノ」「捨てないモノ」を区別する時、捨てないものは大切にしているもの、捨てるものはそうでないもの、と考えることができ、その人が「好むこと」のイメージが他の人でも分かるのではないでしょうか?

「捨てるモノ」「捨てないモノ」を説明する文章をそれぞれ用意します。ネット通販のレビューでも商品説明でも広告宣伝の言葉でも、文章であれば、何でも構いません。そして、そのテキストをKIBIT やConcept Encoder を使って解析することで、その人の好むことから“ 幸せ” の成分や関係が明らかになり、幸せを感じるものを見つけられます。

KIBIT で解析を行った結果、スコアの高い、上位の文章に「生き物との触れ合いや柔らかさ」に関する文章が多く見られました。その人が好む「幸せを感じる」ものを抽出できた、と考えることができます。

さて、KIBIT での解析結果を見て、その人は「ペットを飼うのが良いのでは?」と判断しました。でも、何を飼うのが良いのか、見当がつきません。そこでConcept Encoder を使って、どんな生き物が良いか、を調べてみました。

ペットの資料やレビュー、体験記をインプットした上でベクトル化し、いくつかの条件や仮説を入れてみたところ、「ゴールデンレトリバー」が浮かび上がってきました。(図12)

「幸せ」を感じたいという曖昧な思いつきが、「犬を飼う」という判断にたどり着いたのです 。(※ 解析プロセスを説明するための架空の結果です)

 

 

FRONTEO が見つけてきた「○○○○○○ 」

先程の例では、ある人の「幸せ」という曖昧な事柄を、FRONTEO の2つのAI エンジンで解析した場合というケースを見てきました。

実際にFRONTEO は、2012 年からKIBIT を、2018 年からConcept Encoder を用いて、数値では表せない、「幸せ」よりももっと複雑かつ曖昧な事柄を数多く見つけてきました。

FRONTEO が見つけてきた実績は、下記のように業種・業界を超え、多岐にわたっています。

FRONTEO は、このように言語解析を通じて、数多くのリスクや問題から、答えやチャンスを見つけ出してきました。これからも「AI ×自然言語」によって、社会にある課題の解決を行っていきます。

 

 

Tags
Show More
Back to top button