テキストデータを知見に変える

2020年04月01日配信

テキストデータを知見に変える

KIBITなら少量の教師データで学習可能

人工知能には数千～数万件のデータが必要と思われがちですが、KIBITなら数十件のデータでも始められます。

KIBITの解析プロセスからテキストデータの活用を考える

FRONTEOの人工知能KIBITを使った場合、解析にどのような特徴があるか、その仕組みやプロセスを見ながら、人工知能活用の方向性を考えてみましょう。

文書の山から「少なく、軽く、精度高く」情報を発見

FRONTEOの人工知能エンジンKIBITは、機械学習の一種である独自開発したアルゴリズムでテキストの解析を行っています。KIBITの開発時に目指したのは「少なく、軽く、精度高く」です。「少なく」は学習するデータの量です。いくら優秀でも、データの収集や学習に1年もかかっていたら、実践的、実用的な人工知能とは言えません。また、解析に高性能のプロセッサが必要で、利用コストが大きくなったり、環境の構築に手間がかかってしまうと、これもまた実践的、実用的とは言えません。

「見つけるべきか否か」の学習が速さと精度を出す

次に「精度」を出すためには、人工知能にデータを与え、学習させることが必要です。KIBITでは解析の初期の段階、学習フェーズにおいて、価値を持っていると思う情報は「見つけたい」、持っていない情報は「見つけなくてよい」と振り分けて学習させます。この振り分けがKIBITの特徴である、少ない学習で速さと精度を出すのです。注意するのは「キーワードを選ぶ」のではなく、文書ごと、例えばA4の紙1枚やメール1通の単位で振り分けを行う点です。なぜなら、KIBITは単語だけでなく、文章で使われている文字の構成、つまり文脈全体を見ているからです。

意味ではなく、語句や言葉の連なりから、類似性を見つけ出す

では、実際にKIBITが解析を行うプロセスを見てみましょう。以下は、企業の不正行為を発見する調査で、企業同士が「談合」しようとする証拠を探す時の例です〈図1〉。談合の前には、しばしば「密談」が行われます。その密談の予兆を見つけるには、以下のようなメールの文章を「見つけたい」か「見つけなくてよい」に振り分けて、KIBITに教えます。赤い縦の線は、文章を最小単位で区切る「形態素解析」という、自然言語処理を行う際に行われる、最初のプロセスです。この「見つけたい」と「見つけなくてよい」を比べると、一見、両方のメール文に大きな違いは無さそうですが、KIBITは瞬時に違いを見つけます。例えば、「居酒屋」や「飲み」は両方の文章にありますが、「個室」や「前回から」、「時間も経って」は、前者にしかありません。KIBITは「見つけたい」にある言葉や文章を重視して高い点数をつけ、「見つけなくてよい」にある言葉や両方にあるものには低い点数をつけます。独自開発のアルゴリズムの計算式に基づいた点数の高低による重みの例は、下記のようになります〈図2〉。

図1. 談合の証拠を探すときのメール例

図2. 個室、飲み、居酒屋で比較した重みの違いと計算式（一部）

KIBITは、文章の中にある「見つけたい」「見つけなくてよい」の多次元の組み合わせを学習した後、与えられた大量のデータを判別する解析を行います〈図3〉。例えば、A4サイズの紙を1万枚積み上げると、約1メートルの高さになります。これを人の目で1枚ずつ探していくと膨大な時間がかかり、また、大勢の人で手分けすると漏れや間違いが起こるでしょう。KIBITに「見つけたい」「見つけなくてよい」文書データを学習させてテキストデータ解析を行った場合、1万枚の解析が約3分半で完了します。解析結果は「見つけたい」と学習した文章に似ている順番にスコアをつけて並べ替えられ、これまでバラバラだった大量の文書が「見つけたい」優先度の高い順に並べ替えられるようになります。

図3. KIBITの解析の流れ

「見つけたい」教師データは、人の経験や感覚、または過去に起こった事実

解析の精度を出す際に最も重要なのは、「見つけたい」とKIBITに学習させる教師データです。KIBITの活用例では、様々な分野の専門家や経験者が「このメールがあやしい」、「こういう回答はセールスのチャンス」などの経験や感覚、いわゆる暗黙知を元にメールや日報、お客様の声などの文書を選ぶだけで、「見つけたい」教師データとなります。また、専門家のような知見がなくても、過去に「見つけたい」事実が起きた時の文書があれば、それも立派な教師データです。この場合もキーワードではなく、文書をまるごと教えることで、KIBITが言葉の連なりを分析し、特徴を捉えてくれます。そして、人が気づかなかった「見つけたい」事柄をKIBITが浮かび上がらせることができます。人工知能の学習は、目的や観点が明確な方が効果的です。与える教師データは「多ければ多いほど精度が高くなる」と思う人もいると思いますが、実は、データの量が多すぎたり、余計な情報が入っていると、却って精度は下がってしまいます。「見つけたい」観点に基づいた記録や過去に起こった事実に絞って学習させることが、精度を高めるポイントとなります。

このような仕組みを使ったKIBITの活用例を〈図4〉にまとめました。

営業
販売

・受注機会／失注リスクの抽出
・コンプライアンス違反チェック

人事

・人材流出／ハラスメント防止
・HRTech（評価、配置、採用など）

マーケティング

・お客様の声の分析／活用

・市場・競合調査・技術調査の効率化

カスタマーサポート

・隠れたクレームの発見
・成約の可能性が高いアウトバウンドコールの抽出

製造
開発／知財

・市場・競合調査・技術調査の効率化
・論文検索
・技術開発Q&Aサポート
・特許調査・分析・知財戦略

法務
コンプライアンス

・情報漏えいの予防と対策
・カルテル・独占禁止法対策
・不正会計・贈収賄・FCPA対策
・景表法への抵触チェック

図4. KIBITの活用領域

人間では難しい、網羅的なデータのチェックと、言葉の意味と行動のギャップを埋める

社内に、「人の目や耳で大量の記録をチェック」している業務はありませんか？ KIBIT を用いることで、これまで一部しかチェックできなかった記録を網羅的にみることができます。また、人間は同じこと伝える場合でも、その言葉の使い方や表現は様々で、「キーワード」をいくつか入れるだけでは「見つけたいもの」を抽出できないことがあります。

一見、何の変哲もない言葉の連なりでも、KIBITに、観点や事実を教師データとして与えることで、人の行動を発見するセンサーとして使うことができます。例えば、離職を悩んでいる人に上司が「大丈夫ですか？」と尋ねても、多くの人はすぐに「辞めたい」とは言わず、「大丈夫です」と答えるでしょう。KIBITなら、過去に離職してしまった人の面接時の記録から特徴を掴み、言葉の意味とは異なる人の行動を見つけ出すことができます。このようにKIBITは、大量のデータ解析と見つけ出す精度の「量と質」の両方を提供することができます。

人工知能を活用するイメージが少し湧いてきたでしょうか？身近にあるテキストデータだからこそ、すぐに手をつけられる人工知能「KIBIT」。さらに解析の言語は、日本語だけでなく、英語、中国語、韓国語にも対応し、ビジネスソリューションでの活用は国内だけでなく、海外にも広がっています。あなたの持っているテキストデータと「見つけたい」観点をKIBITに入れてみてください。