用語集
2020年3月5日テキストデータを知見に変える
2020年4月1日「第3次人工知能(AI)ブーム」という言葉が、メディアに取り上げられるようになってから、かれこれ5年ほどになります。AIを使っているというサービスは世の中に沢山あり、連日ニュースになっていますが、まだ人工知能がどのように使われているか、自分達がどう使ったらいいかよく分からない、という人もいるでしょう。また、会社で「人工知能を使って何かやれ」と言われたが、行き詰まってしまった、という話も多く聞かれています。
FRONTEOは、国際訴訟支援や不正調査からスタートし、自然言語処理を行う独自の人工知能エンジン「KIBIT(キビット)」を2012年に開発し、7年近い自社での活用と4年以上の外部へのAIソリューションの提供を行っています。ここでは、人工知能活用の出発点から、身近な「テキストデータ」を解析するプロセスを知って頂き、知識から実践に進むきっかけを掴んでもらえればと思います。
人工知能の活用には、まず「データ」
人工知能の強みをあげるとすると、「処理の早さ」があげられます。第3次人工知能ブームが起こったのは、「ビッグデータ」と「コンピューティングパワー」の発達のおかげと言われていますが、現代はまさに「データの世紀」。昔の大型コンピュータ並みの処理能力を持ったスマートフォンを1人1人が持ち、そのデータがクラウド上の大規模なシステムに集められることで、一昔前には考えられなかった解析ができるようになっています。(但し、データが多ければ良い訳ではありません。後ほど説明します。)このようなデータが無ければ、人工知能を動かす意味も、強みである「処理の早さ」を発揮することもありません。また人間が目で見て、パッと判断ができるぐらいの内容や少ない量であれば、人工知能を使う必要はありません。「簡単に人が見られない大量のデータ」をどう扱うかが人工知能の活用の始まりです。
図1. 人工知能が扱うデータ
人工知能が扱うデータには色々なものがあります〈図1〉。ここではテキストデータに着目してみましょう。あなたが「スマホからクラウド上に集められたビッグデータ」を持っていなくても、普段仕事する中で使っている、身近なものも人工知能に与えるデータになります。FRONTEOは、2016年度から2018年度の人工知能による国内言語解析市場でシェア1位を達成※1していますが、この「言語解析」で扱っているデータとは主にテキストデータで、その多くが身近なものです。会社で日々やりとりしているメールや毎日書いている文書、電話での会話をテキストに変換したもの、面接の記録、ネットサービスへの書き込みなど、様々なテキストデータ〈図2〉が存在し、FRONTEOが独自に開発した人工知能「KIBIT」が解析を行っています。近年、「デジタルトランスフォーメーション(DX)」が広く唱えられるようになっていますが、これはまさに日々接している身近な行動や取組みをデジタル化し、ICT、IoT、AIの力を使って、生活や産業、社会の構造や仕組みを変えていこうとする動きです。
図2. 様々なテキストデータ
人工知能を使う目的、目指す「成果」は?
次に重要なのは、人工知能を活用する目的、どんな成果(アウトカム)が欲しいか、です。データを集めても、何のために、どう使うのか決まっていなければ、人工知能は活用できません。“人工知能を使うことが目的”となっている場合や、“PoC(概念検証)で傾向を出すことはできたけれど、その次にどうしたらいいかわからない”ケースの多くは、目指す「成果」の設定が曖昧なことが多く見られます。FRONTEOの人工知能KIBITが日々行っている言語解析では、〈図3〉のような成果を得ることを目的に、現在、累計で200社以上の企業に活用されています。
図3. 多岐にわたる「成果」
「データ」と目指す「成果」が固まったら、次は、最適な機械学習の手法を選択します〈図4〉。第3次人工知能ブームは「ディープラーニング」がもたらしたと言われています。「ビッグデータ」と「コンピューティングパワー」の発達がディープラーニングの特性とマッチし、従来無かったブレークスルーをもたらしました。一方で、ディープラーニングは万能ではなく、データの種類や目指す成果によって得意・不得意がある、とも言われています。機械学習手法の選択には、その他にも導入・稼働までに必要な時間、ランニングコスト、学習プロセス、精度を出すためのチューニング、様々な要素をトータルに考えて、運用・実装までを見据えた設計を行う必要があります。FRONTEOが自社開発した人工知能エンジン「KIBIT」は、独自のアルゴリズムを用いています。テキストデータに特化し、少量の教師データで解析を行うことができ、導入までの時間が短い、大規模な計算リソースが不要で、処理が軽いことが特徴です。
図4. 最適な機械学習の選択が活用のポイント
このような準備や選択を行って、人工知能を導入したら、具体的にはどんな成果が得られるだろう?と考えられると思います。FRONTEOは、2014年より企業に人工知能KIBITによるAIソリューションを提供しており、目的や目指す成果に応じて、〈図5〉のような結果が出ています。
ここまで説明を行った要素とFRONTEOが提供している人工知能活用の領域は、〈図6〉のとおりです。
図5. KIBITを活用したAIソリューションの成果
図6. FRONTEOが提供する人工知能活用領域
「自然言語処理」は、人間が普段使っている言語をコンピュータで処理する技術です。FRONTEOは、自由に記述された自然言語を、文章の構造に基づいて分析する技術の開発を進めています。社会に存在する、価値のある多様な文章に対応可能な自然言語処理関連技術を有しています。
KIBITは、FRONTEOが独自開発した日本発の人工知能エンジンです。人間の心の機微」(KIBI)と情報量の最小単位である「ビット」(BIT)を組み合わせ、「人間の機微を学習できる人工知能」を意味しています。学習・評価を担う人工知能関連技術とデータ分析の現場を通じて、集積・体系化された行動情報科学を組みあわせ、人に代わって判断や情報の選び方を再現することができます。