ビジネス・アナリティクス - テキスト・アナリティクス


テキスト・アナリティクス


概要

テキストマイニングとは、文章データをさまざまな観点から分析し、役に立つ知識・情報を取り出そうという技術です。同じ目的をもつ研究にデータマイニングがありますが、データマイニングで扱うデータはデータベース・スキーマによってきれいに整理されている(定型データ)という前提がありました。それに対しテキストマイニングでは、形式化されていないテキスト (非定型データ) からのマイニング (知識・情報を見つけ出すこと) を目的としています。

一般にテキストマイニングというと文書の検索を目的にしたものが多く見られます。しかし、我々はある特定の情報を持つ文書の検索を行うのではなく、膨大な文書の中に記述されている 内容の傾向や相関関係などを分析することで、既存の知識ではない有用な知識・情報を得ることを目的としています。

本プロジェクトでは、コールセンターのログから営業戦略の立案などに有用な情報をマイニングするといったCRM向けのソリューションと、膨大な医療文献から新たな知見の発見を支援するライフサイエンス向けのソリューションを開発しています。

また、近年は、ブログなどに書かれたメッセージに含まれる口コミ情報も企業の活動にとっては重要な情報源となりつつあります。このようなタイプのテキストに書かれている評判情報を抽出し、マーケティングなどでの応用を目指した研究開発も行っています。


基盤技術


IBM TAKMI

TAKMIはテキストマイニングの研究開発プロジェクトで、1997年頃より継続的に活動しています。当初は、コールセンターのログからのお客様の声の分析技術を提供することから始めましたが、現在は、医療診断情報、交通事故情報、ブログなど様々なテキストデータからビジネスに有益な情報を抽出し分析することへと用途を拡大しています。 このTAKMIは、IBM Content Analytics として製品化されています。

UIMA

UIMA (Unstructured Information Management Architecture) は、構造化されていない文書を扱うための自然言語処理モジュールの共通プラットフォームとしてIBM Researchで開発されたもので、現在は音声や動画などの他のメディアも対象としています。その後オープンソースとして公開され、一般に活用可能となっています。

テキスト・ネットワーク解析技術

テキスト・ネットワーク解析技術 (Text and Network Analysis, TENA) は、SNS等のテキストが人と人とのネットワーク内に点在するような環境向けに、従来別々に行われていたテキスト分析とネットワーク分析を統合した分析を可能にするフレームワークです。


要素技術


アラーティング

アラーティングは、テキスト等の非定型データを含むデータを分析し、問題の早期発見の手掛かりとなる情報を抽出する技術です。

Top-K

テキストマイニングでは、ある検索条件にマッチした文書集合を求めるだけでなく、その文書集合中の高頻度語をK個 (Top-K) 取り出すというような操作を行います。この操作のための高速なインデキシング技術を開発しています。

関係抽出

テキスト中から複数のエンティティの間の (直接的/間接的) 関係 を抽出する技術です。

評価表現抽出

評価表現抽出は、ブログなどのテキスト中から好評・不評表現を取り出す技術です。さらに、分野特有の評価表現を自動的に獲得する技術の研究も行っています。

特長表現抽出

特長表現抽出は、技術的な文書から技術的向上を表すような表現を抽出し分析することを目指しています。


ビジネスへの応用


お客様の声の分析

コンタクトセンターに寄せられるお客様の声を分析するソリューションです。所謂「お客様の声」といわれる意味クラス (質問、要望、不満、など) の表現を抽出し、問題点などの分析をテキストマイニング技術で支援することを狙っています。

不具合の早期発見

コンタクトセンターなどのテキストデータから、製品やサービスなどの不具合と思われることを早期に発見することを目指したソリューションで、アラート機能などを活用します。

営業効率向上

営業日報などから営業活動の効率化につなげる情報を抽出することを目指したソリューションです。

口コミの活用

Web上のブログやSNSには様々な口コミ情報があふれており、こうしたユーザーの声は企業にとって貴重な情報となっています。大量の情報に評判分析等の技術を適用し、企業のマーケティング等で活用することを目指しています。

技術文書分析

特許などの技術文書から、技術エリアを俯瞰したり、将来の技術の進歩などを予測するなどの活動を支援する情報抽出の研究をしています。

ディスカッション分析

オンラインディスカッションを効率良く行うため、重要発言の同定やスレッドの可視化などを備えたツールを研究開発しています。

ライフサイエンス

生命科学関連の論文などから創薬などに有効な知見を得ることを支援するツールの研究開発を行っています。