テキストマイニング|AI・人工知能の用語

そもそも、マイン(mine)は鉱山のことで、マイニング(mining)は「採掘」のことです。その「採掘」とは、地中の鉱物(金・銀・銅など)や石炭・石油を掘って手に入れることです。

データマイニングは、データの山から「有益な情報」を採掘することです。また、テキストマイニングは、データマイニングの1つであり、採掘の対象となる山(データ)が文字列(テキスト)で構成されている場合を言います。


● データマイニングとは

データマイニングとは、データベースやデータウェアハウスと呼ばれる大量のデータからAI(人工知能)などの技法を用いて有益な情報を見つけ出すことです。通常では思いつかないデータ同志の相関などを見つけ出すことでビジネスに役立てることができます。

一時期、「缶ビール」と「おむつ」をあわせてスーパーで買う男性が多いことが発見され話題となりましたが、これは通常の発想では思いつかない、データマイニングならではの事例だと言えます。

このデータマイニングも、コンピューターの処理能力の向上や記憶媒体の大容量化・低価格化のおかげで、より大量のデータを対象としたものに進化しています。2010年代半ば頃からは、膨大なデータ(ビッグデータ)を利用したデータマイニングは「データサイエンス」とも呼ばれています。


● テキストマイニングとは

テキストマイニングは、データマイニングの1つで、文字列(文章・テキスト)を対象としたデータマイニングのことです。

テキストデータの多くは自然言語であり、かつ、日本語は英語に比べてあいまいさが多い言語です。そのため、以前はテキストマイニング・ソフトと謳いながらも特定単語の出現回数をカウントする程度のものが多く、日本語でのテキストマイニングの実用化のハードルは高かったのですが、自然言語処理の発展に伴い徐々に実用的になってきました。

SNSやネット掲示板などのインターネット上に溢れるテキストデータだけではなく、コールセンターのお客様と電話オペレータとの通話記録(音声データ)も、音声認識技術の向上によりテキスト化して分析できるようになりました。

データマイニングのうちで、購買履歴などの数値データは「定量的に」消費者の行動を把握することに役立ちますが、テキストマイニングは「定性的な」消費者の自社に対する評価や感情などを理解することに役立ちます。


コールセンターに関する用語集

コールセンターの構築・運営に関連する用語の説明をしています。