自然言語処理|AI・人工知能の用語

自然言語処理(natural language processing、略称:NLP)は、AI(人工知能)の主要な研究領域です。

単に「言語」ではなくて、わざわざ「自然言語」と名乗る理由は、情報工学(コンピューターサイエンス)の世界で「言語」というと「プログラミング言語」を想像するからです。

「自然言語」に日本語や英語などの多くの言語があるように、「プログラミング言語」にも多くの言語があります。(コンピューターの「0」「1」の世界に近い)低級言語と呼ばれるアセンブラから、(人間に理解しやすい)高級言語と呼ばれる C言語 や Pascal、そして、古典的なAI用の言語である LISP や Prolog、最近のAI開発に活用されることの多い Python、R言語 などです。

ちなみに、プログラミング言語のうちの高級言語と呼ばれるものは、低級言語よりも人間が理解しやすい言語体系になってはいますが、あくまでもプログラミング言語であって、コンピューターに理解できるルールを人間が守っているだけであり、人間がコンピューターに合わせているに過ぎません。

逆に、自然言語処理とは、人間が日常的に使う言葉をコンピューターに理解させることです。しかし、人間が操る自然言語には、コンピューターには理解するのが難しい「あいまいさ」があります。

主語や目的語などが省略されていたり、複数の意味を持つ単語が現れても、人間はその文脈によって容易に意味を理解できますが、コンピューターにとってはそんなに簡単なことではありません。


自然言語処理の最も身近な例として自動翻訳がありますが、その研究の進捗状況については、以下の記事が参考になります。

【NICT】AIに基づく自動翻訳技術の研究・開発( 2020年までと2021年以降)
 https://www.nict.go.jp/data/nict-news/NICT_NEWS_1703_J.pdf

【以下、抜粋】
AI 技術による自動翻訳技術は、ビッグデータが喧伝される以前の1990年代に、ビッグな「対訳データ」を活用する手法に大きくパラダイムをシフトしました。

1980年代までは、規則に基づく方式、意味を保存しつつ2言語間の語彙や構造の相違を変換する規則に基づく方式(以下、「規則翻訳」)でした。この方式は、規則間の相互作用の制御が困難になるという限界に阻まれ行き詰まりました。1988年に対訳データから帰納する方式が提案され、段階的に発展を遂げてきました。

基盤となる対訳データの蓄積が進み、翻訳精度も著しく向上してきました。ここ数年AI で多用される深い階層構造を持つニューラルネットワーク(Deep Neural Network: DNN)が単語を実数の高次元ベクトルとして表現する分散表現の復活を経て、自動翻訳にも応用され始めました。


コールセンターに関する用語集

コールセンターの構築・運営に関連する用語の説明をしています。