アクセシビリティ - スピーチテクノロジー


スピーチテクノロジー

 

概要

音声認識は人間の声をコンピュータで解析し,発話内容を文字に置き換える技術です.IBM Research-Tokyoでは1997年に,他社に先駆けて日本語大語彙連続音声認識ソフトウェア (IBM ViaVoice) を実用化しました.当時は雑音の少ない環境で明瞭に読み上げられた音声が認識の対象でしたが,その後の研究の積み重ねによって要素技術が成熟し,現在では人と人との会話のような自然な発声も認識の対象となってきています.研究の成果はコールセンター業務への適用,スマートフォン向け音声認識,カーナビへのコマンド入力などさまざまな領域で実用化されています.IBM Research-Tokyoでは,音声の認識・合成・分析を中心とした音声技術についてあらゆるビジネスシーンでの実用化を目指し,日々基礎研究を行っています.

IBM Corporationは2011年に創立100年を迎え,これまでに数多くのテクノロジーを世の中に送り出してきました.IBMのこれまでの歩みはIBM 創立100周年記念サイト (*1) でご覧になれます.音声技術についても,研究がスタートした初期の段階 (1960年代) からすでにリーディングカンパニーとして業界を牽引し,常に世界最先端の研究を行っています(同サイトに紹介記事があります).また,IBMでは毎年,今後5年間で人々の生活を一変させる5つのイノベーション「IBM 5 in 5」(*2) を発表していますが,2012年版では音声技術が取り上げられ,世界を変えるホットトピックの一つとして位置づけられています.ここでは,長い歴史を持ち,近年注目を集めている音声技術についてのIBM Research-Tokyoの取り組みを簡単に紹介します.

(*1) IBM 100年の軌跡 - 音声認識技術の開拓 (英語)
(*2) IBM 5 in 5 (英語)

 


音声ソリューション

音声が発話・蓄積されるところでは,さまざまな音声技術の適用可能性がありますが,特に近年ではコールセンターにおける音声技術のビジネスニーズが大きくなってきています.従来,コールセンターでは日々蓄積される対話音声を単に保存しておくだけということが多かったのですが,最近ではこの対話音声データをビジネスに活用したいというニーズの拡大に伴って,顧客との対話をスムースに進めるためのエージェントサポート技術や,蓄積された音声データの中からビジネスに役立つ知見を抽出・問題を発見するための技術,などが必要とされています.しかし,コールセンターの音声データはクリーンな音声ばかりではなく,発音が不明瞭な音声,背景雑音の大きな音声,複数話者の同時発話による発話衝突音声,また送受信に伴うデータの圧縮・伸張により大きく歪んだ音声なども多く含まれます.また会話の内容も多岐にわたり,雑多なものが多いのが特徴です.これらの音声を高精度に認識・分析するためにはさまざまな技術的課題がありますが,逆に言えば新たな研究テーマを発見できるチャンスでもあり,研究成果をタイムリーにお客様にお届けできる機会でもあります.IBM Research–TokyoではWorldwideの音声技術研究者はもちろんのこと,他の分野の研究者や事業部と連携し,世界の技術を日本のお客様に,またIBM Research - Tokyoの技術を世界のお客様に届けるべく,日々研究に取り組んでいます.

 


 

音響変動に頑健な音声認識

ディクテーションと呼ばれる口述筆記の技術は,1997年に他社に先駆けてIBM ViaVoiceという形で商用化されました.ViaVoiceはワープロ文書や電子メールの作成を主としており,雑音が少ない環境で明瞭に発話された音声であれば高精度に認識することができます.しかしながら,音声認識という領域にはいまだ多くの課題が存在します.たとえばマイクと口の距離が遠く離れている場合,雑音や反射音の影響によっていろいろな弊害が出てしまいます.自動車の走行音や音楽,子供の声,駅のアナウンスなど世の中にはいろいろな音があふれていますが,これらの音は全て音声認識にとっては雑音源であるといえます.人間はこれらの妨害音が少々あっても何の支障もなく対象となる音声を聞き取ることができるのですが,音声認識では大きな影響が出てしまいます.したがって,これらの妨害音に対して頑強な音声認識を実現し,人間の耳の能力に近づけることが大きな目標の一つです.それを実現すべく,IBM Research-Tokyoでは音響面からの研究に統合的に取り組んでいます.例えば,音声信号処理による雑音除去,人間の聴覚特性を利用した特徴抽出,識別的基準を用いた音響モデリング技術,話者・環境適応技術などが代表例として挙げられます.関連技術は機械学習や近年注目されているディープラーニングを中心としたニューラルネットワークなど多岐にわたります.また,複数のマイクを利用したアレイ信号処理や独立成分分析といった研究にも積極的に取り組んでおり,車載音声認識,ロボットなどに応用しています.

 


自由発話大語彙連続音声認識

ビジネスシーンではコールセンターのように日々蓄積されていく会話音声を文字に変換し,あとでマイニングやモニタリング用途で活用したいという要望があります.利用環境を限定した状況ではすでに実用化が始まっていますが,より高度な応用を考えた場合,人間の耳やあるいはそれ以上に高精度な音声認識を実現する必要があります.特に電話で行われる会話や会議での発言などには多くの重要な情報が含まれますが,会話音声は発声があいまいなことが多く,音声スペクトルが不明瞭であったりします.また言語的な観点から見てみると,専門的な単語が使われていたり,フィラー (「えーと」,「あのー」など) の挿入が多かったり,あるいは文法を逸脱した発話になっていたりと,会話音声の認識はニュースのような読み上げられた音声と比べて非常に難易度が高いのです.自然言語を相手にする場合には,音響的なアプローチに加えて,言語的な観点からの技術の進展が不可欠です.IBM Research-Tokyoでは,統計的言語モデルを軸として要素技術,ならびにコーパス整形,固有名詞の抽出など,さまざまな観点からの研究に取り組んでいます.

 


音声分析技術

音声信号を音響・言語的に分析することで,単なるテキスト情報からだけでは得られない感情などに付随する情報が得られる可能性があります.例えば,対話音声の「やりとり」や,音声のテキスト化という側面からはあまり重要視されてこなかったフィラーやため息,笑い声などを分析することにより,適切な発話タイミングの推定や好ましい応答の生成を行うことができます.IBM Research–Tokyoでは,音声信号のみから発話者のストレスや感情を検出するための基礎的な研究を行うとともに,ビジネス的な側面からは,コールセンターでの対話音声を対象として,

  • 発話内容を時刻情報とともに正確に文字化する技術
  • 録音データに含まれる話者の発話や音楽/雑音などを分類して検出し,さらに複数話者の音声を個別の話者音声に分離する技術
  • 発話に含まれる快・不快などの感情を言語的および音響的に検出する技術
  • 長時間対話の主導権の遷移を概観するための技術

などの研究・開発に取り組んでいます.