ライフヒストリー良知

良知の知識と智慧

人工知能(AI / 智慧

AI(人工知能)-「音声認識(声を聞き取るしくみ)」

口述自伝“ライフヒストリー良知”を完成させるために、AI(人工知能)を使った取り組みを行っています。その際、声を聞き取るしくみについて少しお話しします。AIが人と会話するためには、AIが人の声を聞き取り、何を言っているのか特定しないと始まりません。これが「音声認識」と呼ばれる技術です。

「音声認識」ではまず、マイクで拾った音が何であるのか、つまり「あ」なのか「い」なのかなどを特定する。声の高低や大小にかかわらず、私たちは「あ」と言われたら、それが「あ」だと聞き取れる。それは音質が違っても、「あ」に共通する音の特徴があり、それを脳が認識しているからだ。

AIによる音声認識では、「ディ―ププラニング(深層学習)」という手法で音の特徴を学習する。「ディ―プランニング」は人の神経細胞(ニューロン)のつながりを模倣した「ニューラルネットワーク」というシステムを使った学習方法。ニューラルネットワークにいろんな人が発音し、「あ」や「い」などの音を区別するための判断基準を、AIが独自に獲得する。人が判断基準を教えるわけではない。判断基準を自ら獲得したAIは、はじめて聞く「あ」の音を、「あ」だと判断できるようになる。

滑舌がわるかったり、周囲の雑音が入ったりして、間違った音に判定されることは少なくない。そこで音声認識では、「とりあえずこう聞こえた」という聞き取り結果の候補をいくつも出力する。

その後、文法と辞書の情報を参照して、各候補に点数をつけていく。例えば、聞き取りの結果、「ほいしいごはん」か「おいしいごはん」のどちらかだったりすると、後者の方が辞書にある「おいしい」という単語を含み、意味が通るから高得点になる。最も点数が高い、すなわち日本語として正しそうな候補が最終的に採用される。

AIは、私たちと同じように、途中で聞き取れない音があっても、文法や語彙の知識を使って補正していくのですね。

声を聞き取るAIのしくみ〈Newton:ゼロからわかる人工知能(仕事編)〉

マイクで拾われた声が音声認識AIによって、日本語に変換されるまでの流れを示した。(取材協力:NTTメディアインテリジェンス研究所)
音を高低(周波数)ごとの成分に分解してから(1)、ニューラルネットワークを使って音を特定する(2)。聞き取り結果を文法や辞書のデータを使って検索し、最も日本語として正しそうなものを最終的な聞き取り結果として採用する(3)。

(1)音声周波数を分析
人が話した音声をマイクで拾ったら、音を特定しやすくするために、どんな高さ(周波数)の音がどれだけ含まれているかを分析する。雑音を抑制するなどの処理もこの段階で行う。
(2)音を特定
事前の学習結果をもとに、何の音である確率が高いかを判定する。もし「え」と「へ」の間のような音であれば、「え50%、へ50%」といった結果を出力する。説明を簡単にするために下のイラストでは50音(あいうえお・・・)で出力されるように書いているが、実際は母音(a/i/u/e/o)と子音(k/s/t/n/・・・)に分けて判定する。

***

うえののしはつ
  ↓

(3)聞き取り結果の日本語的な正しさを検証
聞き取り結果の候補について、どれが日本語として最も確からしいかを検証する。辞書と照らし合わせることで、かなの並びが単語に区切られて、最終的に漢字に変換され日本語らしい文となる。音声が間違って聞き取られていても、この段階で正しく補正されることもある。

うえ ののし はつ
ふえ の のし はつ
うえ のの しわ つ
うえ の のしはつ
うえの の しはつ
くえの のし はつ
ふえ ののし は つ

  ↓
上野の始発