ライフヒストリー良知

ライフヒストリーブログ

AI(人工知能)-「音声認識(声を聞き取るしくみ)」

AI(人工知能)-「音声認識(声を聞き取るしくみ)」

口述自伝“ライフヒストリー良知”を完成させるために、AI(人工知能)を使った取り組みを行っています。その際の声を聞き取るしくみについて少しお話しします。AIが人と会話するためには、AIが人の声を聞き取り、何を言っているのか特定しないと始まりません。これが「音声認識」と呼ばれる技術です。

「音声認識」ではまず、マイクで拾った音が何であるのか、つまり「あ」なのか「い」なのかなどを特定する。声の高低や大小にかかわらず、私たちは「あ」と言われたら、それが「あ」だと聞き取れる。それは音質が違っても、「あ」に共通する音の特徴があり、それを脳が認識しているからだ。

AIによる音声認識では、「ディ―ププラニング(深層学習)」という手法で音の特徴を学習する。「ディ―プランニング」は人の神経細胞(ニューロン)のつながりを模倣した「ニューラルネットワーク」というシステムを使った学習方法。ニューラルネットワークにいろんな人が発音し、「あ」や「い」などの音を区別するための判断基準を、AIが独自に獲得する。人が判断基準を教えるわけではない。判断基準を自ら獲得したAIは、はじめて聞く「あ」の音を、「あ」だと判断できるようになる。

滑舌がわるかったり、周囲の雑音が入ったりして、間違った音に判定されることは少なくない。そこで音声認識では、「とりあえずこう聞こえた」という聞き取り結果の候補をいくつも出力する。

その後、文法と辞書の情報を参照して、各候補に点数をつけていく。例えば、聞き取りの結果、「ほいしいごはん」か「おいしいごはん」のどちらかだったりすると、後者の方が辞書にある「おいしい」という単語を含み、意味が通るから高得点になる。最も点数が高い、すなわち日本語として正しそうな候補が最終的に採用される。

AIは、私たちと同じように、途中で聞き取れない音があっても、文法や語彙の知識を使って補正していくのですね。