ライフヒストリー良知

4-5 AI(人工知能)音声認証

ライフヒストリー良知は、語り手であるみなさまと直接面談し、私たちライフヒストリアンがみなさまのライフヒストリーを様々な視点からお聴きし、書き留め、ホームページ上にアップしたり、書籍や電子ブックなどを制作して、完成させていきます。

従って、直接的なインタビューがこの事業のもっとも重要な行いのひとつになります。しかしながら、ホームページに掲載されたみなさまのライフヒストリーに記憶の間違いが生じていたり、後に思い出した事柄が出てくるなど、書き綴った内容を変更したり追加する場合が決して少なくありません。その時でも、原則的としてみなさんとお会いして詳しくお話を聴かなければなりません。

①声を聴き取るAIの仕組み
マイクからレコーダに録音された音が何であかる、「あ」なのか「い」なのかなどを特定します。声の高低や大小にかかわらず、私たちは「あ」と言われたら、それが「あ」だと聞き取れます。それは音質が違っても、「あ」に共通する音の特徴があり、それを脳が認識しているからです。AIによる音声認識ではディープラーニング(深層学習)という手法で音の特徴を学習します。

②音の特徴をコンピューターが独自に学習
ディ―プラーニングは、人の脳の神経細胞(ニューロン)のつながりを模倣したニューラルネットワークというシステムを活用した学習方法です。ニューラルネットワークにいろいろな人が発音した「あ」や「い」などの音を入力し音の特徴を学習させます。こうして、それぞれの音を区別するための判断基準をAIが独自に獲得するのです。そのことでAIは、はじめて聞く「あ」の音を「あ」だと判断できるようになります。

③口述自伝を制作する際、語り手の活舌が悪かったり、言い回しが複雑だったり、また周囲の雑音が入ったりして、間違った音に判定されることが少なくありません。音声認証では、「とりあえずこうこのように聞こえた」という聴き取りの結果の候補をいくつも出力します。その後、文法や辞書の情報を参照して各候補に点数をつけていきます。

例えば、聴き取りの結果、「ほいしごはん」か「おいしいごはん」のどちらかだとします。後者のほうが辞書にある「おいしい」という単語を含み意味が通りますから高得点になります。もっとも点数が高い、すなわち日本語として正しそうな候補が最終的に採用されます。AIは私たちと同じように、途中で聞き取れない音があっても、文法や語彙の知識を使って補正していくのです。

しかし、このようにAIによって作成された文章であっても、最終的には私たちの手で語り手の言い回しや口調がわかるようなかたちに補正と推敲を重ねることで、口述自伝として仕上げていきます。