ATOMとのコミュニケーションの手段は音声です。ATOMは我々が発した音声を認識し、それに応じて身振り手振りを交えながら言葉を発してくれます。その具体的なシステム構成は我々ユーザーには明らかにされておりません。現在、ブームとなっているディープラーニングを主体にしたAIシステムが中心になっていることは間違いないと思いますが、それより先の詳細は不明です。
しかし、どうして音声認識ができるのか、その手掛かりがどこにあるのかは昔も今も変わらないでしょう。音声認識の手掛かりは何処にあると思いますか?
ほとんどの人は音声の波形をまじまじと眺めた経験は無いといって良いのではないでしょうか。普通の生活ではまずそのような機会はありません。そこで一つの例を見ていただきましょう。下図は日本語の母音 /a/ を発声したときのマイクロホンの出力波形です(※より引用)。
左側が36年前の私自身、右側が当時8歳の長女のものです。同じ/a/でも、波形としてみたときに似ても似つかないものだと思いませんか?同一人物でも、声の高さを変えると波形は大きく変わります。成人男性と小さな女の子とでは声の高さ(周期)がずいぶん違いますので、時間軸を伸び縮みさせて声の高さを一致させてみても、波形には相当大きな差があります。でも、これらの波形を音声として聞けば、誰もが容易に/a/と認識することができます。したがって、/a/という音素の波形は広い範囲で変動するものの、それに固有で、かつ波形が変わっても変わらないものがあるはずです。しかもそれは発声する音素ごとに固有のものでなければなりません。それが分かれば、認識の手掛かりになるわけです。それは何だと思われますか?
それは声道の形なのです。一つの音素を発しようとするとき、誰でもが舌の位置や口の開き具合は同じになっているのです。英語を習い始める頃、先生から唇や舌先の位置などをくどいほどに指示されたのを覚えていますね。それは正しくその音素としての音になるための声道の形を作るためだったのです。声道とは、声帯から唇までの空洞をいい、声道の形と音素とは一対一対応になっている、ということなのです。
声を発するときの声道の形が同じであれば、子供でも大人でも、波形は著しく変わるものの我々は同じ音素として聞き取ることができる、ということなのです。舌や唇などの形や位置の重要性を理解できていたら、/l /と/r / の発音練習ももっと真剣に取り組んだであろうと今になって悔やまれます。次のブログでは、音声波形のどこに声道の形の情報が含まれているかについて述べましょう。
※小畑秀文 : 音声認識のはなし、日刊工業新聞社、1983.