声道の形に結びつくものを音声波から求められれば音声認識ができそうだということを前回のブログで示しました。今回はその手掛かりについて紹介しましょう。
直径が変化するパイプの中を音波が通るときの様子を概念的に示したのが図1です。前のブログで示した声道の一部、即ち直径が異なるm番目と(m+1)番目の短い円筒状のパイプを取り出したものです。(m+1)番目のパイプを左から右へ進む音波(これを前進波と呼びます)は、m番目のパイプとの境目で一部が反射して戻ります(これを唇から遠ざかる方向に進む後進波と呼びます)。直径の差が大きいほど反射する部分が大きくなります。反射した音波は逆方向に向かうわけですが、直径が変化する部分で同じように透過と反射が起こります。
音源から放射された音波は、声道をそのまま透過して唇まで到達する波もありますし、直径の異なる部分で何度も反射を繰り返して唇まで到達する波もあるはずです。これら全部を足し合わせたものが唇から放射される音になります。例えば一つの正弦波を考えてみましょう。同じ周波数の正弦波であっても、伝播してきたルートが異なるため、時間的なズレが生じます。そのズレ方によって、強め合ったり、逆に弱め合ったりすることになります。反射して遅れた波が直進した波と比べて一周期(360度)遅れとなれば、両者を足し合わせれば大きな振幅の波になりますし、逆に半周期(180度)だけ遅れれば、加算したものは互いに打ち消しあうことになります。同じ時間遅れを位相差にすると、それは周波数によって変わってきます。一般に、正弦波を入力したときに出力側で振幅がどう変化するかを周波数の関数として表したものを周波数伝達特性と呼んでいます。この周波数伝達特性は、声道内での透過と反射の関係で決まりますので、声道の形が決まればユニークに決まるものです。
声道の周波数伝達特性がその形と1対1対応であることが分かりました。ここで声門での声の元になる音に注目しましょう。詳しい説明は専門的になりすぎるので割愛しますが、例えば100Hzの高さの母音/a/を発声したときは、声帯からの音は、振幅が一定で周波数が100Hzの整数倍の正弦波の和で表すことができます。したがって、唇から発せられる声がどのような周波数成分から出来ていて、その振幅がどれほどかを調べれば、100Hzの間隔で周波数伝達特性が求められることになるわけです。声帯の開閉の周期が変わっても、調べられる周波数伝達特性の間隔が変わるだけです。せばめが音源になる時には、空気の乱流に基づく雑音が声のもとになりますが、この雑音はあらゆる周波数成分をほぼ等しい強さで含みますので、声の周波数成分の強さがそのまま周波数伝達特性になる、というわけです。
図2はブログ-47で示した成人男性の母音/a/の周波数成分の振幅の大きさを求めたものです(下記文献 ※ の図3.14を加工)。声の高さが異なるため、強い周波数成分の間隔ははっきりと異なりますが、いずれも強い成分が一定の周波数間隔で現れているのが分かると思います。その周波数でのピーク値を滑らかな曲線で繋げたもの(包絡線という)を赤の破線で示したのが左図で、右図の赤の破線は左側の包絡線をそのまま重ねてみたものです。左側の包絡線が驚く程右側の包絡線を忠実に示していることが分かるでしょう。女児の波形を解析してもほとんど同じ周波数伝達特性となります。重要なことは、この周波数伝達特性が音源波(声帯での周期的なパルス列か、せばめでの雑音)の波形の違いに影響されず、声道の形だけの情報を与えてくれるもの、ということです。
実際の音声認識では、この周波数伝達特性を数学的な関数で表し、実際の音声からその関数を決定する方法が主流となっています。対象を物理的に解析し、それに基づいて数学的な手法を適用することの重要性を感じて頂けましたでしょうか?生徒の皆さんの今の毎日の学びが基礎になりますから、しっかりと取り組んで下さいね!
※小畑秀文 : 音声認識のはなし、日刊工業新聞社、昭和58年.