前のブログで示したように、同じ母音の/a/であっても、見た目の音声波形はとても同じ母音であるとは思えないほど違う波形でしたね。これは母音/a/に限った事ではありません。全ての音素(それぞれの言語における母音と子音の総称)に共通することで、同じ音素であれば波形もよく似たものになる、という訳ではないのです。しかし、発声するときの舌の位置、口の開き具合、唇の形(これらをまとめて“声道”と言います)をじっくりと観察して見てください。例えば母音/a/を発音するときには、誰でも口を大きく開き、舌も自然のままの状態で下顎についたままであると納得できるのではないでしょうか。したがって、この声道の形の手掛かりが音声波形を分析して得られれば、その音声がどの音素に対応するものかが判定できることになります。これが音声認識を行う上での基本的な手掛かりになります。
単純化して説明しましょう。音声の元になる音は声門で生まれます。声門とは、左右の声帯とその空間とをまとめた呼び名です。この声門から唇までの音響菅を、場所によって直径が変わる円筒として近似しましょう。実際には中心軸は真っ直ぐではないし、断面も円ではありませんが、基本的な音響特性を議論するのに不都合はありません。更に大胆に、全体を20個程度の短い円筒の繋がりとして近似したのが次の図です。
声帯が閉じた状態で肺からの空気の圧力が高まると、その圧力に耐えられなくなって声帯が一気に開き、空気が勢いよく声道に流れ込みます。肺側の空気圧が瞬間的に下がるので、声帯は再び閉じ、その結果肺からの空気圧が再び上昇して限界に達すれば声帯が再度開くことになります。この声帯の開閉は周期的になり、結果として声門からは周期的なパルス状の空気流が声道に入力されます。音声は波の一種で、微小な気圧変動です。声帯からのパルス状の空気流はパルス状の音(音圧変化)になり、これが音声の元になる音になるわけです。
発声のときに声帯が開いたままの場合もあります。無声音と呼ばれ、声帯は振動しません。/s/や/ʃ/の発声時には声帯は開いたままですが、声道の一部が非常に狭くなっています。これをせばめと読んでいます。/t/などは完全に閉じています。声帯を素通りした空気が勢いよくこの狭い空間を通り抜けようとすると、そこで乱流が発生します。音としては不規則な雑音に相当します。この雑音がそれより先にある声道の影響を受けて声になるのです。
以上のことから、音声の発声の仕組みは次のようにモデル化されます。すなわち、音源としては、声帯からの周期的な音か、声道の一部の狭い空間を空気が通り抜けることにより発生する雑音状の音の2つがあります。これらが声道への入力信号になります。上図は前者の場合を示したものですが、後者の場合も声帯の部分を声道のせばめに置き換えれば、音源の位置が異なるだけで同じモデルで示すことができます。
次のブログでは、声帯や声道のせばめで発生する声の元には大きな個人差があるなかで、声道の形が音声の何処に反映され、どうすればそれを求められるのかを紹介しましょう。