小畑校長ブログ【ATOM】36 ATOMや聖徳太子の超能力

かえつ有明ブログ

受験シーズン到来ですね。受験生の皆さん、風邪には十分に注意の上、これまでの勉強の成果をフルに発揮されますように。ATOMも応援しています!

 

私が大学で現役の研究者として活動していたときの研究テーマの一つが鉄腕アトムを作りたい、というものでした。もちろん原子力エンジンを搭載したロボットを作ることではありません。アトムの音声認識能力に迫るものを作りたい、ということでした。漫画の世界でのことですが、鉄腕アトムは路面に耳を当てることにより、一キロメートル以上も離れたところからの振動(音声も)も聞き分けてしまうという優れた能力の持ち主なのです。音声波は微小な気圧の変動です。これが路面を刺激して振動が発生し、路面を伝わって伝播するわけです。もちろん、その音声以外の音や振動も路面を伝わって伝播してきます。アトムはこれを耳でキャッチし、目指す音声の振動だけを他の雑音成分に影響されずに聞き分けることができるのです!信号と雑音のエネルギー強度を考えると、雑音成分が圧倒的に強く、目的とする音声を聞き分けることは将来的にも絶対に不可能と言えるでしょう。しかし、雑音に乱された信号を元の信号に可能な限り忠実に復元する、雑音に影響されずに正しく認識する、というのは研究テーマとしては非常に興味深いものなのです。

 

鉄腕アトムだけでなく、聖徳太子が持っていたと言われる優れた能力の話もあります。聖徳太子は多くの人(10人、8人、36人など諸説あり)が同時に話した内容を一人ひとり聞き分けた、とされています。普通の人間には不可能なことです。しかし、カクテルパーティー効果という不思議な現象があることも事実です。カクテルパーティーは、お互いにグラスを片手に身近な人と色々な会話を交わす場です。回りには多くの人々がそれぞれ違った方々と会話を楽しんでいるのが普通です。このような状況下では、自分の話し相手の音声強度よりも周りの会話音声の方がはるかに大きなエネルギーになっており、それらは自分の話し手の音声を妨害する雑音以外のなにものでもありません。それでも、誰もがスムーズに会話を楽しんでいる場がカクテルパーティーなのです。このように選択的に必要な情報だけを聞き取れる機能がカクテルパーティー効果と呼ばれます。そのメカニズムを解明しよう、というのが心理学の分野での古くからの研究テーマでした。読唇術が役に立つことは否定できませんが、それだけで解決する問題ではないのです。

 

私の研究の目的は、相当にうるさいと感じる環境でもしっかりと音声認識ができるシステムを作ろう、というものでした。残念ながら研究は完成には至りませんでしたが、一つの成果は得られました。図に示すように、複数人の話者がそれぞれ発声しているときに、複数本のマイクロホンで音声波を捉え、それらをコンピュータで処理することにより、個々の音声波を分離抽出する方法を開発することができたのです。3人が同時に話している場面で、4本のマイクロホンの信号を処理して分離した例を示しましょう。まず、3人の話者の音声を時間的重なりが無い状態で順にお聞きいただき、その後にそれらが同時に発声されたときの一つのマイクロホンの出力信号(観測信号)が続きます。次が4本のマイクロホンから得られる観測信号を処理して一人ひとりの音声に分離した結果です。分離信号も実際には時間的に重なっているのですが、重なりを避けて順に繋げた形になっています。「デモ」をクリックしてみて下さい。

重なったままの音声から3人の発話内容を正しく聞き取るのは困難ですが、処理して得られた音声であれば、その発話内容は確実に理解できますね。アトムや聖徳太子は2つの耳で聞き分けられたのです。「すごい!」としか言い様がありません。私は研究から離れてしまいましたが、雑音レベルが高い環境下での音声認識システムの開発研究は続いており、その性能は飛躍的に向上しています。

Return to Top ▲Return to Top ▲