最近は“ビッグデータ”という言葉を頻繁に目にし耳にするようになってきました。何をもってビッグというのか、明確な基準があるわけではありません。また、データ規模だけでなくどのようなデータから構成されているか、あるいはどのような目的に利用可能なのかという質的な側面も関係します。しかし、10年ほど前のコンピュータではとても扱えないほどの10テラバイトを超える巨大なデータをイメージすれば良さそうです。新聞1ページが約20キロバイト(文字だけでページ全体を概算)ですから、朝刊(32ページ)全体で約650キロバイト、一年で240メガバイト、10テラバイトは朝刊40年分位の巨大なデータということになります。
なぜそのような膨大なデータが必要なのでしょうか?例えば顔を認識するシステムのことを考えて見ましょう。我々は知人の顔は一瞬にして認識することが出来ます。笑っていても、泣いていても、怒り心頭に達している時でも直ぐに分かります。表情の変化は極めて広い範囲に及びます。それにも関わらず、一瞬で認識することができます。何故なのかを改めて考えてみると不思議な感じがします。何故認識できるのか、その根拠を説明しようとしてもうまく説明出来ませんね。ここにビッグデータが必要な理由が隠されています。Aさんのあらゆる表情、それも色々な角度からの写真を揃えておけば、それと照合することにより他の人と区別が付けられそうですね。ディープラーニングを使ったAIシステムがブラックボックスで、何故うまく機能するのかが分からない、とよく批判じみて言われます。その通りですが、人間の頭で何故うまく色々なものが認識できるのかも理由は分かっていません。ブラックボックスを解明するのは残された重要な研究課題です。
AIシステムが認識対象にするものは通常は連続的に広い範囲で変形しますから、システムの構成時に使った画像が全てを網羅するのは不可能です。顔でいえば他人の空似ということもあります。ここに確率の要素が入ってきます。AIシステムが「Aさんである確率が91%」、などと信頼度と一緒に判定出力を出すのはこのような事情があるわけです。確率的な判断を行っているわけです。
確率の現象を扱う場合でも、確定的な判断を行うのがベスト、というものがあります。代表的なものがMonty Hall 問題でしょうか。これはMonty Hallが司会者を務めるゲームショー番組で出される次のような問題です。
3つのドアがあり、何れも閉まっていて中は見えない状態にあります。1つのドアの後ろには当たりに相当する新車が置かれ、その他の2つのドアの後ろには外れに相当するヤギがいます。プレーヤーは新車があるドアを当てれば車がもらえます。もちろん、新車が置かれるドアをどれにするかは等確率でランダムに決められます。
この問題では、次の手順でゲームが進行します。
① まずプレーヤーは新車があると推測したドアを選択します。ここではそれをドア1としましょう。
② 次に司会者はプレーヤーが指定しなかったドアのうちヤギが居る一つのドアを開けてヤギを見せます。それをドア3とします。
③ 次に司会者はプレーヤーに最初に選んだドアをまだ開けられていないドア(ドア2になる)に変更しても良いと告げます。
④ プレーヤーは最初に選択したドア(ドア1)から残されたドア(ドア2)へ判断を変えるべきか否か?
皆さんはどのように判断されますか?
「新車が置かれるドアはいずれも確率1/3であるから変更する必要はない」
という選択がまず考えられそうです。あるいは、
「ドア3が外れと分かったのでドア1もドア2も当たりの確率は等しく1/2」となるから、この場合も変更の必要は無い
という考えもありそうです。実はこれらは誤りです。ステップ①の段階ではいずれのドアを選択しても当たる確率は1/3で優劣はありません。しかしステップ②において事情は大きく変わります。図をご覧下さい。
ドア3を開ける前であればドア1もドア2もドア3も当たる確率は1/3です。このような何ら情報が無い場合の確率を事前確率と言います。司会者が外れのドアを明らかにした瞬間に事情が変わります。すなわち、ステップ①においてはドア2とドア3が当たりになる確率は何れも1/3ですが、それらの何れかが当たりになる確率はそれらの和、即ち2/3、ですね。そしてドア3が外れであることが明らかにされた瞬間にドア2の当たりになる確率は2/3に変化することになります。これをドア3が外れという事象が発生したことに伴う事後確率と呼びます。従って、Monty Hall問題に対する正解は「常に最初に選んだドアから残されたドアへ判断を変える」ということになり、当たりの確率は最初に選んだドアを変えない場合の倍の2/3になります。確率の問題を扱うのに回答の仕方は固定的、というのは不思議な感じがしませんか?
上記の問題では、確率論的な最適解を求めるにはちょっとした数学的な基礎が必要です。しかし理論的なことが全く分かっていない場合でも、テストデータを大量に発生させ、最初の選択を変える場合と変えない場合を繰り返しテストすることにより、最適な判断をするシステムを作ることができます。これが今のAIシステムの中心をなす機械学習の利点でしょう。大きく変形する顔でも正しく認識できる理由が我々にははっきりしなくとも、認識精度の高いAIシステムは実現できるのです。