まなび

【ATOM⑮】 教師無しで成長したAIシステムAlphaGo Zero

DATE : 2018/1/24

2017年7月26日掲載のブログATOM⑧において、囲碁に特化したAIシステム:AlphaGoの話題を採り上げました。チェスについで将棋でもコンピュータがトッププロを破ったことはある意味では衝撃的なことでした。しかしその時点においても、AIシステムが囲碁のトップ棋士に勝つのは当分の間は不可能と考えられていました。その理由は、囲碁の場合はチェスや将棋に比べて順列・組み合わせの数は桁違いに大きく、従ってより複雑なゲームといえますから、AIシステムがトッププロの域に達するには相当の年数が必要だろうと予測されたわけです。その予測に反して2016年3月にAlphaGoが世界チャンピオンを破ったわけですから、AIシステムは我々の想像以上のスピードで進化してきました。 

実は、その後のAIシステムの進歩にも目覚しいものがあります。AlphaGoはプロ棋士同士の実戦棋譜を教師データとして用い、ディープラーニングを使ってトレーニングされたAIシステムでしたが、新しいシステムは人間の棋譜を一切使わず、囲碁のルールだけを教えられた後は独学でシステムの性能アップをはかったもので、AlphaGo Zeroと名付けられました。囲碁の長い歴史の中から定石として定着した着手などの情報も一切不要で、コンピュータが、ある意味では手当たり次第の着手を試して次第に有効な着手を絞り込んでいった結果といえます。このAlphaGo ZeroがAlphaGoに100戦100勝したという論文が2017年10月に発表されたのです。AlphaGoの完成から僅かに1年半しか経っていません。Zeroは人間のデータを一切使わないことを意味します。さらには、囲碁だけでなく将棋やチェスもこなすシステムへと汎用化がなされたのです。しかも、人間を超える能力を24時間以内で獲得してしまったとのことです。もちろん、これは普通のコンピュータよりもはるかに計算能力の高いスーパーコンピュータを使った場合の話ですが、教師データが不要になったというところが大きな進歩であり、長い歴史の中で最善とみなされて定石となった手順も自然に求められたとのことです。もはや人間の実力のはるか前を行くレベルに達しているといって間違いなさそうです。 

「ロボットの行動・振る舞いはどうあるべきか?」という問いは古くて新しいものといえます。ロボット工学三原則(あるいは単にロボット三原則)と呼ばれ、ロボットが従うべき原則が提示されたのは今から50年以上も前のことです。ロボットの行動規範とも言うべきもので、SF小説の中でロボットの創造主たる人間を破滅させるロボットが登場するようになり、そのようなことがないよう、安全装置として機能させることを狙いとしたものです。それを下図に示します。内容そのものは合理性のあるものといって良いでしょう。これらはいわゆる産業用ロボットのように定型的な作業だけを行うロボットではなく、自律型ロボット、すなわち自意識や判断能力を持つ高度なロボットを対象としたものです。AlphaGo Zeroも未だ定型的な作業を行うロボットの域を出ません。しかし、自律型ロボットに属するものの到来が現実味を帯びてきています。定型的な作業だけを行うロボットから複数の仕事をこなす汎用型タイプへ、さらには、日常活動の中から学び進化していくロボットへと確実に進んでいます。その進化はロボット三原則に沿い人間社会の秩序を乱すことの無いような枠組みの中での進化でなければなりません。それを如何に担保するか、その枠組みの構築が極めて重要になってきています。

Return to Top ▲Return to Top ▲