独習するＡＩ「アルファ碁ゼロ」、英ディープマインドが開発　“定石”自力獲得

2017年10月19日テクノロジー

囲碁のイメージ。碁石の中に宇宙がある（ネイチャー提供）

　米グーグルの親会社アルファベット傘下の英ディープマインドは、独学でゼロから囲碁を学ぶ人工知能（ＡＩ）「アルファ碁ゼロ」を開発した。２０１６年に韓国のトップ棋士を破った「アルファ碁」は人間が対局した棋譜を学習用データに利用した。これに対し、アルファ碁ゼロは自己対局で碁の打ち筋を学ぶ。学習開始３日で人間のトップ棋士を破る実力を身につけ、学習４０日には旧タイプのアルファ碁などすべての知能に勝る力をつけた。

　アルファ碁ゼロは初めはランダムに指すが自己対局を繰り返すたびに性能が上がる。学習３日で、韓国トップ棋士を下したときのアルファ碁には１００戦全勝した。４９０万回自己対局を重ねると、すべての旧タイプのアルファ碁を破った。

　アルファ碁ゼロは盤上の石の配置だけを学習データとして利用し、人間がデータを入力する必要はない。大型計算機などの計算資源は旧タイプの１０分の１以下で済む。学習の過程で人間の棋士たちが長年紡いできた“定石”を見いだし、新しい“定石”を作ることにも成功した。

　従来のＡＩ研究は人間の研究者が“定石”などのルールをプログラムしてＡＩを強化してきた。アルファ碁は“定石”をデータから学び、アルファ碁ゼロは“定石”を自力で獲得したことになる。

　成果は１９日、英科学誌ネイチャーに掲載された。

日刊工業新聞2017年10月19日

小寺貴之 Kodera Takayuki 編集局科学技術部記者

　AIの競争軸がデータからシミュレーションに移行したのだと思います。Data is new Oil、データの独占競争に負けるな、という記事を書いてきましたが、競争原理が変わろうとしています。完全にシミュレーションできる囲碁のような世界はAIはビッグデータに頼らず独力でどうにかできるようになります。データよりもアルゴリズムと計算力の比重が大きくなり、データが成長限界ではなくなると思います。ロボットの動作獲得はすぐ応用できると思います。ただこの世をシミュレーションできるのは極一部です。これからは、いかに上手いシミュレーションを作って反復学習させ、データ独占の壁を壊すか。サービスが価値を生むまでの流れのどこをシミュレーションで切り取るかが重要になります。データ同化をAIで回すことになります。ビジネスにおいてシミュレーション×AIとデータ×AIと人間の専門家、武器が増えたのは良いことです。アルファ碁ゼロのやっている強化学習を理解し、別問題に適応する力がほしいです。