独習するAI「アルファ碁ゼロ」、英ディープマインドが開発 “定石”自力獲得

 米グーグルの親会社アルファベット傘下の英ディープマインドは、独学でゼロから囲碁を学ぶ人工知能(AI)「アルファ碁ゼロ」を開発した。2016年に韓国のトップ棋士を破った「アルファ碁」は人間が対局した棋譜を学習用データに利用した。これに対し、アルファ碁ゼロは自己対局で碁の打ち筋を学ぶ。学習開始3日で人間のトップ棋士を破る実力を身につけ、学習40日には旧タイプのアルファ碁などすべての知能に勝る力をつけた。

 アルファ碁ゼロは初めはランダムに指すが自己対局を繰り返すたびに性能が上がる。学習3日で、韓国トップ棋士を下したときのアルファ碁には100戦全勝した。490万回自己対局を重ねると、すべての旧タイプのアルファ碁を破った。

 アルファ碁ゼロは盤上の石の配置だけを学習データとして利用し、人間がデータを入力する必要はない。大型計算機などの計算資源は旧タイプの10分の1以下で済む。学習の過程で人間の棋士たちが長年紡いできた“定石”を見いだし、新しい“定石”を作ることにも成功した。

 従来のAI研究は人間の研究者が“定石”などのルールをプログラムしてAIを強化してきた。アルファ碁は“定石”をデータから学び、アルファ碁ゼロは“定石”を自力で獲得したことになる。

 成果は19日、英科学誌ネイチャーに掲載された。

日刊工業新聞2017年10月19日

小寺 貴之

小寺 貴之
10月19日
この記事のファシリテーター

 AIの競争軸がデータからシミュレーションに移行したのだと思います。Data is new Oil、データの独占競争に負けるな、という記事を書いてきましたが、競争原理が変わろうとしています。完全にシミュレーションできる囲碁のような世界はAIはビッグデータに頼らず独力でどうにかできるようになります。データよりもアルゴリズムと計算力の比重が大きくなり、データが成長限界ではなくなると思います。ロボットの動作獲得はすぐ応用できると思います。ただこの世をシミュレーションできるのは極一部です。これからは、いかに上手いシミュレーションを作って反復学習させ、データ独占の壁を壊すか。サービスが価値を生むまでの流れのどこをシミュレーションで切り取るかが重要になります。データ同化をAIで回すことになります。ビジネスにおいてシミュレーション×AIとデータ×AIと人間の専門家、武器が増えたのは良いことです。アルファ碁ゼロのやっている強化学習を理解し、別問題に適応する力がほしいです。

この記事にコメントする

  

ファシリテーター紹介

記者・ファシリテーターへのメッセージ

この記事に関するご意見、ご感想
情報などをお寄せください。