AlphaZero
簡介
AlphaZero使用與AlphaGo Zero類似但更一般性的演算法,在不做太多改變的前提下,並將演算法從圍棋延伸到将棋與國際象棋上。AlphaZero與AlphaGo Zero不同之處在於[1]:
與Stockfish以及elmo的比較
AlphaZero基於蒙特卡洛树搜索,每秒只能搜尋8萬步(西洋棋)與4萬步(將棋),相較於Stockfish每秒可以7000萬步,以及elmo每秒可以3500萬步,AlphaZero則是利用了類神經網路提昇了搜尋的品質[1]。
訓練
AlphaZero使用了5,000顆第一代的TPU進行訓練。
成績
圍棋
在34小時的訓練後(約自我訓練2100萬局[1]:Table S3),AlphaZero以60勝40敗的成績打敗AlphaGo Zero[1]:Table 1。
參考資料
- . 2017-12-05 [2018-05-09]. (原始内容存档于2017-12-08).
外部連結
- Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm(页面存档备份,存于),AlphaZero的論文。
- Game Downloads(页面存档备份,存于),AlphaZero與西洋棋軟體Stockfish的對弈記錄。
- Chess.com Youtube playlist for AlphaZero vs. Stockfish(页面存档备份,存于)
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.