597.老板你做个人吧（第9章）_重生男神从做游戏开始_梦三万

字体

大

中

小

关灯

597.老板你做个人吧（第9章）（2/2）

一、策略网络，给定当前局面，预测并采样下一步的走棋；

二、快速走子，目标和策略网络一样，但在适当牺牲走棋质量的条件下，速度要比策略网络快1000倍；

三、价值网络，给定当前局面，估计是白胜概率大还是黑胜概率大；

四、蒙特卡洛树搜索，把以上这四个部分连起来，形成一个完整的系统。”

……

现在，刘光然对博米围棋大师的AI版本进行了多次的更迭，到现在已经比较成熟了。

博米围棋大师此前的版本，结合了数百万人类围棋专家的棋谱，以及强化学习进行了自我训练。

博米围棋AI的能力则在这个基础上有了质的提升。

最大的区别是，它不再需要人类数据。

也就是说，它一开始就没有接触过人类棋谱。

研发团队只是让它自由随意地在棋盘上下棋，然后进行自我博弈。

刘光然给曹阳介绍，博米围棋AI使用新的强化学习方法，让自己变成了老师。

系统一开始甚至并不知道什么是围棋，只是从单一神经网络开始，通过神经网络强大的搜索算法，进行了自我对弈。

随着自我博弈的增加，神经网络逐渐调整，提升预测下一步的能力，最终赢得比赛。

更为厉害的是，随着训练的深入，博米围棋大师团队发现，博米围棋AI还独立发现了游戏规则，并走出了新策略，为围棋这项古老游戏带来了新的见解。

从某种程度来说，也要归功于之前AI换脸技术带来的灵感。

AI换脸也是两个【大脑】，一个负责做假，另外一个负责识别，然后看是做假的更厉害，还是能够识别的更厉害，最后一直推演到识别技术也无法区分真假为止，就算是成功了。

博米围棋大师也是这样，自己的两个大脑互相下围棋，然后把棋谱存下来，作为数据库当中的一部分，之后再不断地从数据库当中进行深度学习，然后又自己跟自己下，不断地重复这个过程，直到最终能快速地产生出最优解。

之前博米围棋AI仅用了单一的神经网络。
本章已完成！