您当前的位置 :教育 > 留学 > 商学院 正文
李开复评德扑人机战:希望人类选手能赢一场
http://www.syd.com.cn   来源: 新浪网  2017-04-11 09:17
分享到:

  新浪科技讯消息,“冷扑大师”VS中国龙之队德州扑克人机大战表演赛在海南生态软件园传奇智力运动馆结束了第二天的比赛。全天共8400手牌,龙之队一共输了347565分,与冷扑大师之间的积分差距相当明显。

  4月7日下午,创新工场创始人、董事长李开复、中国首位德州扑克女子亚洲冠军李思晓、追梦者基金创始人朱波做客新浪直播间,为大家讲述了目前的赛事以及各自眼中的人工智能。

  在李开复看来,“冷扑大师”机器学习的能力非常强,而且是不断学习、不断调整,这种能力是非常可怕的。机器每一个决策都是针对人类所有的可能性做出一个最有利于他自己的判断,而且基于德扑的规则,“冷扑大师”可以穷尽所有的可能性。

  对此,李思晓表示认同,“我会觉得比较可怕,我看了之前的一些介绍,包括他不单纯只是从大数据上的一个归纳,而是会对人的决策做出及时调整。他在德扑专业方面上的学习能力非常强,对人的及时调整很快速,你可以看到他的包容性也是很强的”。

  鉴于“冷扑大师”的表现,引发了人们对他超高学习能力的担忧。就人工智能是否会向人类隐瞒信息这一问题,李开复表示不必太过担心。“现在所有的人工智能的工具都是人写的代码,本质上还是人操控的工具。所以他是受人类管的,他没有自我意识去隐瞒信息,所以不用太担心我们的机器人以后会来欺骗我们。”

  节目期间,当李开复问道李思晓在日后的比赛中是否会考虑用“冷扑大师”的打法时,李思晓称会参考,“我刚去打了一场比赛,现在世界上最顶级的这些玩家,也越来越多地模仿机器人下注,所以他(冷扑大师)一定是有特别优秀的地方”。(徐利)

  以下为新浪科技根据李开复博士所讲内容整理:

  我们可能都关看到今年一月美国CMU卡耐基梅隆大学的一位教授,开发了一套德扑的机器人,而且在美国打败了顶尖的美国高手。因为我自己也是卡耐基梅隆毕业的,所以我就对他发出邀请。看他愿不愿意来跟中国的牌手对抗一下,那么就想阿尔法狗打败了世界冠军在围棋上,那么CMU的这套“冷扑大师”系统在美国打败了顶尖高手。

  那这次来到中国,我们是抱着希望,让大家能够看到德扑也是可以有意思的比赛,而且比围棋更有不同的意义。那么也非常开心的是,托马斯教授也带着“冷扑大师”过来,和我们这次组织的中国龙之队是由杜悦老师,是中国唯一的在VSOP上得过金手链的,带着中国龙之队的六位选手跟冷扑大师做一个为期五天的对抗,这是一个大概的背景。

  人类第一次输了1万多分,第二次输了5万多分,第三次输了12万多分。我们可以看到,第一次几乎是不相上下的情况,代表中国派出的选手真的很强。但是“冷扑大师”在打完每一场(section)比赛之后,他就会进行机器学习,针对每一位牌手的弱点调整自己的参数。所以在第一天下午的比赛,他就化身为6个“冷扑大师”,针对每一位牌手的弱点调整参数,借此把差距拉到5万;第三场比赛再学习之后便到了12万。

  所以,我们可以看到机器的自我调整是非常厉害,非常可怕的。

  “冷扑大师”如何学会打德扑

  其实“冷扑大师”和AlphaGo的差别还是很大的。

  “冷扑大师”从来没有学过人类的牌谱,而AlphaGo先从人类的牌谱开始学起,之后再自我提升。“冷扑大师”几乎是从博弈论的理论加上德州扑克的规则,自己再不断地推进算法,所以他每一次下注与否或者每一个决策都是针对人类所有的可能性做出一个最有利于他自己的判断。这个判断做出来以后,无论人类怎样回应,对于“冷扑大师”来说都是接近最优的。而且“冷扑大师”还会不断优化自己的打法,让对手无法猜测,但他却可以猜测人类的应对方式。

  如果你把“冷扑大师”的盖子掀开来,你会发现里面其实是一个特别巨大的数据库,它储存了所有牌的排列与组合,还有在当即的排列与组合之下如何去寻找一个平衡点,好让对手无法猜测出你有什么牌。

  所以归根结底,还是一个巨大的统计系统。

  人工智能会向人类隐瞒信息?

  从“冷扑大师”的表现上来看是在隐瞒信息,但实际上这是人类教他的。现在所有的人工智能的工具,无论是机器人、无人驾驶,还是AlphaGo或者“冷扑大师”,本质都是人类写的代码,人类操控的工具。所以他们是受人类管的,他没有意识操控自己去隐瞒信息,之所以表现出来隐瞒信息实际上是他的编程者叫他这么做的。所以不用太担心未来机器人会欺骗我们。

  和围棋进行一个对比的话,我们可以看到围棋的黑白子都在棋盘上,完全公开没有隐藏的。我们可能要问,真实的应用在什么地方?需要明确的是,人的真实应用很少会全都暴露出来,德扑可能更适合应用于你去买一套房子——标价900万,你的心里预期是850万,你是该出700万慢慢往上加呢?还是直接出840万,拒绝加价呢?

  说到这,我们发现商业谈判其实和德扑是很像的。这也意味着德扑未来可以克服商业谈判,甚至是政治外交、国际关系处理上的一些问题,帮助人类做出决策。

  “冷扑大师”会穷尽所有可能性

  “冷扑大师”不断地评估自己的所有的可能性和对方回应的所有的可能性,还有接下来发出的牌的所有可能性,如此往复,不断推下去。

  一方面,德州扑克本身的搜索的区间是比较小的,因此“冷扑大师”是可以穷尽地搜索所有的可能性的,他要做的事情就是去平衡人类的不同打法以及自己如何选择一个让人类感到两难的打法。最后的目的就是最优化对手犯错的可能性和自己获取更多积分码的可能性。打个比方,两个人玩石头剪刀布,如果你用任何策落的概率不各是三分之一,那么对方就会找到你的弱势。 

  实际上,除了AlphaGo和“冷扑大师”,我们现在已经被人工智能技术围绕了。百度、淘宝、滴滴、今日头条、知乎等公司在其各自服务用户的过程中,都已应用了人工智能技术。

  除此之外,人工智能应用场景还包括金融领域、医疗领域、语音识别、人脸识别等。我预计在十年之内,人类从事的50%的工作都会被机器取代。

  希望人类选手能赢一场

  目前两天四场比赛15600手牌过后,龙之队共落后412702分,平均每百手损失26.2个大盲注。龙之队与“冷扑大师”之间的积分差距已经相当明显。

  形势越来越不妙,因为机器在不断的学习,当然,人类也在不断的学习。但很明显,机器学习的速度更快,因此我预测差距会越拉越大。

  AlphaGo对战李世石的比赛中,人类选手最后是赢了一局的,这也为人类挽回了尊严。希望在未来的7场比赛中,我们的中国德扑选手也可以获胜一场。

编辑: pd06
相关新闻:
中高考更多>>
大学更多>>
早教更多>>