账号:
密码:
CTIMES / 文章 /   
人类如何向AlphaGo学习出人头地?
 

【作者: 高煥堂】2018年05月10日 星期四

浏览人次:【3453】
  

在当今AI潮流之下,企业和年轻人如何出人头地呢? AI机器人AlphaGo打败天下无敌手,已经出人头地了。人们何不向AlphaGo及AlphaGo Zero学习呢?


AlphaGo懂得如何征服限制面对的巨大不确定性棋局,因而超越了人类顶尖高手。当学习AlphaGo如何探索机会之後,创客就懂得面对AI的不确定市场,而企业就会像AlphaGo一样,超越顶尖的人类竞争对手,出人头地了。


传统上,人类的学习偏重於「利用」所学的知识发挥所长,解决问题。如果人类(如创客)能从AI强化学习得到启示,强化探索能力,则人人能探索更多的可能,得到更多的机会。


在高度不确定性的环境里,唯有懂得降低风险,才敢大胆探索、提高机率胜出。一旦选择了创客/创业之路,若能向AlphaGo学会探索机会的方法,将会协助您在创业路途上鸿图大展。


强化学习:探索和利用之间找到平衡

强化学习(Reinforcement Learning)的演算法又称为「近似动态规划」(approximate dynamic programming,ADP) 。它在探索(在未知的领域)和利用(现有知识)之间找到平衡。探索(exploration)就是:尝试以前从未想过或做过的事情,以求获得更高的报酬。利用(exploitation)就是:做当前条件下能产生最大回报的事情(图1)。



图1 : AlphaGo探索不确定性环境里的机会
图1 : AlphaGo探索不确定性环境里的机会

例如,假设在您家的附近有十个餐馆,到目前为止,您仅在其中的八家餐馆吃过饭,了解了这八家餐馆中哪家的是最好吃的。例如有一天,女朋友来访,您想请她去最棒的餐馆晚餐,请问您会如何选择餐馆呢?在这个例子里,「利用」就意味着您带她去所知道的八家中最好吃的餐馆;而「探索」则是带她去您从没吃过的第九家或第十家餐馆晚餐。


如果您选择八家中最好吃的餐馆,那麽也许第九家或第十家比这八家都好吃很多呢?反之,如果您选择第九家或第十家,也许这两家可能比那八家都难吃呢!


那麽,您该如何选择?这就是「探索-应用」困境(exploration-exploitation dilemma)。强化学习更接近生物学习的本质,一个标准的强化学习演算法必然要包括探索和利用,强化学习更接近生物学习的本质。Google的专家们(即人类老师)已经把这种「探索和利用」最隹平衡的技巧(演算法)教给了AlphaGo (机器学生),让AlphaGo及AlphaGo Zero超越了人类的围棋顶尖高手。


传统的人类学习是学以致用(利用所学)为依归,由於常常受限於(现有知识),无论是人类或机器学生都只能得到区域最优(local optima)。


因此,无论是机器学生或人类学生,一旦具有强化学习能力,都能大大提升其探索未知机会的能力,有信心去探索更大的状态空间,而得到全域最优(global optima),让学生们成为AI时代的大赢家,人人能探索更多的可能,也捕捉到更多的好机会。



图2 : 局部最优VS.全域最优(最隹解)
图2 : 局部最优VS.全域最优(最隹解)

懂得避风险,才敢大胆探索、才有热情创新

大胆探索的背後,必须有效降低风险,这是AI时代人类可以向机器学习的重要一课。AI强化学习已经把这种「探索-利用」最隹平衡的演算法效益发挥出来,然而搭配着一种降低风险的策略。AlphaGo的目标总是将获胜机率最大化放在第一位,它会透过寻找确定的搜索途径实现最低风险的获胜机会。例如,AlphaGo的行为会倾向为了取胜而放弃更多赢棋子数,只为了降低不能取胜的风险。


AlphaGo 的蒙地卡罗演算法给出的是搜索之後的胜率评估,然後AI会根据这个胜率来选择落子点,唯有懂得避风险,才敢大胆探索、才有热情创新。因而,AlphaGo能在高度不确定性的围棋棋局中,超越人类高手。俗语说,商场如战场,它们都跟围棋竞赛一样具有高度的不确定性,因而人们(如企业家)将可从AlphaGo学会如何在商场上,善於面对如围棋棋局中高度不确定性的市场环境中,超越其他的人类竞争者!


与不确定性共舞

向AlphaGo学习,有助於提升人们的避风险能力和信心,以便更具备创新精神。就如同下述的这句名言:


“When you focus on problems,you’ll have more problems. When you focus on possibilities,you’ll have more opportunities.”(当您专注於问题时,您就会有更多的问题;当您专注於可能性时,您就会有更多的机会。)


当人们一直专注於问题时,是基於过去经验,评估具有现实条件支撑,力求化解问题、或避免问题发生的机率性,在心中逐渐萌生具有高度的明确感。这种机率性思维而得到地明确感称为「机率性明确感」。


大家都知道,当面对不确定的情况时,人们总是需要明确感,才会安心。大多数人习惯於机率性思维,一直专注於问题,力求化解问题或避免问题发生的机率性,於是在心中逐渐萌生具有高度安心的明确感。


透过这种机率性思维而得到的明确感称为「机率性明确感」,但是,常常会基於经验和现实而过滤掉机率小的可能方案,而失去许多的机会。


「可能性明确感」试图涵盖未来各种可能的机会,避免基於经验和现实而过滤掉或机率小的可能方案。然後,逐步探索经验和现实进行否证而去芜存菁,渐进提升心中的明确感,亦即面对复杂和新的未知世界,培养先容纳内心的不确定性,规划方案并采取行动试验性(试错),逐渐提升明确性和信心。


可能性(possibility)意味着机率性(probability)很小的事件,有人称之为「黑天鹅」。它的出现,初期并不起眼,而是经过「一段时间」逐渐产生乘数效果的巨大效应。为什麽会是「当您专注於可能性时,您就会有更多的机会」呢? 因为上述的「一段时间」是一项宝贵的资产,例如,长荣集团创办人张荣发就是洞悉到物流集装箱(黑天鹅)而获得宝贵时间,并且预作准备,因而获得更多机会,而後来才进入的竞争者,就因缺乏时间资源而失去竞争力。


大多数人习惯於机率性思维者,他们常常成为失去宝贵时间的後知後觉者,因为他们会觉得黑天鹅还没普及流行,尚未成气候。这种面对不确定逐步提升心中的明确感,通称为「与不确定性共舞(living with uncertainty)」。人们总是需要明确感,才会安心。「机率性明确感」与「可能性明确感」,其目的一致:满足内心所需的明确感,只是手段不同而已。


譬如一只小狮子肚子饿了,依据成功经验奋力去追小兔,只是捕获的兔子日渐减少(可能兔子变敏感了),有些困惑(明确感降低)。这小狮子的妈妈就教它:肚子饿了,就眼睛闭着,睡大觉,不要乱跑。小狮子满脑困惑,不确定感急速上升,非常不安;但母命难违,只好勉强为之,果然耳朵变灵敏了,清晰听见兔子的声音愈来愈近,然後猛然奔出一抓,轻易捕获,饱食一餐,继续睡大觉。


小狮子专注於问题(如肚子饿了),却引来更多的问题(如追累了,走不动,引来生命危险)。母狮教小狮子不要围绕问题,而专注於可能性(如原来以为兔子不可能自动送上门),反而发现更多的机会(如更容易填饱肚子的新途径)。


从AlphaGo下围棋可以发现,在面对高度不确定性的环境时,它懂得专注於可能性,探索更多机会,获得全域最优而出人头地。人类可以从AlphaGo学习到与不确定性共舞的能力,就会如同小狮子一般,探索到更多赢家之道。


如何降低风险:向AlphaGo学习「去芜存菁」策略

AlphaGo透过监督学习,训练了决策神经网路(policy network),亦即从网上下载了上百万的业馀围棋游戏,透过监督学习,让AlphaGo模拟人类下围棋的行为,再从棋盘上任意选择一个落子点,训练系统去预测下一步人类将作出的决定,系统的输入是在那个特殊位置最有可能发生的前五或者前十的位置移动。这样会缩小探索范围到5~10种可能性,而不用分析所有的200种可能性了。这种做法称为AlphaGo蒙地卡罗搜寻树(MCTS)的剪枝(pruning)策略,也就是AlphaGo的去芜存菁策略。


这种策略的实践技术,最简单的就是MinMax演算法,它是一种最小化最差情况的演算法,也就是先考虑到可能失败(没把握的)情况,然後将有证据显示最可能失败的方案优先删除掉,采取最低风险的方案,这又称为「去芜存菁」策略。


针对这一点,AlphaGo给人类的启示是:当面临高度不确定性的环境时,宜采取去芜存菁的策略来有效降低风险。与围棋竞赛一样具有高度不确定性的就是战场,就如孙子在《形篇》中叙述:「故善战者,立於不败之地,而不失敌之败也。是故,胜兵先胜而後求战,败兵先战而後求胜。」换句话说,就是:「不打没把握的仗」之意。


藉由AlphaGo领会「不打没把握的仗」策略

前文说明Google的专家们已经把「探索和利用」最隹平衡的技巧(演算法)教给了AlphaGo,让AlphaGo及AlphaGo Zero超越了人类的围棋顶尖高手。因此,我们可以从AlphaGo的策略来领会战争的赢家策略:不打没把握的仗。


俗语说,商场如战场。这意味着AlphaGo的「剪枝」策略和兵家的「不打没把握的仗」策略,都是企业家和一般人可以学习的去芜存菁策略,以便有效降低风险,激发大胆探索的热情和信心,探索出全域的最隹解,成为商场的赢家。


在股市里,巴菲特是众人皆知最成功的投资家。有人问巴菲特:「您买股票的原则是什麽?」他回答说,我只有两条原则:第1条:「不赔钱」,有人继续问他说,那麽第2条是什麽呢? 巴菲特则回答:「永远不忘记第1条」。


这意味着,兵家所说的「不打没把握的仗」就等於「不考虑(删除)没把握的仗」,但是不等於「只考虑有把握的仗」。一样地,巴菲特所说的「不赔钱」就等於「不考虑(删除)会赔钱的」,但不等於「只考虑有稳赚的」。


前文提到了「不打没把握的仗」并不等於「只考虑有把握的仗」,只打有把握的仗,其意谓在现有知识经验之内找出有把握的选项(图3)。



图3 : 在碉堡内寻觅
图3 : 在碉堡内寻觅

现有知识经验就像一座碉堡,「只打有把握的仗」意谓在经验(雕堡)之内找出有把握的选项,而「不打没把握的」则意谓走出经验(雕堡)之外去寻觅可能有把握的选项(图4)。



图4 : 到碉堡外探索
图4 : 到碉堡外探索

其实,有把握的仗(或选项)有些在经验雕堡内,有些在雕堡之外。在雕堡之外的有把握的仗,却常常被现有经验及知识把它们排除掉了。所以,经验「雕堡内」的有把握的仗,加上「雕堡外」的有把握的仗,等於「全部有把握的仗」。此时,不打没把握的仗等於只打(全部)有把握的仗,就意味着把雕堡拆除掉了。因为既有的经验知识有时会成为探索(最隹决策)的阻力。当我们把经验知识雕堡拆除掉,反而海阔天空,风险更低。反之,一直躲在雕堡里从窗户看世界,视野受限,反而危机重重而不自知。


结语

如果您已经能清?分辨出「不打没把握的仗」与「只考虑有把握的仗」之间的区别,您的探索技能将可大幅提升了,因为可以在人生中遇到超越经验值之外的状况时,将其风险降到最低。这时,就可以学习AlphaGo蒙地卡罗搜寻树(MCTS)的剪枝策略,将有明显证据的「没把握的选项」删除,加以去芜存菁(图5)。



图5 : 去芜存菁(删除没把握的选项)
图5 : 去芜存菁(删除没把握的选项)

此时,能找到全域最优者,将会是赢家;而只能找到局部最优者,很可能是成为输家(图6)。



图6 : 到碉堡外探索
图6 : 到碉堡外探索

诸如围棋、战场或商场的高度不确定性环境中,图4的「不确定性」区域通常非常大;因此,全域最隹解(即最优选项)大多会位於图5的「可能有把握的」区域内;所以,通称为赢家的甜区(Sweet Spot)。唯有提升探索不确定性的能力(包括去芜存菁方法),才有信心能探索这个广大的甜心区,找到全域最优选项,成为赢家。


相关文章
强化学习:入门指南
强化学习:入门指南
迎向Maker潮流 台湾准备好了吗?
IC大厂拥抱Arduino
comments powered by Disqus
相关讨论
  相关新品
Platform Manager Devices
原厂/品牌:Lattice
供应商:Lattice
產品類別:Power
Power Manager II Hercules Development Kit
原厂/品牌:Lattice
供应商:Lattice
產品類別:Power
Processor PM Development Kit
原厂/品牌:Lattice
供应商:Lattice
產品類別:Power
  相关新闻
» IC设计领域奥林匹克大会 台湾论文获选量为全球第四
» ST强化智慧制造布局 满足市场状态监测与预测性维护需求
» 强化物联网与工业设备效能 ST推出高效能MCU
» 台湾生医晶片产业链强强联手 打造卵巢癌检测新利器
» 勤业众信估2019 年半导体业总收入5,150亿元 亚太地区稳居最大消费市场
  相关产品
» 笙泉科技推出新一代MG82F6D17 MCU
» 意法半导体生态系统扩充功能支援微控制器以USB-C作为标准介面
» 安森美半导体与NVIDIA合作开展基於云端的自动驾驶汽车仿真
» 高通推出全新单晶片DDFA放大器解决方案
» Microchip推出MPLAB Harmony 3.0为PIC和SAM微控制器提供统一的软体开发平台
  相关资源
» Power Management Solutions for Altera FPGAs

AD


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2019 远播信息股份有限公司版权所有 Powered by O3
地址:台北市中山北路三段29号11楼 / 电话 (02)2585-5526 / E-Mail: webmaster@ctimes.com.tw