乐读窝

科技之巅 2

乐读窝 > 外国小说 > 科技之巅 2

探索未来与利用过去的权衡

书籍名:《科技之巅 2》    作者:麻省理工科技评论


强化学习的过程需要解决的一大难题,是在对未知的“探索”(exploration)和对已知的“利用”(exploitation)之间进行抉择[12]  。对这个选择困境,现任Deep  Mind研究员的大卫  ·席尔瓦(David  Silver)曾在英国UCL(University  College  London,伦敦大学学院)的强化学习课程上举了一个简单易懂的例子:如果你的任务是去你最喜欢的餐厅就餐,那么挑选曾经去过的饭店中你最爱的一个,显然是个稳妥又简便的选择。不过如果总贪恋过去,你又如何知道那些没有去过的餐厅中有没有自己更喜欢的呢?

强化学习任务中,机器代理在每个环境状态下都必须采取行动,因此选择行动的方式也就尤为重要。这些方法中最简单的是贪婪选择(greedy  selection),即每次都选择最高的行动—状态值(这是一种纯粹“利用”的方法)。当然,为了寻求探索与利用的平衡,学者们还开发了更复杂的选择机制,如Є-贪婪选择算法——与传统的贪婪方法一样倾向于选择最高的行动—状态值,不同之处在于机器代理有较小的概率Є去选择未探索过的行动;玻尔兹曼选择(Boltzmann  Selection)则是另一种平衡方法,此种算法不仅吸纳了概率的概念,在选择时还会考虑状态—动作的相对值,即与其他可能性比较之后,如果差值极高则倾向于选择高的那一个,如果两个行动值差距不大,那么选择的概率也就近似[13]  。

强化学习的应用

虽然国际象棋、围棋等脑力运动代表着人类智慧的堡垒,不过人们更在乎的还是强化学习技术该如何落地,在现实生活中找到用武之地。其实,如今的强化学习技术已经迈出了游戏竞技的小赛场,在我们的生活中找到了更多“接地气”的应用场景。它能改进自动驾驶汽车的表现,能让机器人学会抓起以前从未见过的物体,可以帮助品牌投放广告,也可以用于资源管理、降低能耗。

“实践出真知”的机器人

提到机器人,首先映入脑海的可能是电影《星球大战》中外形呆萌的R2-D2、BB-8,或是波士顿动力(Boston  Dynamics)那些善于奔跑、跨越障碍的四足机械巨兽,也可能是DARPA挑战赛上那些迈着步子在赛场上执行模拟救援任务的人形机器人。我们几乎都会自然而然地忽略掉机器人圈中两个非常重要的成员——自动驾驶汽车和工业机器人。对前者,虽然媒体的报道从未间断,但是四轮的车型让人难以将它与“人”联系起来;而后者,不仅报道更少,它们单一古板的机械手臂造型似乎也达不到我们对机器人的期许。

不过实际上,相比那些外形惹眼的拟生机器人,貌不惊人的自动驾驶汽车和工业机械手臂却与我们的生活有着更紧密的联系,它们也正是强化学习技术的主战场。

自动驾驶汽车:学会应对复杂的路况

仅仅是通过实验、实践,计算机便可以自己学习到程序员们从未教导过的事情。

2016年年末,在巴塞罗那的一次人工智能会议上,播放了一段令人热血沸腾的驾驶模拟视频。在实时计算机模拟的画面上,几辆自动驾驶汽车在一条四车道虚拟高速公路上展开了一场看起来疯狂至极的演习。这几辆车一半在尝试从右侧车道移向中间,而另一半则希望从左侧向中间并线。即便对于人类的老司机来说,遇上这样的情况有时也会乱了阵脚,不过这些自动驾驶汽车却仍然能够在这种混乱的情况中做到精确的控制,成功地完成了这个棘手的任务。

在如此复杂的路况下进行自动驾驶,这本身已令人惊讶。不过更让人意外的是,这些自动驾驶汽车的行为并非通过常规的软件编程方式完成的。它们是通过反反复复的练习,自己学会了如何流畅、安全地并线。在平时的训练过程中,根据车辆在行驶中的表现,控制软件会自动进行操作,尝试对指令进行微调。当然,这一过程绝非一蹴而就,大多数时候,由于并线动作过慢,车辆之间会相互干扰,引发混乱。不过每一次并线成功后,系统都会加强对这些动作的偏好。没错,这里所应用的技术便是强化学习。

自动驾驶汽车虽然发展迅速,但是一些让人始料不及的复杂路况,对它们来说仍然是不小的挑战。比如涉及与人类司机互动的情况,或是行驶到环岛、十字路口时。如果我们不想承担不必要的车祸风险,也不愿因为机器人过分犹豫而造成道路堵塞,那么我们就需要让它们获得更细致的驾驶技能,比如如何超车。

巴塞罗那人工智能大会上的高速并线模拟,来自Mobileye。这家以色列的人工智能公司,为包括特斯拉在内的十几个汽车品牌提供车辆安全系统。在播放了这些并线视频后,Mobileye技术副总裁沙伊·沙莱夫-施瓦茨(Shai  Shalev-Shwartz)又向观众们展示了自动驾驶汽车面临的其他挑战,比如耶路撒冷一个繁忙的交通环岛、巴黎闹市区某个疯狂的路口,以及印度某条极其混乱的街道。“如果自动驾驶汽车总是循规蹈矩地遵守交通法规,那么在上下班高峰的时候,自动驾驶汽车可能会因为等待并线而白白浪费一个小时的时间。”沙伊说。

Mobileye计划在2017年的晚些时候,与宝马和英特尔合作测试这一软件。谷歌、优步等科技公司也会有研究团队应用强化学习的方法训练自动驾驶汽车。

在斯坦福大学人工智能专家艾玛  ·  布伦斯基尔(Emma  Brunskill)看来,强化学习正在越来越多的领域中得到应用。不过她认为,这一方法尤其适合自动驾驶汽车,这是因为驾驶的过程是一种“良好的决策序列”。如果程序员们需要事先试想行驶过程中所有可能会发生的情况,然后再逐一对它们进行编码加以应对,那么这一领域的进展将会缓慢许多。

智能工业机器人:机械臂被装上了“大脑”

20世纪50年代,美国人乔治  ·  戴沃尔(George  Devol)提出了工业机器人的概念并申请专利。后来这些机械手臂得到了长足进步。它们的出现大幅提升了工厂的自动化程度,并降低了人力成本,代替人类工人在高温高压等极端环境或污染、放射性场地中完成指定的工作。目前包括富士康、飞利浦在内的全球顶级制造厂商,都大量采用机械手臂进行加工、组装,甚至逐步打造出全自动化的“灭灯”(lightout)工厂。

工厂中的工业机器人需要快速、精准地完成任务。不过在生产线上那些熟练的机械手臂的背后,即便是抓起物品这样看似简单的小动作,往往也需要程序员投入大量的时间,反复修改、实验。当工厂的生产任务发生改变时,修改、调整机械手臂的预设程序的成本也同样不容小觑。

不过随着强化学习技术的到来,这些隐藏在“无人”工厂背后的程序员的工作负荷也可以被大幅降低。

2015年年底的东京国际机器人展览会上,日本发那科(Fanuc)展示了该公司与日本机器学习公司Preferred  Networks合作开发的新型智能机械臂。只需给这些工业机器人布置简单的小任务(如从盒中挑拣物品等),然后等上一晚的时间,第二天清晨它就基本可以“摸索”出一套自己的解决方案。令人惊奇的是,它的背后并没有强大的专家系统,也没有一群加班熬夜、精通机械的程序员。“大概用上8小时左右的时间,它的拣拾准确率就能达到90%以上,这和专家预先编码好的效果几乎没有差别。”Preferred  Networks研究人员描述道[14]  。

这些新型工业机器人正是通过深度强化学习技术训练自己学会执行新的任务。拣拾物品的过程,需要机器人做到手“眼”(摄像头)协调。这些机械手臂会在任务过程中录制视频,每次拣拾完成,根据效果它们会得到不同的奖励值,而无论每次任务是否成功完成,这些机器人都会记住这些物体的样子。这些知识不断积累,从而细化了那些控制机械臂动作的深度学习模型(或大型神经网络)[15]  。2016年8月,谷歌研究团队也发表了论文[16]  ,介绍了通过大型卷积神经网络、强化学习等技术,帮助机器人依靠单目图像学习抓握物体过程中手“眼”协调的方法。有趣的是,在经过大量数据的学习以及反复试错后,谷歌的机械手臂不仅能够完成抓握,还会自动对软物体和硬物体采用不同的动作策略。

训练的过程中,深度神经网络可以控制并调整机械手臂的动作,通过反复实践,强化那些更接近最终目标的动作(如拾起物品),从而让工业机器人在不断试错的过程中对自己重新编码。在深度强化学习的帮助下,这些在工厂中全年无休的工业机器人们,拥有了属于自己的“大脑”。

互联网营销及推广

网络营销与推广,是强化学习的另一个舞台。搜索引擎广告常采用竞价排名机制,广告主需要购置关键字并根据点击等进行付费。由于广告客户预算有限,因此无法支持长期地将大量资金用于广告投放而不顾及回报。良好的出价策略(bidding)应该使广告业务实现可持续增长(即收入高于成本)。但大多数广告主希望获得可持续的增长,这间接导致了广告界的竞争。按照不同的粒度划分,比如每个小时、每天、每周,整个广告环境的竞争状况会构成一个复杂网络。基于整个网络的状态和不同状态之间的关系,选择最优出价或出价组合,是广告主的主要目标。

强化学习技术正好可以满足广告竞价的需求。为了实现最终目标——ROI(投资回报率)>1或其他KPI(关键绩效指标),具体的应用方法是根据当前的各种环境状态,来训练对应的神经网络,在这个神经网络的基础上进行强化学习的训练,利用该模型对未来出现的不同行为、变量、状态进行反馈,以求最优的结果[17]  。

换言之,在广告投放过程或整个活动的生命周期中,通过训练承载有不同阶段状态的模型,根据奖励结果(收入或KPI)的反馈,模型就能调整广告投标价格,以优化该模型下的广告投放的效果。所有状态都可以被反映到神经网络,由权重和偏差来反映不同状态之间的关系。这种关系是动态变化的,也正因为如此,借助强化学习所建立的模型,能够根据实时数据、状态做出对应的预测和调整。这一点与自动驾驶汽车有异曲同工之妙。

优化资源配置,降低能耗

从计算机集群的作业调度,到云计算中的虚拟机部署,再到数据中心的冷却控制,资源管理的问题几乎无处不在。对资源进行合理的优化调节,一直以来都是学者和业界关注的重要问题。解决这一问题的传统方法,是为简化的资源分配问题、建造启发性模型,然后在实验过程中反复测试、调整,直到得到更好的表现[18]  。

不过,由于设备、操作与环境三者之间存在非线性的复杂联系,仅依靠传统的优化算法以及人类工作人员的经验,很难将这一问题解决得更好——系统无法快速适应内外部的变化,而操作员也不可能给每一个可能的情况加以编码。除此之外,由于每个数据中心都有自己独特的架构和环境,因此在某个中心表现出色的预设优化方案,在其他地方的表现可能并不会令人满意。

这样一来,我们就需要一个智能的框架来理解环境和过往经验,并依此采取行动——这又走到了深度强化学习的地盘。在2016年的年度总结[19]  中,Deep  Mind  宣布利用机器学习帮助谷歌数据中心冷却账单下降40%。谷歌数据中心支持着该公司旗下You  Tube、Gmail、搜索引擎等服务,对于这样的资源能耗大户来说  ,这样的数字意味着极大的成本节约。

其他的科技巨头也展开了依靠经验自动调整优化资源配置的研究。2017年1月,微软团队发表论文,介绍了利用强化学习完成资源管理的解决方案——Deep  RM。实际上,资源调配问题本身非常适合采用强化学习的方法实现:第一,这些系统作出的决定通常是高度重复的,为强化学习提供了丰富的训练数据;第二,强化学习能够为复杂系统和决策策略建模;第三,这一系统能够为缺乏精确模型的环境提供奖励信号(比如资源节约会得到正向奖励);第四,通过不断的学习,强化学习能够在不同的条件下,针对特定的工作负载进行优化[18]  。