专栏的下一件大事凯瑟琳休姆马修泰勒文时青......《空降高管不靠谱》摘录

管理类 日期 2022-3-24
专栏

AI的

下一件大事

凯瑟琳·休姆(Kathry Hume)马修·泰勒(Matthew E. Taylor) | 文时青靖 | 编辑

界级围棋冠军李世石(Lee Sedol)在著名的2016年系列赛第二场

比赛中,被Deepmid的阿尔法狗(AlphaGo)所走的第37步棋打世乱了阵脚。他惶惑之至,结果花了将近15分钟才做出反应。

这一步棋对于其他久经沙场的围棋选手来说也很奇怪,有评论员认为

这是一步错棋。事实上,这是人工智能算法学习某种东西的经典例子,

这种学习似乎不仅仅只是在数据中进行模式识别——学习一些战略

性甚至创造性的东西。实际上,除了给算法提供过去围棋冠军下棋的

例子之外,Deepmid的开发者还通过让阿尔法狗与自己进行数百万

场比赛来对其训练。在这些比赛中,系统有机会探索新的举动和策略,然后评估它们是否提升了表现。通过这一切试错,它发现了一种令世

界上最优秀的棋手都惊讶不已的下棋方式。

如果说这种具有创造能力的人工智能看起来不同于大多数企业在专栏

AI的

下一件大事

凯瑟琳·休姆(Kathry Hume)马修·泰勒(Matthew E. Taylor) | 文时青靖 | 编辑

界级围棋冠军李世石(Lee Sedol)在著名的2016年系列赛第二场

比赛中,被Deepmid的阿尔法狗(AlphaGo)所走的第37步棋打世乱了阵脚。他惶惑之至,结果花了将近15分钟才做出反应。

这一步棋对于其他久经沙场的围棋选手来说也很奇怪,有评论员认为

这是一步错棋。事实上,这是人工智能算法学习某种东西的经典例子,

这种学习似乎不仅仅只是在数据中进行模式识别——学习一些战略

性甚至创造性的东西。实际上,除了给算法提供过去围棋冠军下棋的

例子之外,Deepmid的开发者还通过让阿尔法狗与自己进行数百万

场比赛来对其训练。在这些比赛中,系统有机会探索新的举动和策略,然后评估它们是否提升了表现。通过这一切试错,它发现了一种令世

界上最优秀的棋手都惊讶不已的下棋方式。

如果说这种具有创造能力的人工智能看起来不同于大多数企业在应用机器学习时最终使用的聊天机器人和预测模型的话,那是因为事实确实如此。像阿尔法狗这样的下棋系统使用的不是利用历史数据生

成预测的那种机器学习,而是强化学习——一种擅长优化任务的成

熟的机器学习技术。为做到这一点,一个代理程序会随着时间的推移

采取一系列行动,并且每个行动依据的都是前一个行动的结果。简单

地说,它的运行是通过尝试不同的方法,并弄明白——强化——那

些似乎比其他方法更有效的方法。有了足够的尝试,你就可以强化自

己突破目前最好方法的方式,并发现一个新的最佳方式来完成你的任

务。

然而,尽管强化学习被证明十分有用,但它主要用于学术界以及

视频游戏和机器人等小众领域。奈飞(Netflix)、Spotify和谷歌等企业

已经开始使用它,但多数企业依然滞后。然而,机会无处不在。事实

上,每当你必须按顺序做出决策的时候——人工智能从业者称之为

顺序决策任务——都有机会部署强化学习。

来看看现实世界中的许多问题,它们需要决定如何随着时间的推

移而采取行动,哪些地方存在需要最大化(或最小化)的东西,哪些

问题你从来没有明确给出正确的解决方案。比如:

• 你应该如何将数据流量传递到不同的服务器,或如何决定关闭

数据中心中的哪些服务器?

• 当你在模拟构建一个分子来开发一种突破性的药物时,你如何

确定接下来要添加哪种试剂?应用机器学习时最终使用的聊天机器人和预测模型的话,那是因为事实确实如此。像阿尔法狗这样的下棋系统使用的不是利用历史数据生

成预测的那种机器学习,而是强化学习——一种擅长优化任务的成

熟的机器学习技术。为做到这一点,一个代理程序会随着时间的推移

采取一系列行动,并且每个行动依据的都是前一个行动的结果。简单

地说,它的运行是通过尝试不同的方法,并弄明白——强化——那

些似乎比其他方法更有效的方法。有了足够的尝试,你就可以强化自

己突破目前最好方法的方式,并发现一个新的最佳方式来完成你的任

务。

然而,尽管强化学习被证明十分有用,但它主要用于学术界以及

视频游戏和机器人等小众领域。奈飞(Netflix)、Spotify和谷歌等企业

已经开始使用它,但多数企业依然滞后。然而,机会无处不在。事实

上,每当你必须按顺序做出决策的时候——人工智能从业者称之为

顺序决策任务——都有机会部署强化学习。

来看看现实世界中的许多问题,它们需要决定如何随着时间的推

移而采取行动,哪些地方存在需要最大化(或最小化)的东西,哪些

问题你从来没有明确给出正确的解决方案。比如:

• 你应该如何将数据流量传递到不同的服务器,或如何决定关闭

数据中心中的哪些服务器?

• 当你在模拟构建一个分子来开发一种突破性的药物时,你如何

确定接下来要添加哪种试剂?• 如果你想卖出大量股票,你如何在一天内谨慎地小批卖出,以尽量减少股价下跌的幅度?

如果你是企业领导者,可能有许多你想自动化或优化的流程,但

这些流程太过动态化,或者有太多的例外情况和极端例子,无法编程

到软件中。通过试错,强化学习算法甚至可以学会解决最动态化的优

化问题——为在快速变化的环境中实现自动化和个性化开辟了新的

途径。

强化学习能有何作为

许多企业将机器学习系统视为“预测机器”,并根据交易模式或

网站分析行为等数据将算法用于预测现金流或客户流失等情况。这些

系统通常使用所谓的监督机器学习。利用监督学习,你通常可以做出

预测:股票可能会在接下来的六个小时里上涨四个点。然后,在你做

出预测之后,你得到了实际的答案:股票实际上上涨了三个点。该系

统通过更新输入数据——比如同一股票的过去价格,或许还有其他

股票的过去价格和各种指标——与产出预测之间的映射来学习,以更好地匹配实际答案,这被人称为基本事实。

然而,对于强化学习,没有正确的答案可以借鉴。强化学习系统

产生的是行动,而不是预测——它们会建议最有可能最大化(或最

小化)某一指标的行动。你只能观察自己在某项任务上做得如何,以

及它是否完成得比以前更快或者效率更高。因为这些系统是通过试错• 如果你想卖出大量股票,你如何在一天内谨慎地小批卖出,以尽量减少股价下跌的幅度?

如果你是企业领导者,可能有许多你想自动化或优化的流程,但

这些流程太过动态化,或者有太多的例外情况和极端例子,无法编程

到软件中。通过试错,强化学习算法甚至可以学会解决最动态化的优

化问题——为在快速变化的环境中实现自动化和个性化开辟了新的

途径。

强化学习能有何作为

许多企业将机器学习系统视为“预测机器”,并根据交易模式或

网站分析行为等数据将算法用于预测现金流或客户流失等情况。这些

系统通常使用所谓的监督机器学习。利用监督学习,你通常可以做出

预测:股票可能会在接下来的六个小时里上涨四个点。然后,在你做

出预测之后,你得到了实际的答案:股票实际上上涨了三个点。该系

统通过更新输入数据——比如同一股票的过去价格,或许还有其他

股票的过去价格和各种指标——与产出预测之间的映射来学习,以更好地匹配实际答案,这被人称为基本事实。

然而,对于强化学习,没有正确的答案可以借鉴。强化学习系统

产生的是行动,而不是预测——它们会建议最有可能最大化(或最

小化)某一指标的行动。你只能观察自己在某项任务上做得如何,以

及它是否完成得比以前更快或者效率更高。因为这些系统是通过试错来学习的,所以当它们能够快速尝试某一行动(或一系列行动)并获得反馈时,它们才能产生最好的成效——一个每天执行数百个行动

的股市算法是一个很好的用例;在五年的时间里优化客户的终身价

值,其间仅有不定期的互动时刻,这就不是好的用例。值得注意的是,

由于它们的学习方式之故,它们不需要堆积如山的历史数据——它

们会一路实验并创建自己的数据。

因此,它们可以用来自动化一个流程,比如用机械臂将物品放入

运输集装箱;或者优化一个流程,比如决定何时、通过何种渠道联系

一个未付款的客户,以最大程度要回收入、最低程度花费精力。不论

是这两种情况中的哪一种,设计系统使用的输入、行动和奖励都是关

键——它会精确地优化你对其进行编码以实现优化的内容,任何含

混不清的东西它都处理不好。

谷歌利用强化学习来帮助数据中心降温一事是一个很好的例子,

说明这种技术可以如何得到应用。数据中心中的服务器会产生大量热

量,特别是当它们彼此距离接近时,而过热会导致IT性能问题或设备

损坏。在这个用例中,输入数据是气压和温度等关于环境的各种指标。

采取的行动是空气处理单元中的风扇转速(它可以控制空气流量)和

阀门开度(用水量)。该系统包括一些遵守安全操作指南的规则。它

还针对空气如何流经中心编制了顺序,以将温度保持在指定水平,同

时最大限度地减少能源使用。数据中心环境的物理动态十分复杂且在

不断变化;天气的变化就会影响温度和湿度,每个物理位置通常都有来学习的,所以当它们能够快速尝试某一行动(或一系列行动)并获得反馈时,它们才能产生最好的成效——一个每天执行数百个行动

的股市算法是一个很好的用例;在五年的时间里优化客户的终身价

值,其间仅有不定期的互动时刻,这就不是好的用例。值得注意的是,

由于它们的学习方式之故,它们不需要堆积如山的历史数据——它

们会一路实验并创建自己的数据。

因此,它们可以用来自动化一个流程,比如用机械臂将物品放入

运输集装箱;或者优化一个流程,比如决定何时、通过何种渠道联系

一个未付款的客户,以最大程度要回收入、最低程度花费精力。不论

是这两种情况中的哪一种,设计系统使用的输入、行动和奖励都是关

键——它会精确地优化你对其进行编码以实现优化的内容,任何含

混不清的东西它都处理不好。

谷歌利用强化学习来帮助数据中心降温一事是一个很好的例子,

说明这种技术可以如何得到应用。数据中心中的服务器会产生大量热

量,特别是当它们彼此距离接近时,而过热会导致IT性能问题或设备

损坏。在这个用例中,输入数据是气压和温度等关于环境的各种指标。

采取的行动是空气处理单元中的风扇转速(它可以控制空气流量)和

阀门开度(用水量)。该系统包括一些遵守安全操作指南的规则。它

还针对空气如何流经中心编制了顺序,以将温度保持在指定水平,同

时最大限度地减少能源使用。数据中心环境的物理动态十分复杂且在

不断变化;天气的变化就会影响温度和湿度,每个物理位置通常都有独特的结构和设置。强化学习算法能够注意到难以用公式和规则描述的细微差别。

在Borealis AI,我们与加拿大皇家银行(Royal Bak of Caada)的

资本市场业务部门合作,开发了一个名为Aide的强化学习型交易执

行系统。Aide的目标是在指定的时间窗口内执行客户的股票委托

(购买或出售一定数量的股票),寻找相对于指定基准而言损失最小

的价格。由于一次买入或卖出太多股票会对市场产生不利影响,因此

这成为一项连续的决策任务:任务是在一天中按顺序行动,以尽量减

少价格影响。

股市是动态的,当今天的市场状况与昨天不同时,传统算法(交

易员使用多年的基于规则的算法)的表现可能会参差不齐。我们觉得

这是一个很好的强化学习机会——它在清晰性和动态复杂性之间取

得了恰当的平衡。我们可以清楚地列举Aide可以采取的不同行动,

以及我们希望优化的回报(尽量减少Aide实现的价格与市场成交量

加权平均价格基准之间的差异)。股票市场波动迅速,会生成大量数

据,这使得算法能够快速迭代学习。

我们让算法通过无数的模拟来实现这一点,然后将系统实时推入

市场。最终,Aide被证明能够在新冠疫情初期市场波动较大的时期

表现良好——这些情况对于预测性人工智能来说尤其困难。Aide能

够适应不断变化的环境,同时继续保持与基准目标的近距离。独特的结构和设置。强化学习算法能够注意到难以用公式和规则描述的细微差别。

在Borealis AI,我们与加拿大皇家银行(Royal Bak of Caada)的

资本市场业务部门合作,开发了一个名为Aide的强化学习型交易执

行系统。Aide的目标是在指定的时间窗口内执行客户的股票委托

(购买或出售一定数量的股票),寻找相对于指定基准而言损失最小

的价格。由于一次买入或卖出太多股票会对市场产生不利影响,因此

这成为一项连续的决策任务:任务是在一天中按顺序行动,以尽量减

少价格影响。

股市是动态的,当今天的市场状况与昨天不同时,传统算法(交

易员使用多年的基于规则的算法)的表现可能会参差不齐。我们觉得

这是一个很好的强化学习机会——它在清晰性和动态复杂性之间取

得了恰当的平衡。我们可以清楚地列举Aide可以采取的不同行动,

以及我们希望优化的回报(尽量减少Aide实现的价格与市场成交量

加权平均价格基准之间的差异)。股票市场波动迅速,会生成大量数

据,这使得算法能够快速迭代学习。

我们让算法通过无数的模拟来实现这一点,然后将系统实时推入

市场。最终,Aide被证明能够在新冠疫情初期市场波动较大的时期

表现良好——这些情况对于预测性人工智能来说尤其困难。Aide能

够适应不断变化的环境,同时继续保持与基准目标的近距离。

声明:部分内容来自互联网,如侵权请联系删除!
友情:思诺速记

相关推荐

管理类 / 日期:2024-03-11
理解那个东西,但是我已经发现,他的信息距离和我越来越近了。因为他不再看《舟山晚报》,我也不再看《新民晚报》了,我们看的都是腾讯新闻App,看新闻头条,他也看我的朋友圈。所以信息高速一旦被打通了,一、二线和三、四线城市之间的认知壁垒也逐渐被打破了。要掌握70%~80%的都市消费,其实就是掌握两亿中产阶层。像分众这样的公司,之所以能够覆盖78%有家庭汽车的、80
管理类 / 日期:2024-03-11
实现资产最大限度的增值。一些合伙人可以通过“股权转让”等资产重组方式退出。二、退出如何结算当合伙人退出公司后,其所持的股权应该按照一定的形式退出。一方面对于继续在公司里做事的其他合伙人更公平;另一方面也便于公司的持续稳定发展。而合伙人退出之后,如何结算也是一个问题。一般采用三种方法:估值法、参考相关法律、另外约定。估值法,即当合伙人中途退出,退出时公司可以按
管理类 / 日期:2022-3-24
6 一直向前看,不满足于当下和已有成绩告知周围的人后会激发潜意识将你的目标细分为中间目标,行动计划尽量在第二步就基本完成。只是这里还有一点希望大家可以做到,那就是把自己的目标告诉他人。可能有人不想让其他人知道自己的目标,或者想先不告诉别人,等到完成之后再公开。但如果公开目标,完成的概率会意想不到地提升,这里列举3个公开目标的效果。第一是能激发自己的潜意识,让
管理类 / 日期:2022-3-24
5.2.3“六脉神剑”第三式:假设这里的假设并不是凭空构想,而是在发现一个问题或者看见一个产品时,从不同方面进行假设,主要包括两个层次,即“为什么是这样,而不是那样?”“如果是那样,又会产生怎样的结果?”假设更容易激发破坏性创新能力,更利于创新型组织的创建。要提出具有价值与效用的假设,你可以进入“问题风暴”,通过观察发现问题的所在,并提出相关假设;你还可以培

推荐列表

热门标签