11月26日消息,据《财富》网站报道,Google Brain团队的联合创始人杰夫?迪恩在接受《财富》杂志的采访时谈到,研究者在推动人工智能时面临着的挑战是如何把监督学习和非监督学习结合起来,他还解释了强化学习这一AI技术的概念、应用范畴以及一些有趣的具体研究实例,例如,强化学习在棋盘游戏、设置空调旋钮、读取街景图中的所有商业名称和标志、分析卫星图像和医疗成像中的应用。
当我们使用谷歌搜索引擎或用谷歌地图查询路线时,幕后实际上有个“大脑”正在运行,它负责提供相关的搜索结果,或确保谷歌地图的用户在驾驶时不会迷路。
不过,它不是人脑,而是Google Brain(谷歌大脑)研究团队。该团队已创立了1000多个深度学习项目,在过去数年中,这些项目让YouTube、翻译和Photos等许多谷歌产品的性能得到了大幅提升。利用深度学习技术,研究者可将大量数据输入到名为神经网络的软件系统中,这些神经网络能够比人类更快地识别出海量信息中的模式。
在接受《财富》杂志采访时,Google Brain的联合创始人兼领导人之一杰夫?迪恩(Jeff Dean)谈到了最前沿的AI研究、其中涉及的挑战以及AI在产品中的应用。
以下为访谈主要内容:
研究者在推动人工智能时面临着什么挑战 ?
人类学习大多源自无监督学习,人们只是观察着周围的世界,并理解着周边事物的表现。而机器学习十分活跃主动,但一些相关的问题还未彻底解决,因此还不属于监督学习的范畴。
无监督学习是指通过观察和感知学习,如果计算机可以自己观察和感知,那么能否有助于解决更复杂的问题?
人类视觉主要以无监督学习的方式得到训练。一个小孩在观察世界时偶尔会得到一个监督式信号,别人会说,“这是一只长颈鹿”或“这是一辆车”。而孩子的内心世界自然会对他获得的少量监督式数据做出响应。
我们需要对监督学习和非监督学习展开更多组合操作。但就目前大多数机器学习系统的工作状况来看,我们还未真正实现那个阶段。
能否解释一下强化学习( reinforcement learning )这种 AI 技术?
强化学习背后的理论是,在不知道下一步采取什么行动时,可先采取一种你认为可行的行动,再观察结果如何,进而摸索一系列行动可能产生的结果。例如,在棋盘游戏中,对对方的棋法做出回应后,最终经过一系列训练,你就可以获得某种奖励信号。
加强学习是,把奖励或责备与你所采取的所有行动相关联,并逐步获得奖励信号。目前在某些领域这一技术确实很有效。
强化学习面临的挑战是,可能采取的行为范畴相当宽泛。在现实生活中,人类会采取各种各样的行动。而在棋盘游戏中,可下的棋步是有限的,游戏规则会起到一定的约束作用,奖励信号也十分明朗——赢或输。
如果目标是研磨一杯咖啡,那么可采取的行动有很多可能性,奖励信号就没有那么明确了。
但我们仍可以把步骤分解清楚。例如,在研磨咖啡时,我们可能学到,在冲泡之前,咖啡豆若没有完全磨碎,泡出的咖啡味道就会很糟糕。
增强学习往往需要探索。因此在物理环境中应用这一技术有点困难。我们开始尝试在机器人中应用这一技术。当机器人必须采取某种行动时,它会受到行为种类的限制。在计算机模拟中,我们可利用大量计算机、获得数百万个范例,应用起来就变得容易多了。
谷歌是否会在核心搜索产品中融入强化学习技术?
谷歌在核心产品中应用强化学习主要是通过DeepMind(谷歌在2014年收购的AI初创公司)与数据中心操作人员之间的协作来实现的。他们利用强化学习来设置数据中心的空调旋钮,同时极大地节约了消耗的功率。强化学习技术能够探索怎么有效地设置旋钮,以及以不同方式旋转旋钮时需如何响应。
通过强化学习,工作人员发现原来这18个旋钮可以这样设置,此前他们根本不会这么考虑。而且,事实证明,虽然这种设置看起来很奇怪,但运行得相当不错。
强化学习应用于哪类任务更为适合?
上述例子中,强化学习技术的旋钮设置方案运行得不错,因为每次可执行的操作并不多。只有18个旋钮,我们把旋钮调高调低就行了。结果很容易观察到。在适当的温度范围内,如果功率使用率得到改善,就可获得奖励信号。从这个角度来看,这几乎可称得上是一个理想的强化学习案例。
更为棘手的例子或许是它在搜索结果中的应用。对于不同的查询请求,可呈现的搜索结果比旋钮设置要宽泛得多,而且奖励信号有点难办——用户对搜索结果是否满意,这不好判断。
如果用户对搜索结果不满意,你要怎么提供奖励信号?
这有点棘手。这说明了,强化学习还不够成熟,还不足以在无约束的、奖励信号不那么明显的环境中实现真正的运作。
把研究成果应用于人们每天使用的实际产品时,你们面临哪些最严峻的挑战?
很多机器学习解决方案以及对这些解决方案的研究可在不同的领域中重复使用。例如,我们与地图团队合作展开了一些研究。他们想要读取出现在街景中的所有商业名称和标志,以便更好地了解街道的具体环境,例如,这条街上开了比萨店还是其他什么店。
事实证明,为了在街景图中识别文本,我们可以提供一些已经圈出文本的示例数据,训练机器学习系统形成一种检测出图像文本像素的行为模式。
这是一个通用的功能,地图团队可使用这个功能来分析卫星图像,例如,用来识别美国或世界各地的屋顶来估计太阳能电池板的安装位置。
同样的模型也可用于医学成像分析上。例如,分析医疗图像,找到图像中与临床相关的信息。(灵越)