解读：Facebook 智能聊天设备背后的AI技术

承认吧，每次开启视频聊天，我们总得花上至少一分钟调整设备位置，才能确保大家不是在盯着对方的双下巴和大鼻孔。

从这个角度来看，Facebook 在去年 10 月发布的智能聊天设备 Portal Plus 提供的解决方案不乏创新。

简单来说，Portal Plus 采用的智能摄像头可自动追踪用户，确保你不会走出可视范围，而且还会根据用户离设备的实际距离来调整音量。也就是说，即使你聊天聊到一半，忽然起身去房间另一端拿个东西，对方也不会因此看不到或听不清你讲话。

▲ 图片来自 Gizmodo

这种体验，就跟面前有个专人为你拍摄一般。实际上，为了做到这个效果，Facebook 的工程师们的确找来了好莱坞的专业摄影师做咨询学习。

和很多智能手机的相机算法不同，Portal 背后的算法追踪的不是人脸，而是人的姿势和动作。

早在 2017 年，Facebook 的人工智能团队就已经建立了一套名为 Mask R-CNN 的计算机视觉模型，可追踪人类 2D 动作姿态。Portal 将这套算法精简优化至小型移动设备芯片也能跑起来的 R-CNN2Go 模型。

在这个阶段，虽然镜头已经懂得跟人走，但视频看起来还是“僵硬又死板”。于是乎，Portal 团队找来了好莱坞援——摄影师、电影摄影技师和纪录片制作人，一方面学习被广泛接受的摄影“基本功”，另一方面，则是抛出在家庭聊天情景下可能遇到的刁钻角度，并看专业人士们会如何处理。

▲ 图片来自 lovevfx

“我觉得团队算是成功让镜头拍出比较成熟的构图，就是那种得有点技术，以及对人的行为有所了解才能做出的决策”。Rafa Camargo 说道，她是 Facebook 硬件业务副总裁，同时也是 Portal 项目的负责人。在加入 Facebook 前，Camargo 是 Google 的创新部门 ATAP（Advanced Technologies and Projects）的成员。

对于发展人工智能来说，“自然”这一标准的门槛其实很高，因为那意味着机器（或者是背后的工程师）找到了让模拟成果“像人”的关键。

2018 年的 Google I/O 大会上，打电话到理发店预约的 Google Assistant 曾以语气词“Mm-Hmm”惊艳全场，而现在 Portal，则借用了好莱坞在观众身上培养出的观影习惯来打造“自然”感。

它给人的感觉很自然。其实他们在电视和电影中采用这种构图，也是因为在这些年里，大家发现这就是人类大脑喜欢的方式。

除了要做到“自然”，Portal 团队在设计模型时还做了一些很有意思的选择题。

譬如：一家人在和奶奶视频聊天，突然间，孩子突然从妈妈的怀抱里跳了起来，开始到处跑，最后还去了房间里很暗的角落。这样的情况下，Portal 要不要继续追踪孩子呢？

有人从偏理性的角度出发，觉得，如果小孩跑得太快，追踪他会让画面效果不好，所以还是别跟拍小孩了。但当 Portal 团队奶奶类用户咨询这个问题时，大部分人都说，用视频聊天大多都只为了见见镜头另一边的人，尤其是孩子。

▲ 图片来自 Facebook

Portal 团队最后还是为用户留下了手动控制权，他们既可以用自动模式，跟拍所有进入镜头的人，或者，选择专注在特定人身上，忽略其他人。

虽然在这里，Portal 将选择权交给了用户，但我们不能忽视的是，现在一些智能手机的相机甚至视频聊天会默认“美颜”，用户看不到原始模样；而 Netflix 这类流媒体服务也默认只提供推荐内容，想看原始的完整列表还要“秘密代码”。

这些算法服务的本质，是用户“缴械”了选择权，很多时候这不止于决策权，同时还有获取“原始”内容的权利。

也许这也是为什么，当谈论到人工智能服务，“信任”是用户选择服务方的关键之一。

这不仅牵涉了隐私权，还关乎我们在让谁帮我们做选择。经过过去两年的种种丑闻，Facebook 这个的名字成为Portal“扑街”其中一个主要原因，同时，这个名字也让一般人对安全性特别敏感。

无可否认的是，Facebook 在 Portal 背后的算法对视频聊天体验的确带来了全新的提升，或者只需换个名字，它就能火起来。Facebook 团队也有计划将 R-CNN2Go 这套模型推广到手机应用等产品上。

多个调查指出，大部分美国人都不知道 Instagram 和 WhatsApp 是 Facebook。

展开全文

安装智能头条APP 看数小智行业点评

为您推荐