扎克伯格今年给自己的挑战是,在家里开发出一个人工智能管家,如同《钢铁人》电影中的“贾维斯”。现在扎克伯格的“贾维斯”已经能利用口语及文字讯息沟通,操控家中的灯光、空调、音乐和保安了。

Facebook创办人扎克伯格(Mark Zuckerberg)今日发表一篇博文,公布2016年自我挑战的成果。

我2016年的个人挑战是,建造一套简单的人工智能管家--像《钢铁人》里的“贾维斯”(Jarvis)。

100多小时打造“贾维斯”

扎克伯格称今年花了大约一百多个小时,利用闲暇时间,开发了“贾维斯”系统,现在已经建立好简单的AI,可透过手机、计算机与“贾维斯”沟通,操控家中的电器、音乐及保安。“贾维斯”能用文字讯息或口语沟通声控开关灯、依个人喜好播放音乐、自动识别门口的访客并发表通知、观察女儿在家的动态,并在起床时自动播放中文课程等。

“贾维斯”智能管家使用的人工智能技术,包括自然语言处理、语音识别、物体及脸部识别以及强化学习,以Python、PHP、Objective C语言编写。

扎克伯格于博文中表示,原本预期透过这项挑战,学习AI技术与工具,但过程中同时也更了解家庭自动化的概况,及亲身接触Facebook工程师使用的各种内部技术工具。文中他也分别就家庭系统连接、自然语言处理、视觉识别、讯息机器人等方面,提出一些实作心得、目前限制与未来趋势。

家庭物联网目前的困难

扎克伯格文章中提到,实作时由于不同设备系统都使用不同语言与协议,要先写程序处理,才能着手建构AI。此外,目前多数电器也还没有连网。要使“贾维斯”这样的智能管家能多方应用,需要更多设备连接,业界也需要开发通用的API与标准,使设备间能相互通讯。

自然语言的复杂性

扎克伯格让“贾维斯”理解自然口语有两步骤,首先要让AI能以文字讯息进行沟通;接着利用语音转文字技术,就能直接用语音沟通。

不过,人类语言其实相当复杂。除了利用关键词理解指令,扎克伯格很快发现,AI还需进一步学习同义词才能理解(如家人房(family room)和客厅(living room)两个词,在扎克伯格家是指同样的空间)。

对任何AI来说,环境脉络线索也很重要。同样一句“开灯”或“打开我的办公室的空调”,由扎克伯格或由太太Priscilla Chan说出口,可能是指完全不同的空间。

自然语言在播放音乐方面也很复杂,因为系统要处理大量关键词,指令范围也更大。扎克伯格举了个有趣的例子:同样是“play X”(「播放X」)的指令,“play someone like you”、“play someone like Adele”、“play Adele”,看似微小的差异,意思却完全不同,分别是播放Adele的“someone like you”这首歌、请系统建议与Adele类似的音乐、以及建立一个Adele的歌曲列表来播放。透过正反馈系统,AI能够学习区别差异。

此外,扎克伯格也提到,虽然语音识别系统近来已改进,但仍然不足以理解多人对话的语音。语音识别依赖听与预测,所以结构化的语音仍比非结构化的对话更容易理解。

视觉与脸部识别的应用

扎克伯格在自家门口安装数架摄影机,并建立简单的服务器,进行人脸侦测与识别处理。识别身分后,会检查列表,确认是不是预期的访客,决定是否放行,并通知扎克伯格。

计算机视觉也可以拿来判断女儿何时醒来,就可以开始播放音乐或华语课程;也可以判断人正在屋内何处,AI就能正确响应像“开灯”这样缺乏环境线索的指令。AI系统拥有的线索信息越多,整体就越聪明。从扎克伯格的心得看来,视觉识别对于提供语言表面的指令之外的环境线索相当有帮助。

文字讯息使用得比预期多

为了能从任何地方透过手机与“贾维斯”进行沟通,扎克伯格利用自家的Messenger架构(messenger.com/platform),开发贾维斯对话机器人,发送文字或语音,就会立即转发到服务器处理、执行命令。

出乎扎克伯格意料的是,相较于语音,使用文字讯息沟通的情况比预期多得多,主因是简讯比较不会干扰旁人,“贾维斯”传来的讯息也可以等想看时再看。

扎克伯格提到,喜欢文字通讯大于语音通讯的偏好,符合在Messenger与WhatsApp观察到的状况,全世界的文字讯息比语音通讯量增长更快。未来AI产品不能仅专注于语音,还需要私人讯息接口。利用像Messenger的平台,也比从头开发新的应用软件更好。扎克伯格的经验认为,我们未来都会与像”贾维斯”这样的机器人沟通。

“我们的内部工具跟基础建设做得很棒!”

扎克伯格看来相当自豪于Facebook软件基础工程和内部工具,并强调今年透过自己亲身开发AI的经验发现,Facebook程序代码数据库组织极有条理、容易搜寻,无论是脸部识别、语音识别、对话机器人框架或iOS开发,以及各种开源资源工具,都使”贾维斯”的开发节省非常多时间,也逐一罗列Facebook所提供的各种资源。

扎克伯格考虑过开放“贾维斯”的程序代码,只是目前系统紧密绑定到自己的家庭、电器和网络配置,若将来建立更抽象一层的家庭自动化功能,也许就会释出。

重点在于“教会AI自己学习新东西”

虽然这项挑战将进入尾声,扎克伯格表示将会继续改进“贾维斯”。扎克伯格也提到,他的长远目标是摸索如何教导人工智能自行学习新技能,而不是必须教它执行特定任务。若多花一年时间在这个挑战上,他会更聚焦在学习“学习”是如何运作的。他提到:

某种程度上,人工智能比我们想的更近、也更远。AI越来越接近能做到比多数人预期的更强大的事:驾驶汽车、治疗疾病、发现行星、理解媒体。这些都将对世界产生巨大影响,但我们仍在找寻真正的智慧是什么。

自然语言、脸部识别、语音识别等,其实都是相同的模式识别技术的变体,也就是向计算机展示许多例子,以使其能准确识别,不过这些都还是专门用来解决特定问题,而不是通用的人工智能系统。我们仍不清楚“学习”是如何运作的,以及如何建立一个可以自行学习新技能的系统。

今天扎克伯格也接受媒体FastCompany独家采访,并公布一小段“贾维斯”智能管家的影片。

扎克伯格也宣布将在几周内,分享他下一年度的个人挑战。

所以,“贾维斯”的声音听起来怎么样?

可能有人还记得,前一阵子扎克伯格在Facebook上问大家:贾维斯的声音该用谁的好呢?还因此“钓出”为电影《钢铁人》贾维斯配音的保罗·贝特尼(Paul Bettany),甚至连饰演东尼·史塔克(贾维斯的主人)小罗勃·道尼(Robert Downey Jr.)也来留言说“选我、选我”!因此扎克伯格今天还卖了一个关子,表示明天他将会释出贾维斯的影片,到时候大家就会知道贾维斯的声音会是谁的了。(来源:bnext)