为何通用人工智能的发展时机已经成熟
为何我坚信建立强大的通用人工智能是切实可行的?
在短期内能否创造通用人工智能这一问题上,许多人——甚至是许多专业的人工智能研究人员都与我观点相左,我难道没有顾虑吗?
从宏观来看,我一点都不担心这个问题。人类历史上绝大多数的重大创新都曾被普通人和专家们嗤之以鼻。当然,绝大多数有识之士无视各种质疑,坚持自己的想法,最后证明质疑自己的人是错的。历史为我们提供了形形色色的例子,但不会给我们提供现成的答案,我们需要根据新形势和自身的状况做出判断。关于通用人工智能,我已经思考很久了,包括反思过去许多人曾误信达到人类水平的通用人工智能即将出现这一事实,现在我非常相信自己的直觉。
简而言之,下面是我相信先进的通用人工智能即将出现的5大原因。
(1)目前的计算机和计算机网络十分强大,发展势头迅猛。
(2)计算机科学取得了很大进展,提供了形形色色的奇妙算法,许多都被纳入了易于访问的代码库(如我工作时常用的STL、Boost和GSL);人们还设计了很多能够在多处理器机器的分支网络上运行的算法。
(3)机器人技术和虚拟世界发展已相当成熟,人们能够以较低成本将人工智能系统与复杂环境连接起来。
(4)认知科学已取得较大进展,目前我们已基本掌握了人类意识的各部分分别是什么,它们在进行何种活动以及彼此之间如何合作(尽管我们对意识各个部分的内动力学原理,以及它们在大脑中如何运行所知尚少)。
(5)互联网提供了有效的合作工具,既可以分享想法(电子邮件列表、维基、研究论文的网络存储库),又能够协同创造软件代码(例如开源项目使用到的版本控制系统)。
综合考虑这5个因素,分布在各处的专家们可以利用功能强大的计算机上的先进的算法集,在软件体系内为人类认知学建模。我强烈认为,通用人工智能将以这种方式被创造出来。
过去20年,上述5个领域都取得了巨大进步。目前的形势与20世纪60~70年代或者人工智能领域刚刚萌芽的20世纪50年代已大不相同了。
我的第一批人工智能程序是在20世纪80年代左右编写的,当时使用的是一台内存为8 KB,1~2 MHz单处理器的Atari 400计算机。现在我用来运行人工智能软件的计算机有8个3000MHz处理器,内存为96 GB,再加上一台配有4个显卡的Nvidia GPU,每个显卡又有数百个联机运行的处理器。这些设备都不是超级昂贵的超级计算机,它们都有好几年历史了,价格均在1万美元左右。我那简陋的苹果电脑内存为4 GB,有两个2000 MHz处理器。这些量变能够产生质变——现在的计算机拥有较大的内存容量,创造出的人工智能程序蕴含着许多易于读取的知识,这对于开发先进的通用人工智能至关重要。而如今使用的处理器速度较快,使人们可有效利用这些内存。
如今的编程过程也与我初学编程时完全不一样了。当时必须编写自己的所有代码(编程语言编译器和设备驱动程序除外,不过我偶尔也要编写一些驱动程序);而目前,大多数编程过程就是将不同的人编写的零星片段连接起来。保守的程序员因为不需要自己编写算法而常常感到沮丧,因为代码库会提供各种优质算法,友好的界面可以将这些代码迅速接入你原有的代码中。这些算法会定期更新,以与算法和硬件发展保持同步。例如,最近我们一直在改良我们的Open Cog通用人工智能系统模型,使其能够在拥有多个处理器的机器上更好地运行。这项工作比较费力,但比预期要轻松一些,因为我们使用的许多数据结构都是已经更新过的库函数,完全适用于多处理器工作。
20世纪80年代,我在业余时间做了一些游戏编程,需要编写用来给屏幕上的单独像素点着色的代码。早期的人工智能程序包括计算机模拟的“积木世界”,这一过程非常简单,可供使用的积木种类比较有限。目前,我们的Open Cog项目仍然使用一种“积木世界”——不过是将其安装在Unity 3D游戏引擎上,使用开源Unity插件程序,使得Unity类似于目前很流行的《我的世界》(Minecraft)积木游戏。
1996年,我创造了自己的第一个机器人,它看起来像一个沙拉碗倒扣在3个轮子上。它有一个传感器,一个声呐测距仪,有点像不具有吸尘功能的早期版本的Roomba机器人。目前我们的Open Cog项目正与Nao机器人公司合作。
Nao机器人是一种小型的、塑料材质的人形机器人,它们能够四处走动,也会说话,能通过摄像机充当的眼睛“观察”物体。很快我们还将与Hanson Robokind公司合作,该公司也创造了人形机器人,与当前的Nao机器人相比有诸多技术优势,比如采用最新的人工皮肤,使表情非常丰富。这两类机器人目前的售价都在1.5万美元左右。如果预算比较多,可以考虑购买价值50万美元的PR2(Personal Robot 2)机器人,它没有人形外观,但几乎可当作家用服务机器人使用。上述所有机器人都可使用免费的机器人仿真软件进行有效模拟。
20世纪80年代初,我还在上大学时,常在图书馆的心理学专区翻资料,我发现心理学“模糊朦胧、缺乏科学精神”,同时又“极度无聊、枯燥、狭隘”。当然,确实有很多心理治疗师和临床心理学家在思考人类心理活动的整个过程,但他们采用的方法非常主观,与其说是科学,不如说其与艺术和文学的关系更密切。
弗洛伊德、荣格和马斯洛的著作值得一读,但不能指望他们指导我们创造人工智能。显然,他们只是就思想和生活提出自己的看法,更像是柏拉图和尼采等哲学家或中世纪的佛教心理学家。诚然,他们当时研发出了对一些人颇有助益的治疗方法,但这一点许多相互对立的宗教也能做到,而且“有助益”并不是理论准确性的衡量尺度。
另外,实验室进行的心理学实验(不管试验对象是老鼠还是人),似乎关注的都是一些很微观的问题,如识别单词和视觉假象,而没有触及心理方面那些真正有趣的现象。后来在20世纪90年代,我在西澳大学(University of Western Australia)心理系工作了一段时间后开始明白,实验的狭隘性部分归因于个人品位,部分则归因于可操作性,因为设计严密的心理学实验操作起来非常困难。神经影像学的发展一定程度上促进了实验心理学的发展,但其作用是有限的,因为缺少一种能够同时测量大脑许多特定区域的精细瞬时动态的无创脑成像技术。
让我颇感失望的是,没有人尝试过将所有碎片信息整合在一起,以一种全面、科学的方式来探索人类思维的运作,以使人们可以利用心理学、神经科学、计算机建模、语言学、哲学等所有相关学科的资料。
你猜怎么着?这件事成真了,认知科学这门交叉学科问世了!在我的学术生涯中,我参与建立了两个认知科学学位点:一个在新西兰汉密尔顿的怀卡托大学(Waikato University),另一个在珀斯的西澳大学。
当然,认知科学尚未解决关于人类思维的所有问题,作为一门学科,它的成就是好坏参半的。大学的认知科学课程通常被纳入心理系,失去了许多跨学科特色,与认知心理学相差无几。不过,认知科学在全面认识人的心理方面已取得巨大进步。
归根结底,上述所有创新活动——计算机硬件、算法、认知科学和机器人——之所以发展到今天这个水平,很大程度上得益于互联网。云计算、开源软件、可下载的代码库、来自各个国家和学校的科学家们进行跨学科合作,网上的虚拟世界和游戏——所有这一切以及其他一些技术创新都得益于互联网技术。为通用人工智能搭建基础设施的不是某个人或某个小团队,而是正在兴起的“全球大脑”(Global Brain)。
如果统筹考虑计算机硬件、机器人、虚拟世界、算法和认知科学方面取得的成绩,人们就能用系统、可行的方法来创造先进人工智能。首先制作一幅示意图阐释人脑如何运转,展示主要过程以及各部分如何相互作用;接下来查看现有的算法和数据结构,找出一组能够完成认知科学示意图中展示的所有活动的算法和数据结构;最后将它们以可扩展的方式运行于多处理器计算机组成的现代计算机网络上。这是一项大工程,个人无法完成,需要团队合作,团队成员可以通过互联网沟通,借助互联网通信、网上研究论文等方式向团队以外借鉴专业知识。
我们Open Cog团队目前就在从事这项工作。许多其他研究团队也在进行这项工作。我认为强大的通用人工智能最终将这样被创造出来。
当然这并不是唯一的途径。精细的脑仿真技术或许会比我们抢先一步。我会将研究重心放在基于认知科学和计算机科学的综合方法上,因为我的大部分工作都依循这种方法,我认为这种方法在短时间内取得成功的可能性最大。但最终无论哪种技术先获得成功,都将促进另一种技术的发展。通过综合认知科学和计算机科学创造的通用人工智能将有助于揭开大脑之谜。通过脑仿真技术创造的通用人工智能可以开展原本无法在人脑中进行的各种实验,从而使我们开发出包含各种计算机科学成果的、与人脑关联不大的通用人工智能结构。
当然,上文提到的各个技术领域也都有其局限性。我认为目前我们快要接近各类学科发展到足以创造先进的通用人工智能的节点了。10年前,创造先进的通用人工智能或许有可能,不过当时实施起来可能比较困难。而在20年前,要创造通用人工智能就只能说是奇迹了。10年后,随着人们对其理解的深入,人们能够开发出更加先进的工具,那时要创造通用人工智能就更加容易了。20年或30年后,通用人工智能可能成为中学的一门课程。
目前,计算机运行速度很快,内存容量很大,但多处理器和分布系统的编程软件却依旧是一大硬伤。10年后,更加先进的软件库和算法将很容易解决这一问题。
目前,我们已建立了强大的算法和数据结构库,但单纯人工智能方面的算法和结构却需要我们自己建立。MATLAB有助于创建神经网络,但要用一种新的结构创建可扩展的神经网络,就需要我们自己编写代码。你可以下载逻辑规则引擎用来创建推理引擎,但它们一般都规模不大,而且比较僵化死板。无论你偏爱哪种模式,都可能面临一个问题,那就是可用的代码库达不到“标准计算机科学”算法和数据结构需要的代码库水平。这种情况可能发生变化,最终会使比较复杂的人工智能系统操作起来和现在使用网站的后端数据库一样容易。
可喜的是,现在我们不需要耗巨资就可以在大学研究实验室用人形机器人做实验——这些机器人虽然很酷,但仍存在很多局限性。它们一走出室外就会摔倒(“大狗”机器人等可以在室外活动,但是它们并非人形机器人,而且手也不灵活、握不住东西,此外它们还有其他一些局限性)。它们的手也不够灵活。目前Nao机器人的摄像机眼睛视力还不算太好,不过你读到此文时这一问题可能已得到了解决。
目前已开发的视频游戏和虚拟世界远没有现实世界丰富多彩。虚拟世界没有材质,没有动态流体,没有垃圾,不会吐痰,没有花生酱——没有海洋!游戏世界中,当一个游戏角色捡起一个物品时,其实是这个角色手中预编程的一个隐形的“接口”与在物品中预编程的接口产生互动——这个过程不像人用手捡起物品或狗用嘴叼起一根棍子那样灵活自如。机器人仿真软件没有这一限制——但它运行得比较缓慢,也不可伸缩。目前还没有创建出大规模的可同时供多人使用的机器人模拟器。但可以肯定的是,将来这一点一定可以实现。
认知科学令人振奋、发展势头良好,但目前仍是理论强于实践。1991年,我加入了一个非常有趣的研究小组,名为“混沌心理学学会”,致力于探索非线性动力学对智能的影响。目前这个小组依然存在,其中一个小分支主要围绕着弗雷德·亚伯拉罕(Fred Abraham)在佛蒙特举行的有趣的“冬季混沌会议”活动,仍保持着这个小组在20世纪90年代初那种革命精神。这个小组的核心理念之一是智力的许多重要特征不是静态而是动态的——系统动力学的复杂突发模式既不稳定,也不重复,更不随机,而是呈现出更加复杂的时间结构。目前已有越来越多的数据支持这一观点,但主流认知科学还没有认真考虑这一问题。
认知科学至今尚未与非线性动力学交叉融合,很大程度上是因为后者难以测量。目前的神经影像学工具还无法测量大脑中混沌因子的结构和相互作用,心理学实验室也很难就动力学现象开展实验。但随着神经影像学的发展,我们对大脑动力学的认识会逐步加深,认知科学的内容会更加丰富和深刻。
互联网促进了智力、科学和工程上的深度合作,目前来看,互联网在其他方面的功能都没有这么显著。在噪声中辨别信号有时并不是一件容易事,尽管我们目前不需高昂成本就可进行多人视频会议,面对面会议仍然有着较高的语义和情感接收度。布鲁塞尔自由大学的弗朗西斯·海利恩(Francis Heylighen)——随后我们会与他展开对话——正在研发一系列新技术,旨在加速互联网向更加智能的“全球大脑”的转化。这方面的研究发展很快,通用人工智能将从“全球大脑”和其他技术创新中获得发展动力。
随着所有相关领域的发展,通用人工智能研究会越来越容易。因此,如果我想让工作容易一些,我就会等待技术的基础设施成熟,然后开始研究通用人工智能,这可能需要等上好几年。当然,等到基础设施成熟了,其他人也可能捷足先登!
我为何要在乎别人是否会捷足先登?当然我也有自己的骄傲和雄心。自己所在的团队率先创造出通用人工智能的感觉一定很棒!这就好比埃德蒙·希拉里(Edmund Hilary)希望自己成为第一个攀上珠穆朗玛峰的人,当然仅从登山本身来说他也得到了很多快乐。不过我的顾虑是如果通用人工智能发展得太晚,人类面临的风险会更大。
如果我们能尽快创造出先进的通用人工智能,那么“年轻的”通用人工智能脱离人类控制或者被居心叵测的人利用开展大规模破坏活动的概率就会小得多。因为要将刚问世的通用人工智能用于破坏活动(现在或在不久的将来),需要使用许多复杂的、不方便移动的基础设施,同时还需要许多人的参与和配合。换个角度考虑,一旦人们研制出各种更加先进的技术,那么“年轻的”通用人工智能很可能会迅速进行很多破坏活动。考虑到这些问题,我认为我们最好能在各种“玩具”功能都还不够强大时,就将我们的通用人工智能“小宝贝”带到世界上。