人工智能参加初中生考试,最好成绩只答对60% 研究仍在继续

    作者:课课家教育更新于: 2016-02-18 18:02:52

      2012年,IBM的Watson进入了医学院。《纽约时报》宣称,这个人工智能问答机器在克利夫兰医学院开始了一段医学生的生涯。

    人工智能参加初中生考试,最好成绩只答对60%  研究仍在继续_开发_课课家

      当然,这只是一个比喻。实际情况是,临床医生们在帮助IBM训练Watson,好让其能用于医学方面的研究。但是这个比喻并不贴切。3年过去了,这位人工智能老兄依然通不过八年级(相当于中国的初二)的科学课考试,更别说进入医学院了。

      最好的成绩是答对了60%的问题。也就是说,它们失败了。

      这是 Oren Etzioni的说法。他是华盛顿大学的计算机科学教授,也是艾伦人工智能研究所的CEO。这个研究所是由微软的联合创始人保罗·艾伦创立的AI智库。最近,Etzioni和这个非盈利机构举办了一场竞赛,邀请了800个团队的研究者参加,让他们各自建造可以参加八年级科学课考试的人工智能系统。今天,该机构公布了最终的结果:最好的成绩只答对了60%的问题。也就是说,它们失败了。

      对 Etzion来说,这个长达5个月的比赛是对AI现阶段真实状况的一个测试。是的,多亏了模拟人脑神经网络的深度神经网络的崛起,Google、Facebook和微软这些公司在识别图片和语音等任务上取得了与人类水平相近的成果。但是,我们依然无法建造出像人一样思考的机器和能真正对话的AI,甚至没法建造出能通过初中科学考试的系统。

      Watson发展到什么水平了?

      你也许会说,2011年,IBM的Watson在问答电视节目Jeopardy!中击败了人类。确实如此。上个月,Google还开发了一个击败欧洲围棋冠军的AI。但是,这些任务比起科学测试来说,都太简单了。 AI创业公司Skymind 的CEO兼创始人Chris Nicholson说:「Jeopardy!的目的就是找出唯一的正确事实,而八年级科学考试题却是让学生通过若干个步骤来解决问题,并把多个事实组合在一起,才能最终获得理解。」

      艾伦研究所的科学测试题可不简单。它要求机器理解基本概念,并不只是问「眼睛哪个部分接收光线」这种题,而是围绕多个概念的复杂问题,例如进化的适应性。比如,其中一个问题是:「一些鱼成年后生活在咸水中,但却在淡水中产卵。它们这种能生存于不同环境中的能力是[什么]的例子?」

      测试中还有多选题——尽管现在已经有了先进的深度神经网络等技术,但机器依然无法回答这些问题。Etzioni 说:「自然语言处理、推理、拿起一本科学教科书并理解其中的意思——这些挑战更加困难。要回答正确这些问题,需要大量的推理。」

      然而,大多数参赛者都是学术界人士、独立研究者和计算机科学家,他们都不属于那些科技巨头公司。但是Etzioni并不认为科技巨头的表现会更好,尽管他们拥有大量顶级的研究者。他说:「很有可能,如果Google这样的公司来参加比赛,并祭出他们的『重型武器』,可能会拿到更高的分数。但是,『群体智慧』是很强大的,在我们的比赛中有许多极具天赋的参赛者。」Chaim Linhart同意上述说法,他是一名来自以色列的研究者,也参与了这次比赛。他说:「我认为大多数比赛中的获奖模型都是非常适合测试数据集的,所以,即使是同一个领域内的公司也不一定具有显著的优势。」

      那么,Watson呢?根据Etzioni的说法,IBM拒绝参加这次比赛(IBM说,他们的聚焦点已经不在参加这样的比赛了,而是转向了「真实世界」的应用。)但是,Watson或许并不能立竿见影地赢得考试。Watson非常擅长 Jeopardy!,因为那就是它建造的目标。但是今天,Watson已经变成了一个商标,代表IBM所提供的一系列AI工具,而这些工具并不一定是最先进的。

      回到研究工作

      Etzioni的八年级科学考试实际上是一个自然语言理解的测试——机器如何才能理解人类说话和写作的自然方式。IBM的服务确实包括了自然语言处理,但是自Watson以来,这个技术已经从深度神经网络得到了长足的进步。正如你可以通过大量猫图来教神经网络识别猫一样,你也可以用大量电子格式的对话来教它理解自然语言。比如说,Google就使用神经网络建造了一个探讨人生意义的聊天机器人。

      但是,这个聊天机器人并不具备完全的说服力。最先进的技术永远不是基于单项技术。丹麦研究者Benedikt Wilbertz是另一位参赛的研究者,他说:「到目前为止,并没有一劳永逸的通用方法。这个比赛需要属于它自己的工具组合,包括机器学习和其他AI工具。」确实,艾伦研究所这项竞赛中的顶级参赛选手不仅使用了深度学习,还使用了其他多项技术。但最终的结果依然很不完美。

      Doug Lenat运行着一个名为Cyc的AI项目。他说,教今天的机器参加科学考试并没有多大意义。我们的目光应该聚焦在更长远的地方。他说:「我一向认为,通过八年级科学测试并不是AI应该聚焦的目标,我们应该聚焦在真正智能的项目上。否则,最终的结果就是,机器通过了考试,但是你却只触摸到了理解的皮毛。」换句话说,就算一台机器通过了八年级科学考试,它也不见得有多么聪明。

      所以,我们甚至还没有造出一台能够看起来智能的机器呢。不过没关系,研究仍在继续。

    标签: 计算机开发

课课家教育

未登录