张长水长江 清华大学自动化系张长水教授:图像识别与机器学习

2018-04-26
字体:
浏览:
文章简介:2016年6月6日,由清华海峡研究院.北京清华工业开发研究院.数据科学研究院共同主办的"清华人工智能论坛"在清华大学成功举办.本次论坛邀请了

2016年6月6日,由清华海峡研究院、北京清华工业开发研究院、数据科学研究院共同主办的“清华人工智能论坛”在清华大学成功举办。本次论坛邀请了清华人工智能领域的权威专家和校友产业界代表相聚清华,学术泰斗与产业嘉宾思想碰撞,共同为人工智能发展问诊把脉。6月8日,清华大学自动化系教授张长水也在清华大学发表了精彩演讲。整理演讲内容如下:

清华大学自动化系张长水教授:图像识别与机器学习

图像识别是人工智能领域非常核心的一个课题,同时从研究的角度来看,机器学习也是人工智能下的一个研究方向。

图像识别的概念及应用

图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。这些研究可以应用在多个领域,比如无人驾驶汽车,如果汽车上有一个带有摄像头的辅助系统,能够识别这个场景下所有的情况,包括车道线、交通标识、障碍物等,这样能够让人们驾驶汽车更方便、更轻松。

另外,一些相机在拍照时,在用户按下快门到一半时,相机就会去捕捉这个图像的人脸在什么地方,并进行对焦,使这个图像能够让人更清楚一点。

图像识别的难点

一是视点变化很多。当我们对同样一个物体拍照的时候,因为视点不同,得到的图像外观是不一样的。所以对同一个物体从不同角度看,外观会非常不一样。

二是尺度问题。物体在图像中近大远小,这会给图像识别带来一定的难度。

三是光影的变化一直是计算机视觉特别关心的一个问题,同样一个人在不同光影下看起来判若两人。

四是在复杂背景下,找到某一个人拄着拐杖,或者找到一个戴帽子的人难度很大。

五是遮挡。遮挡是计算机视觉特别关心的一个难点。比如在某个图片里,熙熙攘攘的人群中,如何判断人群中被遮挡人物的性别,对于计算机而言还是有一定难度。

六是变形。非钢体在运动时会产生变形。

图像识别的发展历史

视觉领域做图象识别,物体的识别研究已经有几十年历史了,但是直到几年以前,有影响的图像识别产品不多,一个是OCR,一个是指纹,还有一个就是人脸检测。

图像识别最开始是从单一的物体识别做起。我们的客观世界既复杂、又多样,如何进行识别?首先从简单的问题做起,这也是科学研究的一般方法:从简单的问题着手。比如从做积木的识别入手,因为积木有很规范的几种形状。

在20世纪80年代后期到90年代期间,机器学习有了飞速的发展,出现了一些了不起的研究成果,包括:支持向量机方法、AdaBoosting方法、计算学习理论等。这些成果出现使得机器学习和识别的发展步伐大大向前迈进。

2002年以后,华人女科学家李飞飞开始用一个新的思路进行图像识别。他们希望设计一个统一的框架做图像识别,并且这个统一的框架能识别成千上万种物体。另外,该团队还希望机器学习领域的出色成果可以用在图像识别上,并且借鉴文本分析里的“词袋”(bag of words)的方法用于图像识别。

在自然语言处理里面,有一个任务是对文本分类,文本分类中就采用了“词袋”方法。例如,要识别一张人脸,只需要看图像里有没有鼻子、眼睛、嘴巴和下巴,只要这些内容都包含,就可以说明这是一张人脸。你可能会觉得这很简单。

如何把“词袋”方法用于图像识别?在识别图像时,可以把图像中的“高频词”放在一起来识别图像,这里的“词”就是小的图像块。实际上,图像中的“词”不是这么直观,而是图像小块。它是很底层的图像块,非常小,3×3、5×5或者7×7大小的图像块。

2006年,Hinton在Science上发表了一篇文章介绍深度学习方法,有人建议Hinton用他们的方法测试物体识别问题。结果在2012年的比赛中,他们获得了第一名,成绩为85%的识别率。

面临的困难和今后要研究的问题

尽管图像识别已经做的非常好,但还面临一定的困难。例如,人们在做图像识别时,通常要标注数据,然后用这些图像对机器进行训练。标注数据是很头疼的一件事,需要花费很多时间和财力。数据库就要对每个物体用方框框起来,并给出一个类别标号。

目前,还是有很多问题没有得到解决,现有技术只是对图像做了解析,识别出这张图中哪些部分是鸟、哪些是树,但是没有对这个图片做更深入的理解。但这个算法并不知道这些物体之间的关系是什么,而人们在理解一张图片时,理解物体之间的关系非常重要。

尽管都在谈图像识别,但是背后很多方法都离不开机器学习,这需要计算机视觉科学家和专业人士共同努力,把成果转化为产品,使人们的生活更加智能化。

(本文整理自清华大学自动化系教授张长水在“清华人工智能”论坛上的演讲,未经本人确认)