中新网12月15日电 作为计算机视觉领域一年一度的“奥赛”,ImageNet堪称计算机视觉发展的风向标,其中每一项竞赛成果都对学界和业界有着深远的影响。在美国东部时间2015年12月10日刚刚更新结果的第六届ImageNet图像识别大赛上,由香港中文大学多媒体实验室欧阳万里教授和 SenseTime(商汤科技)闫俊杰等多位科学家联合组成的CUvideo团队在视频物体检测竞赛中取得了检测数量、检测准确率两项世界第一的成绩。
CU-Video:视频物体检测难度最高 创新算法领跑世界
作为当下计算机视觉领域最受关注的挑战,ImageNet已经成为了衡量深度学习技术发展的重要指标:大量研究表明利用深度模型在竞赛中学习得到的特征可以被广泛应用到其它数据集和各种计算机视觉的问题;而由 ImageNet 训练得到的深度学习模型,更是推动计算机视觉领域发展的强大引擎。
在ImageNet竞赛中,每隔一段时间就会增加一项学术和工业界公认的最难的任务。2013年曾新增加了图像中的物体检测任务,当年最好的算法只达到了22.6%的准确率。本次ImageNet竞赛新增的视频物体检测是难度更高的检测任务。2015年7月,在接受凤凰网采访时,香港中文大学多媒体实验室王晓刚教授曾表示,“计算机视觉在视频领域还有大量的工作要做,但视频相比图像要更为复杂,信息量也更大,难度将提升一个数量级别。”
SenseTime的原创图像物体检测技术可以以毫秒级的速度识别出图片中的人类、动物、家具、食物、车辆等物体。
此次参加ImageNet,CUvideo 团队首次向世界证明了港中文多媒体实验室和SenseTime在这个高难度领域的卓越实力。结果显示,CUvideo 团队所开发的视频物体检测系统结合了DeepID-Net和Faster RCNN 两种系统,在30种检测任务中取得了28种的胜利,总体准确度高达68%,在数量和准确度两项比拼中均以压倒性优势击败了来自伊利诺伊香槟大学、香港科技大学、中国人民大学、东京大学、韩国国家科学院等团队,达到了世界第一的水平。
在其他ImageNet 检测任务中,CUimage 和 CUvideo 团队取得了四个世界第二和四个世界第三的成绩,在多个任务中力压谷歌、因特尔、高通、腾讯等工业界巨头的研究团队,保持了团队一以贯之的业内领军地位。
团队稳定且优异的表现来源于深厚的技术积累。纵观ImageNet 比赛发展史,“物体检测”项目是ImageNet里最具挑战性的任务,由于难度较大,在2013年时,计算机的检测率只有22.6%。到2014年,谷歌以43.9%的检测率赢得比赛,而由香港中文大学欧阳万里、王晓刚和汤晓鸥教授带领的DeepID-Net团队首次参加ImageNet大规模物体检测任务比赛便以40.7%的优异战绩位居第二名。几个月后,DeepID-Net团队将此成绩大幅提高至50.3%,达到了全球最高的检测率。这一成果以论文形式发表在2015年国际计算机视觉与模式识别大会(CVPR)上,是当时世界上在ImageNet挑战中最高记录。
王晓刚教授认为,大公司团队可能会通过增加计算资源尝试更多的网络结构和参数组合,不断提升成绩,而CUvideo 和CUimage 团队通过创新、优化模型和流程,可以达到同等的甚至更好的研究成果;在学术团队与SenseTime 这样的公司团队合作的过程中,双方更可以取长补短,整合资源,冲击更好的成绩。
SenseTime:将计算机视觉“内功”与市场紧密结合
作为一家专注于算法开发的计算机视觉公司,SenseTime赋予了计算机视觉感知和认知的能力,让计算机能像人一样获取、分析、理解各种视觉信息,并与自然界进行交互。为此,SenseTime始终致力于联合高等院校的精英人才,共同实现推陈出新、颠覆传统的目标。SenseTime CEO徐立曾对媒体表示:“人工智能最核心是大脑,深度学习就是造这个大脑,因此真正懂得如何制造深度学习神经网络很关键。目前国内从事核心技术的企业还不多,大部分企业是在做应用。”
SenseTime核心研发团队成员均来自国内外名校、微软、谷歌等科研院所。随着算法的逐渐成熟,SenseTime 与工业界的合作也愈发紧密,现已与多家机构在科研、商业领域开展合作,小米、华为、京东、银联、美图、科大讯飞、Nvidia等均是其合作伙伴。
刚刚从韩国国家科学院(KAIST)加盟SenseTime 的戴宇荣教授在接受《科技日报》采访时就表示,科技公司与高校实验室的合作能让世界领先的技术真正为世人所熟知、应用,同时还能够通过整合公司资源加速核心技术的开发,对工业界和学术界都大有裨益。
此次与港中文多媒体实验室组队参加视频物体检测比赛,SenseTime 展示了在此全新领域世界领先的研发实力,表明了对于此领域市场前景的强大信心。
应用:研发、应用并肩前行 计算机视觉引爆全新市场机遇
近几年,计算机技术日趋成熟,多种基于深度学习的人工智能算法已进入实用阶段。港中文多媒体实验室和SenseTime 合作开发的计算机视觉产品正在潜移默化中改变着诸多生活应用场景:
SenseTime市场负责人表示:在安防、交通等领域,计算机可以从一群人中迅速识别出特定的个体,找到特定的车辆等关键信息,从而进行视频智能分析和对有效信息的结构化数据提取;在互联网金融领域,图像检测是远程开户、刷脸支付等应用背后最为关键的核心技术;而在更广阔的商业领域,此次ImageNet 着重推出的视频中物体检测技术将有机会彻底颠覆互联网视频行业:以互联网广告为例,企业可以利用这项技术以视频内容本身为依据植入相关广告,减少广告对内容的影响,更加智能、精准地推送广告信息。
从最为基本的视觉感知出发,辅以不断完善的领先技术,计算机视觉产业仍有无穷的市场潜力可以挖掘。
在未来,SenseTime将与港中文多媒体实验室等世界领先的科研机构合作,依托领先的技术内功,完成更多极具挑战的任务,拓展更为广阔的计算机视觉应用市场。(中新网IT频道)