娱乐

计算机视觉的黄金时代:机遇与挑战_4

字号+ 作者:新闻小编 来源:未知 2019-11-15 15:05 我要评论( )

:10月22日,来自国内外人工智能专家及行业领袖齐聚世界机器人大会,在其专题论坛2016中国智能机器人产业高峰论坛上......

  10月22日,来自国内外人工智能专家及行业领袖齐聚世界机器人大会,在其专题论坛2016中国智能机器人产业高峰论坛上展开一场别开生面的机器人和人工智能主题演讲,并带来精彩互动交流。

  了解到还有很多粉丝不能到场参会,小编特地整理了参会嘉宾微软亚洲研究院视觉计算组组长、资深计算机视觉专家华刚的报告速记,让大家一睹为快。

  华刚:大家下午好!今天报告题目是计算视觉的黄金时代,机遇与挑战。如果我们看到这个题目,关键字有几个,第一个是计算机视觉,第二个黄金时代,第三个第四个机遇挑战。

  基于这四个关键字给大家讲讲我的理解和看法。什么是计算机视觉?学术的观点定义领域的话,计算机视觉我们从图象和视频中间提取数值和符号计算机系统。我们说一个愿景能让计算机像人类一样看到并理解图象,我们认为是一个黄金时代回顾一下计算机视觉真正发展的历史。基本上来讲计算机视觉历史第一个萌芽阶段,1955年到1979年的时间,这个领域还是相对比较新的领域。在55年我们对于计算机视觉提出一个展望,在MIT一个暑期人工智能会议上。我们在三四个月内能不能把计算机视觉工作解决了,直到今天还没有完全解决。中间经历了很多发展,在70年代麻省理工真正成立研究小组,开设第一门计算机视觉课程。

华刚 微软亚洲研究院视觉计算组组长、资深计算机视觉专家

  从今天来讲,我们看到会是非常简单一个图片,是一些像块状的物体,这是MIT第一篇博士论文。称之为萌芽阶段,大家处于一种探索状态,这个领域怎么走?早期期望说三个月把这个问题解决,甚至40年之后我们仍然没有把这个问题解决。计算机视觉真正发展一个非常坚持的基础,应该是从21世纪到80年代的时间,这中间发生很多时间,在80年代初光学支付(音译)识别系统,应用于商业应用邮局。美国邮局大家利用信件交流方式很多,包括公司各种商业应用,涉及到邮件分检的问题。

  这中间发生了几个里程碑事件,包括三维视觉的理论体系基本完备了。到90年代初人脸和语音识别,统计学识别方法已经引入到计算机视觉上了。计算机视觉真正爆发时间,我认为从21世纪10年代中,涉及到几个方面的因素。第一个我们进入互联网时代,对于图象数据积累,以及我们对硬件技术的发展,我们对摄像机前端这种硬件设备技术也是在日益增进,包括微软代表3D设想传感器带来的新的实际应用。

  如果要从这三个阶段中找一个比较代表性的节点,我认为在爆发阶段是深度学习模型,它为什么会对计算机视觉带来本质上的影响和变化。我们更广泛看计算机视觉应用的话,在这些年产生非常广泛的应用,包括三维图象的建模,包括监控,以及人机交互产生非常大的影响。为什么处在计算机视觉黄金时代?我认为是一个更多的工作,CVPR是我们计算机视觉的联会。当我自己还是一个博士生的时候,去参加CVPR,只有两家公司招聘,一家公司(桑娜福音译),一个是西门子。到2016年的时候,有一个网站上千条的工作信息,我们真正这个技术开始进入产业界。

  这个CVPR有更多人参与到这个年会,CVPR今年年会已经到3500人参加这个会议,5年前就是1000人左右。最重要我们有更多资金注入进来,现在博士毕业生很轻易拿到一个100万的年薪工作,今年CVPR将近100家公司占驻这个CVPR,我们看到越来越多的资金流向这个领域。我自己作为CVPR 主办成员之一,我们在会场设计上我们希望会达到5000人的规模。

  这里一个朋友,讲的一句话,在他36年的从事计算机视觉研究一个经历中间,从来没有看到我们这个领域像现在这么好过,他说我们在计算机视觉第一个黄金时代,以前没有过。他自己现在也在亚马逊作为一个保密状态工作,在帮亚马逊做一些事情。黄金时代我们实际上有一些什么样的机遇?为什么这个阶段产生爆发性的状态。

  前面两位老师提到一些,我们拥有了更多数据从各个方面来的。第二个方面,刚才山老师提到我们计算机视觉很多方法,可能在2、30年前被学习过,当时计算能力还不够。第三个就是深度学习模型,在微软研究院同事做的传感网络,已经做到1001层,在7、8年前不可想象。下面我就展示一下微软研究院在这个阶段我们一些小小的成果。

  我们微软认知服务,我们已经在上面发布了非常多的算法API,包括计算机视觉方面、语音方面、自然语言处理方面包括知识库方面,还有搜索库方面。人脸识别方面API,我们在两年以前人脸识别API已经有非常有成功的。Windows hello。我们最近另外一个工作,怎么在图象和风格之间做转换,左边这个是所谓风格的图,右边是所谓内容图,我们这个应用算法一个目的,我怎么能够把右边这张图渲染成左边图的风格,实际上我们有一些最新基于深度学习一个方法,我们真正试图去理解怎么描述这种图象的风格。

  这里给看到更多的结果,当固定内容图的时候,我们可以把它渲染成不同的风格,用同一个网络。我们说计算机视觉黄金时代机遇在什么地方?我参加他80岁生日一个论坛,非常好的朋友也算他的学生,马里兰一个大学教授,他就讲一个观点,因为我们讲计算机视觉带来的影响?第一个观点,深度学习模型就像一个和面机一样,你把很多东西放进去它出来非常好吃的东西。它是一个非常好的东西,我们要利用好它。它是一个让众生变的平等的东西。我雇了两个高中生,编程能力很强,在计算机视觉方面很低,不管你有一年的经验,还是多年经验,让它飞固然是好的模型。因为涉及到很多观点,媒体朋友不要随便转载这些观点,让大家有一个体会。

  涉及到黄金时代机遇什么?实际上把这个技术门槛降低不少,现在很多人不需要经过10年的训练能去做一些计算机视觉应用,或者是技术。所以我认为这实际上是产业界一个机遇。产业界很少有人去愿意走40步的。实际上从产学研角度来讲,这个学界应该还是更多去开创一些新的研究领域,能够做一些更好的事情。

  黄金时代另外一个机遇就是创业、创业,我们很多老师已经创业了,像山老师,像朱珑一直学术方面走的比较多的意图,当我看到山老师公司的时候,是一个中英文混合体,山老师到底是看他还是看他,我不太明白。一个是人脸识别,一个是自动驾驶,人脸识别目前离实际应用最近一个,而且各个方面产生实际应用也是非常好的过程。我们遇到挑战什么?其实这么多年计算机视觉一直试图大家问自己一个问题,什么是计算机视觉杀手级应用?它是人脸识别吗?还是安防监控,还是辅助医疗图象诊断,我想大家没有回答,更多是摸索和探索。至于自动驾驶,我们还是保守推动这个行业,不要寒冬。我们还要小心谨慎一样,不要让杀手级应用真正变成杀手应用。

  另一方面,这个问题不仅在中国存在,其实在美国很多大学里面教授,做计算机视觉方面很多进了公司,或者自己出来创业。大家问一个问题,这些教授创业和进了产业界,谁来培养下一代的学生,这个问题值得思考。

  最后自己关于计算机视觉思考,这三个方面。第一个方面,为什么深度学习对计算机视觉好用?实际上大家如果在计算机视觉领域,计算机视觉本质是解不适定的问题。第二个深度学习本质上提供了用前馈的模型解反问题的框架。这是一个非常在高层面上一个理解的解释,本质上解这种不好的反问题的时候,我们有了反问题的框架。我自己对整体上的方法非常欣赏,但是自己还有一些领域的知识放在里面。

  第二个,计算机视觉发展到今天,40年前从人工智能科学研究共同体分离出来有一个原因,40年前人工智能,包括语音识别,包括计算机视觉技术没有成熟。2010年计算机视觉、自然语言处理,语音识别这些技术发展到一定程度,天下大势,分久必合,合久必分,大家思考一个问题,最终人工智能方面技术我们怎么能够集合到一起,为综合人工智能系统服务。

  最后讲,计算机视觉产学研一个互动。这个问题很简单,本质上认为所谓互动三个要素一个流通,研究人员、资金和技术,这个方面做的比较好,大家可以关注一下微软亚洲研究院博士生和学生培养的工作,我们计算科学的研究十几年历史,跟各个高校联合博士培养一个项目,这个学校的学生可以在我们研究院做五年的学习,拿到博士学位。包括给学校提供资金上的支持,在座有很多出来创业或者是产业界,还是想我们在人工智能产业上我们从中得到一些东西,还想到回馈给这个领域。谢谢大家!

      本网提醒:本网站转载【计算机视觉的黄金时代:机遇与挑战_4】文章仅为流传信息,交流学习之目的,其版权均归原作者所有;凡呈此刻本网站的信息,仅供参考,本网站将尽力确保转载信息的完整性,如原作者对本网站转载文章有疑问,请及时联系本网站,本网站将积极维护著作权人的合法权益。

转载请注明出处。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 解析我国变频器业发展面临的挑战_6

    解析我国变频器业发展面临的挑战_6

    2019-11-15 10:35

  • 工业机器人应用别整虚的  赚钱才是硬道理_6

    工业机器人应用别整虚的 赚钱才是硬道理_6

    2019-11-14 10:40

  • 亮点:26个颠覆世界的3D打印产品(图文)_3

    亮点:26个颠覆世界的3D打印产品(图文)_3

    2019-11-13 15:05

  • 假的终究不是真的,影帝级别的钞级大骗

    假的终究不是真的,影帝级别的钞级大骗

    2019-11-13 15:05

精彩导读