青年创业帮是一个专业为创业者提供学习交流的创业网站,主要为网民提供创业项目、创业信息、创业商学院、创业辅导等商机资讯、助您时刻掌握最热行业动态。

当前位置:主页 > 科技创业 > 华为视觉研究路线图:三大挑战,六项计划

华为视觉研究路线图:三大挑战,六项计划

来源:青年创业帮作者:简万贵更新时间:2020-10-04 20:08:20阅读:

本篇文章4700字,读完约12分钟

雷锋。com ai技术评论:在昨天的华为开发者大会上,华为首席科学家陈雷发布了全场景ai计算框架的mind孢子开源框架,引起了业界的广泛关注。毕竟,仅在一周内,中国就出现了一些计划。(jittor、清华)、megengine、mind孢子(Huawei)三大深度学习开源框架可谓“2020年是深度学习框架的井喷。”

华为视觉研究路线图:三大挑战,六项计划

然而,在昨天的会议上,华为发布的另一个重要计划似乎被忽略了,那就是田琦博士领导的“华为计算愿景基础研究进展及华为愿景计划发布”。

田琦博士对计算机视觉领域并不陌生,他毕业于清华大学电机工程系,随计算机视觉之父黄煦涛教授前往伊利诺伊大学香槟分校学习。在2018年加入华为之前,他一直在圣安东尼奥的德克萨斯大学教书。他是2016年多媒体领域十大最具影响力的学者之一,并于当年被选为ieee研究员。

华为视觉研究路线图:三大挑战,六项计划

田琦博士加入后,华为诺亚方舟在计算机视觉领域取得了巨大进步。就论文而言,2019年iccv、2019年cvpr分别有19篇和29篇精选论文,2020年cvpr有多达33篇论文,不考虑在iclr和icml等算法峰会上发表的论文。

在这次“研究进展计划发布会”上,田琦博士将自己的研究内容梳理成三大方向,即

数据:如何从数据中挖掘有效信息?

模型:如何设计一个高效的视觉识别模型?

知识:如何表达和储存知识?

在此基础上,他提出了华为诺亚的六大视觉计划:数据冰山计划、数据立方体计划、模型高度计划、模型瘦身计划、万物预览计划和虚拟现实集成计划。

每个计划听起来都很合理。逻辑是什么?他们代表什么?

田琦博士在演讲中将计算机视觉面临的挑战分为三个主要方向,即数据、模型和知识表达。(为什么没有计算力?毕竟,这不是有远见的人能决定的。事实上,计算能力的考虑包含在模型中)

在信息时代,做计算机视觉实际上面临着一件尴尬的事情,那就是互联网上有大量的视觉数据,远远超过了人类处理的极限;给数据贴标签,不管它有多大,在可视化大数据中只是沧海一粟。如何从海量数据中挖掘出有效的信息仍然是一个巨大的挑战。

华为视觉研究路线图:三大挑战,六项计划

华为在这方面提出了两个典型场景,一个是如何使用生成的数据来训练模型;第二是如何对齐多模态数据。

首先是生成数据,华为在这一领域投入了大量研究。具体来说,它分为三个部分。

首先,自动数据扩展。这体现在iclr 2020中发布的"抗辩式自动起诉"中。本文针对nas(例如,[/H/]自动增强)用于数据增强,而策略是静态的问题。通过运用甘的“对抗”思想,引入了对抗性的 损失,大大降低了训练需求。另一方面,可以认为策略生成器不断地生成困难的样本,这可以帮助分类器学习 鲁棒特征并学习得更好。(iclr 2020 |华为诺亚:巧妙的思考,nas结合“对抗”,速度提高11倍)

华为视觉研究路线图:三大挑战,六项计划

第二,使用gan模拟更多数据。这由2018年发表在cvpr 上的ptgan和csgan所代表。前者(“人转移gan到桥域间隙 用于人 再识别”)是生成的用于行人再识别的对策网络,其使用gan将行人从一个数据集转移到另一个数据集。后者(“使用生成 模型的压缩 感测”)是用于感知的gan压缩,换句话说,gan用于重建“原始数据”。与其他重建算法相比,csgan可以用更少的测量值(可以理解为采样数据)重建良好的原始数据。

华为视觉研究路线图:三大挑战,六项计划

第三,利用计算机图形技术生成虚拟数据。这表现在2019年出版的《克雷文:用基于视觉的、经济的 系统控制 机械臂》。在克雷文的工作中,他们设计了一个基于虚拟数据生成和域迁移的培训流程。机器人手臂只需一个额外的摄像头就可以抓取骰子并将其放置在指定的位置。请注意,这里的数据是基于cg技术生成的,不需要为机械手的训练提供额外的监控数据。

华为视觉研究路线图:三大挑战,六项计划

田琦还介绍了他们在数据生成方面的最新工作,这是一种基于知识提取和自动数据放大相结合的方法。众所周知,自动数据扩充(aa)来自数据集的全局优化。对于每张图片,aa可能会带来图像语义的混乱。

如左图所示,原始图片是一只狐狸;如果你改变它的亮度,它会看起来更像一只狗;如果颠倒过来,此时它看起来像一只猫。因此,在训练模型时使用原始的硬标签(“fox”)显然是不合适的。

为了解决这个问题,华为提出了一种知识提炼的方法,利用预训练模型为aa图片生成软标签,然后用软标签指导图形训练。上图是知识提炼后产生的软标签。

从结果来看,这种知识提取和自动数据放大相结合的方法在imagenet上可以达到85.8%的效果。

针对第二种场景,多模态数据,田琦博士认为多模态学习将成为未来计算机视觉领域的主流学习模式,因此这一点非常重要,并且他们也将关注这一领域的布局。目前,多模态学习面临的挑战包括多模态信息表示、模态间联合映射、模态对齐、模态融合和多模态协作学习。

华为视觉研究路线图:三大挑战,六项计划

鉴于这项工作,即如何对齐多模态数据,田琦着重介绍了他们的论文《多模态对话系统:通过 自适应 解码器的遗传反应》,该论文被提名为2019年acm mm最佳论文。他们称之为“神奇模型”,而论文本身就是针对电子商务领域的。在克服与机器对话的过程中,用户需要输入文本或图片。为了解决这个问题,他们使用一个统一的模型来编码不同模式的信息,这样他们就可以根据上下文来反馈单词或图片。

华为视觉研究路线图:三大挑战,六项计划

田琦博士指出,华为诺亚在可视化模型方面的主要研究在于如何设计一个高效的神经网络模型,以及如何加速/小型化神经网络计算。换句话说,模型如何更快、更小、更高效。

神经网络模型的设计原本是手工设计,但目前,手工网络模型设计已经进入瓶颈期。相应地,自2017年以来,自动网络体系结构搜索(nas)发展迅速。虽然只有三年,但已经取得了可喜的进展。

田琦博士认为,目前nas面临三大挑战,即:1)搜索空房间仍然需要手工定义体验;2)要搜索的操作员需要手工设计;3)与人工设计的网络相比,可移植性差。

田琦博士在这方面只发表了一篇论文,发表在iclr 2020上的《个人计算机-飞镖:用于存储器有效的 体系结构搜索的部分通道连接》。Pc-darts提出了局部连接和边缘正则化技术来解决现有darts模型在训练过程中需要大量内存和计算 的问题,分别解决了局部连接带来的网络冗余和不稳定性问题。这种模式可以更快(是同类模式的两倍)而不损失性能。

华为视觉研究路线图:三大挑战,六项计划

田琦博士思考如何加速神经网络和模型的小型化。目前,大型网络模型的开发正在如火如荼地进行,但是这种模型更适合部署在云端,而不能适应端端。从2016年开始,行业开始探索模型加速和小型化的研究,也提出了大量的小型化方案。然而,这些方案在实践中面临许多问题,包括:1)低比特量化限制了精度;2)混合比特网络对硬件不友好;3)新操作员尚未完全验证。

华为视觉研究路线图:三大挑战,六项计划

田琦博士还引用了他们的最新研究成果,该成果在cvpr 2020上发表了一篇口头文章:“Addernet:我们真的需要深度 学习的倍数吗?在计算机中,浮点运算的复杂度远远高于加法运算,但是神经网络中有大量的乘法运算,这限制了该模型在移动设备上大规模使用的可能性。那么我们能设计一个基于加法的网络吗?华为的文章回答了这个问题。它们将卷积网络中的乘法规则改为加法,并修改了网络中的许多规则:1)使用曼哈顿距离(而不是夹角距离)作为卷积核与各层输入特征之间输出的计算方法;2)设计了一种改进的正则梯度反向传播算法。3)针对不同数量级的神经网络,提出了一种自适应学习速率调整策略。实验结果表明,addernet可以达到与乘法网络相同的效果,并且在计算功耗方面具有明显的优势。

华为视觉研究路线图:三大挑战,六项计划

田琦表示,华为的目标是为下一代视觉感知创建一个通用的视觉模型,并将算法移植到下游任务中,以实现模型重用。

那么,什么是“通用视觉模型”?它的核心思想实际上是如何表达和存储知识。

田琦博士提出了两种情况。首先,它是一种热门的预训练方式,通过预训练获得的模型来表达和存储知识;其次,通过虚拟环境,学习知识而不标注数据。

针对预训练模型,田琦博士提到了他们在cvpr 2019年发表的工作:“弱空间约束下的迭代重组: 出售任意拼图以获得未保存的表征 学习。”本文提出了一种自监督学习方法,它适用于处理任何维度的难题。

该难题通过网格将未标记图像分成图像块,打乱图像块的顺序,并通过网络恢复图像块的正确布局,从未标记图像数据中学习语义信息。本文提出以迭代方式逐步调整图像块序列,直到收敛。在imagenet上可以获得非常好的性能。

深度学习在很大程度上依赖于可标记的数据,但在许多情况下,数据标记的成本非常高。同时,在标注数据时也存在一个致命的问题,即知识表达不准确——例如,在自动驾驶中,我们有很多标注信息,但是这些标注数据真的“最适合”自动驾驶任务吗?此外,人类对外部世界的感知依赖于常识,而通过标注数据训练的模型缺乏常识。

华为视觉研究路线图:三大挑战,六项计划

为了解决这个问题,田琦博士提出了一种通过虚拟场景来学习常识的方法来构建虚拟场景。田琦博士引用了他们在2019年cvpr上发表的文章,文章主要是训练机器人手臂通过虚拟场景抓取骰子。我们以前已经提到过,所以在这里不再重复。

华为视觉研究路线图:三大挑战,六项计划


延续上述研究内容,田琦发布了华为愿景计划。简而言之,它包括六个子计划:

数据相关:数据冰山计划、数据立方体计划;

模特相关:模特身高计划,模特瘦身计划;

知识相关:万物预演计划,虚拟现实统一计划。

该方案旨在解决数据标注的瓶颈问题,使数据生成能够真正取代手工标注。有三个子主题,即:

分主题1:提高数据生成的质量。即通过一至两年时间,解决质量差和产生不真实数据的问题;

子主题2:将数据转化为黄金。也就是说,设计了自动数据选择算法,从大量生成的数据中选择高质量的数据;

子主题3:通用自动数据生成。也就是说,为不同的子任务设计了不同的数据生成方式,因此数据生成可以是包容性的。

该方案主要解决多模态数据的量化、对齐和融合问题,从而构建下一代智能视觉。包括以下步骤:构建多模态数据量化指标,对绩效进行综合评价;多模态数据对应策略研究:多模态数据融合方案等。

该计划主要是建立一个大型云模型,以刷新各种可视化任务的性能上限。它还包括三个子主题:

子主题1:搜索整个空网络架构。也就是说,它突破了神经网络体系结构搜索空的限制,搜索了网络空的更多范式和更多结构变化,使神经网络体系结构能够真正实现自动搜索。

子主题2:新操作员搜索。也就是说,操作符的设计从手动重用变为创建新的操作符。

子主题3:提高搜索模型的通用性。目前,搜索到的网络泛化性能、抗攻击性能和迁移性能较差。该子项目希望改善网络架构电缆的这些性能。

开发小的端侧模型来帮助各种芯片完成复杂的推理是一个重要的研究方向。华为在这一领域的目标是创建一个高效的终端视觉计算模型。该计划包括三个子主题:

子主题1:自动搜索小型网络。也就是说,硬件约束被集成到自动设计中,使得算法能够适应不同的硬件。

子主题2:一位网络量化。也就是说,一位网络是为了实现全精度网络的性能而设计的,目标是追求最终的性能。

子主题3:构建新的添加网络。也就是说,在卷积网络中,所有的乘法运算都被加法运算所取代,同时,它与码片计算相结合,探索出一条高效计算的新途径。

所谓的一切预览意味着定义训练前的任务和建立一个通用的视觉模型。具体方法是收集大量数十亿数量级的开放和未标注的图片,完成知识的提取和整理。

该计划的目标是在虚拟场景中直接训练智能行为本身,而无需标记数据。目前,该领域的研究非常有限。本文讨论了如何定义知识,如何构建虚拟场景,如何模拟用户的真实行为,以及如何保证数据和代理的安全。虽然这个计划极具挑战性,但田琦认为这是通往真正人工智能的道路。

华为视觉研究路线图:三大挑战,六项计划

雷(公开号:雷)报道。


雷锋。com


标题:华为视觉研究路线图:三大挑战,六项计划

地址:http://www.qdgzw.com/kjcy/32705.html

免责声明:京青年创业网是一个专业为创业者提供学习交流的创业资讯媒体,更新的资讯来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,京青年创业网编辑将予以删除。

返回顶部