亚马逊发布 Web 视频分类新框架:1/100 数据量,精度赶超最优模型
本篇文章1527字,读完约4分钟
最近,阿森、智能初创公司sensetime和香港中学的研究人员共同开发了一个新的个人网络数据框架——OmniSource,这在视频识别领域创造了新的记录。
omnisource通过解决图像、短视频和未剪辑视频等数据格式之间的不兼容性,并采用数据平衡等方法,可以用最先进的模型对视频进行更准确的分类,但数据量减少了100倍。
研究人员指出,收集训练视频分类算法所需的数据通常既昂贵又耗时,因为视频通常包含一个或多个主题的多个镜头,所以在分类时必须完全观看,然后分割成片段,然后小心添加标签。
omnisource的体系结构图
omnisource以集成的方式使用来自各种来源(搜索引擎、社交媒体)的各种形式的网络数据,如图像、编辑过的视频和未编辑过的视频。然后,ai
系统过滤掉低质量的数据样本,标记那些通过其集合的数据样本(平均70%到
80%),并且变换每个样本以使其适合于标记任务,同时,提高分类模型训练的鲁棒性。
识别任务完成后,omnisource将获取所有分类中每个类名的关键字,从上述来源获取web数据,并手动删除重复数据。对于静态图像,这些图像应该预先为联合训练做好准备,并通过移动摄像机将它们制作成“伪”视频。
在联合训练阶段,一旦数据被过滤并转换成与标准数据集相同的格式,omnisource将对web和标准数据集进行称重,然后采用跨数据集混合方法,并将其中包含的示例标记到训练中。
在联合训练阶段,根据研究者的报告,当使用omnisource从头开始训练视频识别模型时,虽然微调效果不好,但是交叉数据混合取得了良好的效果。
在测试中,团队制作了三个标准数据集:
运动学-400,包含400个类别,每个类别包含400个10分钟的视频;
Youtube-car包含数千个视频,展示了196种不同类型的蒸汽;
Ucf101,包含100个片段和101个类别的视频识别数据集;
网络数据集分布。(a)-(c)显示在过滤之前和之后的每个类别的数据分布中,三个网络数据集是可视化的。给出了经gg-k400滤波的图像(青色方框)和剩余图像(蓝色方框)的样本。虽然许多不适当的数据被成功过滤掉,但它使各种类别的数据分布更加不均匀
关于网站资源,研究人员从
google image search收集了200万张图片,从instagram收集了150万张图片和50万个视频,从
youtube收集了17,000多个视频。结合标准数据集,所有这些都被输入到一些视频分类模型中。
根据该报告,在没有培训的情况下,只能从互联网上抓取[/h
3.5亿张图片和80万分钟的视频,这还不到之前工作的2%。在动力学-400
h/]数据集上,训练后的模型显示精度提高了3.0%,精度提高了83.6%。同时,在此框架下从头开始的最佳训练模型在运动学-400
数据集上达到了80.4%的准确率。
与最先进的技术相比,该框架可以通过更简单(更轻)的主设计和更多的输出获得更好的性能。Omnisource 有利于特定任务数据集,数据效率更高。与以前的方法相比,它减少了所需的数据量。此外,该框架还可用于各种视频任务,如视频识别和细粒度分类。
图片来源:路透社/托马斯·彼得
未来,omnisource还可能用于私人和公共场所的安全摄像头。或者,它可以为facebook等社交网站提供视频审计算法所需的设计信息和技术。
原始地址:
venturebeat/2020/04/02/Amazon-sense time-omnisource-framework-web-data-video-recognition/
全源论文地址:
arxiv.org/pdf/2003.13042.pdf
标题:亚马逊发布 Web 视频分类新框架:1/100 数据量,精度赶超最优模型
地址:http://www.qdgzw.com/kjcy/32514.html
免责声明:京青年创业网是一个专业为创业者提供学习交流的创业资讯媒体,更新的资讯来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,京青年创业网编辑将予以删除。