数字视网膜演化简史
本篇文章7966字,读完约20分钟
一个学者在学术领域中的先驱学派的最显著的标志之一是一个学术概念可以等同于学者。例如,当提到相对论时,爱因斯坦必然会联想到它。
同样,当提到“数字视网膜”的概念时,人们首先想到的是中国工程院院士高文。
所谓的数字视网膜,类似于人类的视网膜,是对传统相机乃至视觉计算架构的进化和创新,以更智能地支持城市大脑,服务于智能安全、城市精细管理等智能应用。
更具体地说,传统相机只压缩捕获的视频数据并上传到云中存储,然后对其进行分析和识别;另一方面,数字视网膜要求在摄像机端对捕获的视频进行高质量的视频编码和视觉特征提取编码。压缩和编码后的视频流存储在本地,并根据需要上传到云中,而所有紧凑的特征流实时同步到云中,这可以确保高效的存储并方便地支持大数据查询和分析。同时,它支持深度学习模型的自适应迁移、压缩、更新和转换,用于端边和云之间的智能视频编码和特征分析。简而言之,数字视网膜就是这样一种可扩展的端缘云协同视觉计算架构,包括视频编码流、特征编码流和模型更新流。
传统视觉感知系统
数字视网膜技术的系统框架
这一概念正式提出才两年,但从最初的构想、早期实践到理论基础的构建,却用了近五年的时间。即使现在,数据视网膜的技术框架仍在完善,但它的影响将是颠覆性的。正如高文院士在2018年的一篇文章[1]中提到的:
中国明确提出:“到2020年,基本实现公安视频监控的全球覆盖、全网共享、全天候可用、全过程可控的网络化应用。”但是,如果没有重大的技术突破,数千万台摄像机将无法实现“全网共享”的实时数据融合,更不用说实现“全天候可用”的联网分析和识别,“大数据”也不会变成“大数据”,巨大的潜在价值也无法被发现。数字视网膜是应对上述挑战的一个可行且具有颠覆性的技术发展方向。
1.雏形酿造
随着高文院士对城市视频监控系统存在的问题的深刻认识,他对“数字视网膜”的认识也不断加深。
根据现有数据,高文院士从2013年初(或更早)就开始考虑城市中相机的缺陷和可能的改进。2013年新年伊始,高文院士接受了人民网的采访[2]。他提到现代摄像机很密集,但仍然需要后端人力来监视它们。在大案要案中,调用视频数据往往起不了多大作用。如果系统在设计视频编码时能够提取、挖掘和分析数据中的有用信息,不仅可以节省后期的人力投入,还可以起到应急的作用。
可以说,在这个时候,他有一个模糊的概念,但如何去做还在制定中。
2013年10月,高文院士发表了一篇题为《智能城市中的视频编码、分析和评估》的文章[3]。在这篇文章中,他首次系统地提出了自己对“智慧城市”视频监控问题的深入思考,并指出:
1.当前的监控系统是为视频存储和以人为中心的视频跟踪而设计的,而不是以计算机为中心的自动分析。因此,用这样的系统实现智能城市的视频系统并进行自动分析是不可能的。
2.智能城市中的视频技术面临三大问题,即存储成本高(数据量太大)、检索困难和对象重标记困难。这三个问题的实质是两个问题,一个是编码,另一个是视频分析和识别。因此,如何对监控视频进行高效编码以及如何对其进行分析和检索是必须考虑的两个基本问题。
3.学术界有一个奇怪的现象,那就是视频编码学者对视频分析不感兴趣;相反,做视频分析的人对编码不感兴趣。原因是前者处理像素和图像块,属于图像处理领域,而后者处理图像特征,属于模式识别领域。就像在两条路上行驶的汽车很难相遇一样。
幸运的是,高文院士正好跨越了这两个圈子,他在视频编码领域和计算机视觉领域(尤其是人脸识别)都有着重要的影响。他的学生陈锡林和山石光继承了他在人脸识别领域的衣钵,现已成为国际计算机视觉领域的领军人物;他的学生黄铁军教授和马思维教授继承了他在编码领域的衣钵,在国际视频编码领域产生了重要影响。[4]
高文院士对当代城市监控系统存在问题的本质分析虽然只是一个雏形,但为以后解决这一问题奠定了研究思路和方向。特别是在2014年的“第二届智能城市与智能系统院士论坛”上,他提出“我们希望将编码和分析技术整合起来,集中在一个编码框架下。”[5]
然而,尽管有大方向,因为以深度学习为代表的新一代人工智能刚刚出现,许多人对深度学习并不熟悉,而且当时的算法和计算能力都不足以支持这种设想的技术。当然,从现有数据可以看出,高文院士当时在分析这个问题时,似乎并没有深入思考如何将深度学习与视频编码结合起来,而是以“前深度学习”的模式进行思考。
时光飞逝,来到2016年。随着人工智能的发展,计算机视觉变得繁荣起来。大量基于计算机视觉的创业公司相继成立,传统的安全公司也逐渐转型。城市安全已成为资本竞争的大市场,高文院士提出的城市视频监控三大问题(存储成本高、检索困难、对象重标困难)日益尖锐。
这些年来,高文院士逐渐丰富了原有的框架。然而,如果我们想把这个概念付诸实践,我们仍然需要具体的场景。毕竟,这是一项以工程为主体的研究。正如他在随后的第[1]条中提到的:
“有必要建立一个大规模的测试平台,以评估和展示数字视网膜架构的技术优势。该平台应至少包括数万台监控摄像机,覆盖一个中等规模的城市,以便能够在真实场景中评估与数字视网膜相关的算法和技术。”
无独有偶,2016年,以王建为首的阿里巴巴云开始在杭州试点城市人才建设。[6]这符合高文院士的研究需要,因此与王健等人一拍即合。为了更好的合作,2017年7月,原高文院士的学生团队成立了“博雅鸿图”公司(“博雅”取自北京大学“博雅大厦”);而“鸿图”是一家有着远大志向的公司。高文院士为董事长。他依托北京大学数字视频编解码技术国家工程实验室在数字音视频编码国家标准(avs)和视觉特征编码国际标准(cdvs)方面的技术、标准、人才和产业化优势,致力于视觉智能芯片和系统解决方案的研发和产业化。[7]
在此期间,高文院士开始跳出编码和计算机视觉领域,从更广的范围思考其框架。一个表现是在2017年6月举行的图灵会议上,高文院士做了一个主题为“人工视觉系统的进化”的报告。[8]
高文院士在2017年图灵大会上做了报告(来源:腾讯视频截图)
在这份报告中,他首次提出了动物视觉的进化和人类应该学习的模型,这在本质上是“仿生的”。然而,在报告中,他只做了一个类比。虽然他没有提出“数据视网膜”的概念,但基本框架已经很完整了。
数字视网膜的概念最早是在2017年10月的深圳世博会上提出的。[9]
在这份报告中,他进一步指出,传统视觉感知系统中的监控摄像机处于1-1模式:单摄像机、单流和单用途。这种模式是长期自然形成的,其效率不高:(1)压缩-解压缩和分析过程造成长时间的延迟;(2)目标检测、模式识别和场景理解的准确率低;(3)利用率低。当前的监控系统设计用于存储数据,然后离线手动检查。大多数数据在其生命周期中都是无用的。这些对我们当代的智慧城市来说是无法忍受的,我们需要提升这些“眼睛”。
在这份报告中,他还首次指出数字视网膜包含三项核心技术:
1.基于背景模型的场景视频编码。现有监控摄像机采用的视频编码技术标准对于监控视频编码来说效率不高,因为这些标准主要是为广播电视视频制定的。在监控场景中,大多数摄像机是固定的,背景相对不变。因此,如果背景预测可以用来消除相应的冗余信息,编码效率将大大提高。
2.视频特征的紧凑表达。视觉表征是图像和视频分析与处理的基础。如果在摄像机中采用人工设计特征和深度学习特征的自适应融合技术,提取帧内和帧间视觉的紧凑表示,并将其发送到云中,搜索效率可以大大提高。他们的实验表明,每帧平均只需要100位,可以达到与未压缩特征相同甚至更高的检索性能。
3.视频编码和特征编码的联合优化。以上两种数据信息并不是相互独立的,而是相互联系、相互指导的。因此,当数字视网膜同时输出压缩视频流和压缩特征流时,可以设计一个联合优化函数来计算如何根据码流的大小分配各自的码率,从而在保持分析和检索性能的同时进一步满足压缩要求,如下图所示。
从图中可以看出,在保持视频编码性能基本不变的情况下,特征编码可以被极大地压缩。
高文院士还提到了数字视网膜的三大特点,即高性能、高效率和可扩展性。
在这份报告中,有两点值得一提。首先,他指出数字视网膜可以由软件定义,即特征学习模型和相机参数可以从云中心实时更新(这个概念后来已经升级);其次,鉴于大多数摄像机仍然是传统摄像机(不是数字视网膜摄像机),他提出了一种基于智能边缘节点的解决方案,即在边缘汇聚服务器中部署负责特征提取的“视网膜”功能,而不是替换已部署的摄像机。
虽然“数字视网膜”的整体框架已经建成,并在杭州、山东文登、重庆等地进行了测试,但相关工作直到2018年初才首次正式发布。
2018年初,北京大学高文院士、田永红教授和阿里巴巴首席技术官王健博士(2019年入选中国工程院院士)在《中国科学》杂志上联合发表了一篇题为《数字视网膜:智慧城市系统演进的关键环节》的文章。[1]
本文首次完整、清晰、严谨地定义了“数字视网膜”的概念:
如何根据“人类视网膜兼具图像编码和特征编码功能”的生物学特性,研究和设计更高效的摄像机。我们称它为类似视网膜的照相机,简称为数字视网膜。
数字视网膜的核心是“单摄像头双数据流”,其中压缩视频流用于存储和离线观看,压缩特征流用于大数据分析和搜索。
文章还对近期博览会上的报道内容做了更为严格的描述,并首次提出了数字视网膜必须满足的五个条件:(1)使用全网统一时间;提供准确的地理位置;(c)提供视频数据的有效编码功能;(d)提供视频数据的紧凑特征表示;支持视频编码和特征表达的联合优化。
考虑到未来数字视网膜研究可能的演进路线,高文等人提出了三点,即:(1)标准化。当研究进入现实生活时,必须在不同的制造商和城市之间形成统一的标准;(2)软件和硬件的开源。对于这样的基础项目,如果软件和硬件不能开源,相关技术和产品就不能有效开发和应用;(3)大型试验台,这也是前面提到的。与理论研究不同,数字视网膜本身更倾向于应用工程,因此必须在真实场景中进行测试以促进其发展。
针对以上三点,高文院士等人也有相应的举措,如积极推广avs2、mpeg cdvs及其扩展的mpeg cdva等。[9]
此外,2017年7月,由高文院士、潘云鹤院士、黄铁军教授发起的“新一代人工智能产业技术创新战略联盟”,在人工智能开源平台建立之初就积极推动其建立。[10]
为了寻求建立一个大规模的测试平台来评估和展示数字视网膜架构的技术优势,除了在杭州与阿里巴巴云合作外,2018年3月在深圳成立了“鹏程实验室”,高文院士担任实验室主任,从而在深圳启动了试点项目。[11]
因此,《数字视网膜:智慧城市系统演化的关键环节》的发表具有象征意义,也意味着高文院士对“数字视网膜”的定义已经正式形成,研究格局已经基本确立。
根据上述框架,高文院士(包括博雅洪图,其主席为)领导的团队从前端到后端,从软件到硬件,不断完善探索和设计。
本质上,智能城市的数字视网膜嵌入了摄像头中的一个芯片,使得采集到的视觉数据经过高效的编码和紧凑的特征提取后可以传输到城市大脑(后端云),从而可以更加高效和灵活地进行检索和分析。这里涉及两个数据流,即视频编码流和特征编码流。
然而,这种体系结构忽略了一个问题,即数字视网膜芯片依赖于良好的深度学习模型进行特征提取。为了保证特征提取的准确性,城市大脑通常需要利用采集到的数据进行学习,训练相应的模型,然后将学习到的模型发送给前端设备。因此,模型的生成、利用和交流对于数字视网膜非常重要,尤其是当视频数据在位置、时间和环境上有很大差异时。因此,除了视频编码流和特征编码流之外,模型编码流也是一个非常重要的部分。
因此,随着对数字视网膜实践和认识的深入,其结构已经从“双流”向“多流”转变:视频编码流、特征编码流和模型更新流。
有鉴于此,高文院士在2019年11月底于山东济南召开的“2019世界人工智能集成与发展大会”上首次提出了这一概念。[12]
但事实上,他们的研究已经开始了。
2019年7月,北京大学於陵教授课题组在计算机多媒体领域的国际学术会议ieee icme上发表了《智能城市中的数字视网膜:模型生成》。利用与通信 范式[13],首次提出了视频流、特征流和模型流的协同计算模式,以克服端缘云环境下模型重用和传输的瓶颈。值得一提的是,这篇文章还获得了本届最佳论文奖。[14]
在数字视网膜的研究和实践中,段教授的研究团队发现,在数字视网膜计算的框架下,大量的特征模型和未标记数据被缓存在边缘节点中。因此,该研究小组提出了一种多模型重用机制,该机制有效地利用边缘节点缓存的模型和数据来生成一个具有更强的领域适应性和区分性的目标模型。针对多模型重用过程中模型训练的稳定性,本文给出了理论证明和分析,并在实验中获得了比传统方法更好的性能增益。在视网膜计算框架下,模型的频繁传输和部署会带来巨大的通信开销。为了提高模型更新的效率,提出了模型间高效通信的新问题,并提出了一种新的差分模型压缩方法,与传统的单模型压缩方法相比,该方法能有效降低模型传输的码率开销。针对视频流、特征流和模型流,提出了一个城市视觉系统协同计算的新问题,对数字视网膜理论的未来研究和实践具有指导意义。[14]
2019年10月,博雅鸿图公司开发的首款数字视网膜芯片“鸿图tmgv9531eshi”成功上市。在同月举行的第二届焉耆太空论坛上,高文院士详细介绍了该芯片。
在“2019年世界人工智能集成与发展大会”上,高文院士提到,[12]“第一个数字视网膜芯片已经上路,即将发布。这个芯片非常小,就像一美元硬币,但是它包含了我刚才提到的所有三个基本特征和八个功能。将来,这种芯片可以直接进入各种智能交通系统,支持数字视网膜的应用。”
2019年11月22日,首届数字视网膜芯片大会暨数字视网膜生态伙伴启动仪式在杭州举行,正式命名为“洪欣图腾gv9531”。
“洪欣图腾gv9531”是第一个支持数字视网膜技术系统的智能芯片和第一个avs2视频编码芯片。它对数字视网膜技术给出了完整的解释,支持全球统一时间空id、多级视网膜表示、模型更新和软件定义,并在边缘实现了数字视网膜技术的节能处理,不仅减少了无用数据进入云的数量,还可以大大降低视频数据处理的成本。它是数字视网膜边缘云系统视觉计算框架的核心计算支撑平台,是视觉计算系统进行视觉边缘计算、多流智能处理和脑-眼集成不可或缺的关键环节。
另外,在新的一年里,数字视网膜的研究取得了哪些新的进展?更重要的是,它能给这个领域的研究者带来什么新课题?它能给芯片制造商和安全供应商带来什么新的商机?
这是我们所期待的!
本文的写作离不开中国图像图形学会和北京大学许多教师的支持。
据《人工智能科技评论》报道,由中国图像图形学会主办、新疆大学承办的第二十届全国图像图形大会(ncig 2020)将于2020年6月28日至20日在新疆乌鲁木齐举行。高文院士将作为特邀嘉宾演讲[16],再次为我们带来数字视网膜的最新研究报告。会议将汇聚国内图像与图形及相关领域的领军人才,聚焦该领域的热点问题,从多个角度洞察未来发展趋势。它包括3个特别嘉宾报告,2个研讨会,4个论坛,5个竞赛,1个优秀博士论坛和许多展览。这是中国图像与图形领域专家学者合作交流的平台,值得期待!
ncig 2020官方网站:ncig2020.csig.org
高文,北京大学文科教授。1982年获哈尔滨工业大学学士学位,1985年获哈尔滨工业大学硕士学位,1988年获哈尔滨工业大学计算机应用博士学位,1991年获东京大学电子工程博士学位。1991年至1996年在哈尔滨工业大学工作,1996年至2006年在中国科学院计算技术研究所工作,2006年2月至今在北京大学工作。Ieee 研究员,中国工程院院士。他的研究领域是多媒体和计算机视觉,包括视频编码、视频分析、多媒体检索、人脸识别、多模态界面和虚拟现实。他最常引用的工作是基于模型的视频编码和基于特征的对象表示。他出版了7本书,发表了300多篇期刊论文和700多篇国际会议论文。曾获国家科技进步奖、国家技术发明奖、国家自然科学奖等多项学术奖项。
参考文献:
[1]数字视网膜:智能城市系统演进的关键环节,《中国科学:信息科学》,第48卷,第8期,2018:1076–1082
[2]高文院士:高效视频编码技术前景广阔,人民网(2013年1月10日),科技。people/n/2013/0110/c 1007-20156410 . html
[3]智能城市中的视频编码、分析和评估,《中国信息周刊》(2013年10月21日),第005版
[4]高文院士个人主页,www . jdl . AC/htm-高雯/
[5]与智能视频监控相关的技术挑战,《中国信息周刊》(2014年9月22日),005版
[6]重游阿里城三年(2019年1月25日),www.leiiphone/news/201901/pq1eaairvxm4mdmv.html
[7]北京大学高文院士发表重要讲话:人工智能数字视网膜芯片能做什么(2018年7月7日),www.pinlue/article/2018/08/0913/386742019905.html
[8]图灵会议高文院士主题报告(2017年6月8日),v.qq/x/page/e0511e3veje.html?
[9]高文院士50 ppt向您展示城市大脑的瓶颈和主要突破点(2017年12月15日),www.leiiphone/news/201711/esdvm34rtfn0mn67.html
[10]黄铁军访谈:战略联盟把实施国家“新一代人工智能发展计划”作为自己的职责是什么?(2018年3月26日),www.leiiphone/news/201803/ujug5 jwfshxx20m.html
[11]鹏程实验室启动会议在www.pcl.ac/index.php/home/index/views/id/164.html召开
[12]高文,中国工程院院士:数字视网膜消除智能交通的痛点|世界人工智能融合发展大会(2019年11月20日),www.leiiphone/news/201911/q5y20d2wqlfqxshe.html
[13]
智能城市中的数字视网膜:模型生成、利用
和通信范例(2019年7月31日),arxiv.org/abs/1907.13368
[14]计算机科学与技术系段教授获得ieee icme 2019最佳论文奖(2019年8月2日)
[15]数据不能走出本地,但也可以享受大数据培训模式。联邦学习提供了一种新的广泛应用的学习模式(2019年9月11日),www.leiiphone/news/201909/wocl8i1tjmjxvjd5.html
[16] ncig 2020第20届全国图像图形会议,ncig2020.csig.org
[17]
面向ai的智能城市大规模视频管理:技术、
标准及未来(2017年12月5日),arxiv.org/pdf/1712.01432.pdf
[18]高文院士:下一站是颠覆具有类脑数字视网膜的相机(2018年9月12日),tech . 163/18/0912/18/drh 97u 4s 0098 ieo . html
[19]高文院士提出的“数字视网膜”系统分析(2019年5月8日),www . iyeou/p/99569 . html
雷锋网雷锋网雷锋网(公开号码:雷锋网)
标题:数字视网膜演化简史
地址:http://www.qdgzw.com/kjcy/32603.html
免责声明:京青年创业网是一个专业为创业者提供学习交流的创业资讯媒体,更新的资讯来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,京青年创业网编辑将予以删除。