「农业银行网上银行登录」FacebookAI推出了新的视频理解架构TimeSformer

股票资讯  2021-05-24 16:26:18

FacebookAI推出了新的视频理解架构TimeSformer,这也是第一个完全基于Transformer的视频架构。视频编辑的上限可以达到几分钟,这远远超过目前最好的3DCNN,而且成本较低。

TimeSformer是时空转换器。这是第一个完全基于Transformer的视频体系结构。近年来,它已成为许多自然语言处理(NLP)应用程序的主要方法,包括机器翻译和一般语言理解。。

论文链接:

https://arxiv.org/pdf/2102.05095.pdf

TimeSformer处于几种高难度动作识别基准上最佳结果获得了包括Kinetics-400动作识别数据集在内的数据。此外,与现代3D卷积神经网络(CNN)相比,TimeSformer的训练速度提高了约3倍,推理所需的计算量不到原始算法的十分之一。这是支持需要实时或按需处理视频的应用程序中的重要一步。

另外,TimeSformer具有可伸缩性,可用于在更长的视频剪辑中训练更大的模型。这使人工智能系统能够了解视频中更复杂的人类行为,例如涉及多个原子步骤的活动(修理汽车,准备食物等)。许多需要了解复杂人类行为的人工智能应用程序都可以从中受益。

TimeSformer和高级3D卷积神经网络在Kinetics-400(左)和Kinetics-600(右)运动识别基准上的视频分类准确性。TimeSformer在这两个数据集上都达到了最高的准确性。

时空注意

传统的视频分类模型使用3D卷积滤波器。尽管这些过滤器可以有效地捕获局部时空区域中的短期模式,但它们无法对超出其接受域的时空依赖性进行建模。

但是,TimeSformer完全基于Transformer使用的自我关注机制,这使得捕获整个视频的时间和空间依赖性成为可能。

为了将Transformer应用于视频,TimeSformer将输入视频解释为从视频在每一帧中提取的图像块的时空序列。此格式类似于NLP中使用的格式,即Transformer将句子视为从单个单词计算出的特征向量序列。

正如NLPTransformer通过将每个单词与句子中的所有其他单词进行比较来推断其含义一样,该模型通过将每个补丁与视频中的其他补丁进行显式比较来捕获它的含义。这使得有可能捕获相邻补丁之间的短期相关性以及长距离补丁之间的长期相关性。

传统的3D卷积神经网络在视频的所有时间和空间位置都需要使用大量的滤波器,因此计算成本也很高。

TimeSformer1)将视频分解为一小组不重叠的补丁,并且2)应用自我关注的形式以避免对所有补丁进行详细比较,从而使计算成本较低。我们称这种方案为"时空关注"。这个想法是依次应用时间注意力和空间注意力。

施加时间注意时,仅将每个色块(例如,下图中的蓝色方块)与其他帧中相同空间位置的色块(绿色方块)进行比较。如果视频包含t帧,则每个色块仅执行t时间比较。

在施加空间注意力时,仅将每个色块与同一帧中的色块(红色色块)进行比较。因此,如果n是每个帧中的补丁数,则时空注意力只能在每个补丁中执行(t%2Bn)比较,而联合时空注意力穷举法则需要(t*n)比较。此外,研究发现时空注意不仅比联合时空注意更有效,而且更准确。

TimeSformer具有可伸缩性,可以在很长的剪辑(例如,跨越102秒的时间帧的96帧序列)上运行,以执行超远程建模。这与当前的3DCNN有很大不同,后者仅限于处理长达几秒钟的片段,并且是识别长期活动的关键要求。

例如,观看一段视频,演示如何制作法式吐司。人工智能模型可以通过一次分析几秒钟来识别一些原子动作(例如,打鸡蛋或将牛奶倒入碗中)。但是,对每个人的行为进行分类不足以对复杂的活动进行分类(许多食谱涉及破蛋)。TimeSformer可以在更长的时间范围内对视频进行分析,揭示出原子行为(例如,混合牛奶和破碎的鸡蛋)之间存在明显的依存关系。

利用TimeSformer的效率,它可以训练具有高空间分辨率(例如,最大560x560像素的帧)和超长视频(最大96帧)的模型。这些图显示了视频分类成本(TFLOP)与空间分辨率(左)和视频长度(右)的关系。通过这些数字,我们可以观察到分散的时空注意力比疲惫的时空联合注意力节省了很多计算能力,尤其是在应用于大帧或长视频时。在实际应用中,当空间帧分辨率达到448像素或帧数增加到32帧时,时空的共同关注将导致GPU内存溢出,从而使其不适用于大帧或长视频。

此图提供了由TimeSformer学习的自我注意热图的可视化。第一行显示原始帧,第二行根据对视频分类的自我关注的重要性对每个像素的颜色进行加权(认为不重要的像素变暗)。如图所示,TimeSformer学习着重于视频中的相关区域以执行复杂的时空推理。

TimeSformer视频片段可能长达几分钟

为了训练视频理解模型,最佳3DCNN只能使用几秒钟长的视频片段。借助TimeSformer,我们可以训练更长的视频片段,最多几分钟。这可能极大地促进了对视频中复杂的长运动的机器理解的研究,对于许多了解和研究人类行为的人工智能应用而言,这是重要的一步。

此外,TimeSformer的低推理成本是支持未来的实时视频处理应用程序(例如AR/VR或基于可穿戴式摄像机的视频智能助手)的重要一步。TimeSformer降低了成本,这将使更多的研究人员能够解决视频分析问题,从而加快该领域的进步。


以上就是农业银行网上银行登录FacebookAI推出了新的视频理解架构TimeSformer的全部内容了,喜欢我们网站的可以继续关注燕峰股票网其他的资讯!

相关推荐

蜡笔小新食品:推迟股权交易相关收购
8月18日,首创获悉,香港上市公司蜡笔小新食品(01262.HK)发布公告称,集团于2020年7月27日宣布股权交易,卖方蜡笔小...
航科科技与国轩高科签署设备采购框架协议,交易金额不超过3.71亿元
12月30日,国都获悉,科创板公司航科科技(688006.SH)发布公告称,公司近日与合肥国轩高科动力能源有限公司签约,国轩高科...
2025年上市,收入百亿?东北万达山乳业放缓了几步。
继中国飞鹤之后,又一家国内乳企将冲刺资本市场。日前,国都获悉,黑龙江万达山乳业股份有限公司(以下简称"万达山乳业")已启动A股I...
14亿美元为什么高通(QCOM.US)对这家半导体初创公司感兴趣?
应用程序独占:主要资金被一个1%监控26%;%26gt;1月13日,手机芯片制造商高通(qcom(美国)在其官方网站上发布了新闻...
奥菲动漫招股书如何分享高位柜
奥菲动漫招股书里是什么踏上了天空?顾名思义,空仓或持仓不买上涨的股票,一般是指投资者只能在仓位小的时候看着股票上涨而后悔,甚至市...
道琼斯指数英文中科电气(300035)股市实时走势
道琼斯指数英文换手率选股技巧是什么?如何正确选股?1.分类高流失率的情况。1.相对较高的交易量突然增加,发行意向非常显著。但是,...
参与正格基金上市公司沈阳股票账户,哪个证券公司服务好_
哪家证券公司在青岛股票开户服务好,青岛股票是参与正格基金的上市公司?很多投资者可能会觉得很奇怪。炒股看技术指标,k线,形态等。,...
湖北宏旭汇阿富汗自驾游信托公司有金融牌照吗
随着经济的快速发展和人民生活水平的不断提高,人们的观念也在不断变化。越来越多的人选择其他方式投资。他们大多选择炒股。进入股市。今...
贺勋金融网平安信托法务岗待遇怎么样
贺勋金融网十大融资平台:如何操作配股?上海股市如何配置股票?配股问题是什么?根据公司发展需要,上市公司进一步按照有关规定向原股东...

标签列表

    友情链接