博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Self-supervised and unsupervised learning for video
阅读量:2089 次
发布时间:2019-04-29

本文共 1809 字,大约阅读时间需要 6 分钟。

目录

 


ActBERT: Learning Global-Local Video-Text Representations(cvpr2020)

背景:

  1. 在教做菜的视频中,视频创作者会描述,“开始切胡萝卜”,往往人物也是在正进行“切胡萝卜”的动作。这种天然的视觉对应关系,是进行视频文字自监督学习的重要要素。其中文字描述可以通过自动语音识别技术(ASR)从视频中或从创作者上传的字幕中提取文字。这样成对的视频文字数据就产生了。 
  2. 为了解决视觉特征无法做分类预测的问题,VideoBERT 使用了 hierachical k-means 的方法将视觉特征进行离散化,这样每个数据特征都对应一个离散的视觉中心。

idea:在输入层同时加入全局动作特征与局部区域特征。

论文链接:https://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf

参考:

 

Self-supervised learning using consistency regularization of spatio-temporal data augmentation for action recognition(STCR)

分为两个Branch, 一路Clean表示普通的Video,另一路表示引入Noise之后的, 2路不同的输入经过3D Backbone之后,我们希望feature 在 temporal-level和feature-level保持consistency。

 

Temporal Cycle-Consistency Learning(Google Brain)

TCC的关键在于通过循环一致性的原则,从多个视频中寻找出对应的相同动作。

研究人员首先将两个待配准的视频传入编码器中获取对应的嵌入信息,而后选择两个视频来进行TCC的训练,其中video1作为参考视频,从中取出一帧并利用最邻近方法在嵌入空间中找到video2中最为近似的一帧;而后以video2中找到的这一帧作为输入,从新到嵌入空间中寻找video中对应的帧(circle过程)。如果学习出的嵌入空间具有循环一致性的话,这一帧和先前输入video1的参考帧应该是同一帧。

参考:

 

Unsupervised leaning of visual representation using videos

idea:用一个图片(patch)三元组(a, b, c)来训练网络,其中a和b是同一个视频中内容相近的patch, c是从其他视频中任意采样得到的patch,让网络能学习到a, b, c的特征并满足a,b之间的距离尽量小,a,c之间的距离尽量大。

参考:

 

Learning Video Object Segmentation from Unlabeled Videos(cvpr2020)

Author: Xiankai Lu...Steven C. H. Hoi

Key: 提出了一种无监督方法,从四个方面进行特征学习。类似于几个proxy task的组合。包括:frame, short-term, long-term and whole video granularities

 

Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles

论文:

 

Other methods

  • Video Generation with GAN

            与图像类生成方法类似。这种方法通常由两部分组成:generator(生成器:生成视频)+ discriminator(鉴别器:区分生成的与真实的视频)。Discriminator可以被迁移物其他的下游任务。

  • Video Colorization

            给一个灰色的图像,一些参考的彩色图像,让模型学习上色。

  • Video Future Prediction

        给定一些序列,让模型学习预测后续的序列。如:Self-Supervised Video Representation Learning With Odd-One-Out Networks

参考:

 

 

转载地址:http://kfeqf.baihongyu.com/

你可能感兴趣的文章
分布式之REDIS复习精讲
查看>>
分布式之数据库和缓存双写一致性方案解析
查看>>
Redis集群
查看>>
Oracle 查看和扩展表空间
查看>>
记一次线上Java程序导致服务器CPU占用率过高的问题排除过程
查看>>
Java 内存溢出(java.lang.OutOfMemoryError)的常见情况和处理方式总结
查看>>
从cpu和内存来理解为什么数组比链表查询快
查看>>
CentOS7下使用YUM安装MySQL5.6
查看>>
JVM内存空间
查看>>
Docker 守护进程+远程连接+安全访问+启动冲突解决办法 (完整收藏版)
查看>>
从零写分布式RPC框架 系列 2.0 (4)使用BeanPostProcessor实现自定义@RpcReference注解注入
查看>>
Java 设计模式 轻读汇总版
查看>>
Paxos学习笔记及图解
查看>>
深入解析Spring使用枚举接收参数和返回值机制并提供自定义最佳实践
查看>>
数据序列化框架——Kryo
查看>>
布隆过滤器(BloomFilter)——应用(三)
查看>>
MPP架构数据库优化总结——华为LibrA(MPPDB、GuassDB)与GreenPlum
查看>>
Spark代码可读性与性能优化——示例七(构建聚合器,以用于复杂聚合)
查看>>
Spark代码可读性与性能优化——示例八(一个业务逻辑,多种解决方式)
查看>>
简单理解 HTTPS
查看>>