近日,由阿里巴巴文娱技术、阿里云天池联合举办的MEDIA AI阿里巴巴文娱算法挑战赛落下帷幕,本次挑战赛赛程为2020年7月到9月,并于2020年12月进行了最终答辩。此比赛分别设立了高精度视频人物分割及视频时序事件检测两个赛道,致力于推动学术问题在实际问题中的应用,以促进工业界和学术界的深度合作,共吸引了包括清华大学、上海交通大学、南京大学、华中科技大学、阿里巴巴等全国知名高校与企业在内的50余支队伍参加。其中,自动化系赵旭教授指导的硕士研究生刘书明、曹鑫组成的代表队在视频时序事件检测赛道中荣获冠军。
视频时序事件检测(temporal event detection)
视频时序事件检测(temporal event detection)的目标是在视频中识别特定的事件并定位相应的时间段。时序事件检测作为视频理解的基础技术之一,具有广泛的应用前景,包括智能生产、视频智能剪辑、智能监控、视频内容检索等。时序事件检测的挑战包括背景、光照、视角、运动速度、运动轨迹的多样性,运动主体位置的不确定性、镜头移动或切换造成的干扰等。本次竞赛旨在提供平台和大规模数据,推进最前沿的时序检测算法研究,解决在实际问题中的应用难题,促进工业界和学术界的深度合作。
本次比赛中,刘书明同学与曹鑫同学详尽地分析了时序事件检测中尺度不均衡的现象,并设计了尺度均衡的损失函数促进深度学习模型对各个尺度动作的学习,通过多特征、多粒度融合的方法,在数据集上取得了最佳的性能。他们的相关研究工作“TSI: Temporal Scale Invariant Network for Action Proposal Generation”也已发表于2020年亚洲计算机视觉大会。