互联网上有大量的教学视频,可以帮助我们完成各种各样的挑战,然而,大多数现有的教学视频分析数据集在多样性和规模上都存在局限性,而实际应用程序更加多样化,这使得这些数据集显得匮乏,此外,组织利用这些数据集仍然存在巨大挑战。
为了解决以上问题,清华大学和美图开源了教程类行为视频数据集 COIN(COmprehensive INstructional video analysis)。COIN 数据集采用分层结构组织,包含 11,827 个视频,包含与我们日常生活相关的 12 个领域(如车辆、小玩意等) 180 个任务的视频内容。这些视频均来自 YouTube。视频的平均长度为 2.36 分钟。每[……]