最佳新一代人工智能科研开放数据集

Luke de Oliveira 与几位数据科学与机器学习专家在 Medium 上共同发布了一份,新一代人工智能时代最佳科研数据资源的列表,里面详尽的列举了在深度学习与新一代人工智能各个主要领域的科研数据,同时将数据集分为了经典,科研,有用,陈旧几个等级。在构建人工智能或机器学习系统比以往的时候更加容易的今天,借助良好的科研数据资源与云计算平台,任何人都能用笔记本电脑去训练出最前沿的机器学习模型。

受国内的开放数据环境所限,很多高等院校,科研机构尽管已经设置了大数据处理分析底层架构,然而在真正进行深度学习与新一代人工智能科研项目的过程中,却往往缺乏用于模型训练的专用数据集。虽然不算是人工智能训练的最前沿,但人工智能的无名英雄确实就是数据,无论对于监督性学习还是无监督学习模型而言,越大的数据量意味着模型能接受更多的训练与验证。

同时,构建一个新的人工智能解决方案,科研项目或产品,最困难的部分不是人工智能本身或算法,通常最困难的地方是数据收集和标注。通过该文章收录的标准数据集,可以作为高校及科研机构验证或构建更优良解决办法的良好起点。

另外,我们还补充提供了两份分别由德克萨斯州奥斯汀分校,以及CV Papers整理的开放数据集,覆盖了:对象检测,分类,识别,跟踪,分层,前景/背景,显性检测,视频监控,多视点,动作,人类姿势与表达,图像拼接,医疗等众多细分领域。