新一代人工智能科研数据集

近日,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现将最近新增数据集整理如下 ——

  • 开源生物识别数据。
    http://openbiometrics.org/
  • Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段。
    地址:https://research.google.com/audioset/
  • Uber 2B trip data:首次展示 2 百万公里的出行数据。
    地址:https://movement.uber.com/cities
  • Yelp Open Dataset:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。
    地址:https://www.yelp.com/dataset
  • Core50:用于连续目标识别的新数据集和基准。
    地址:https://vlomonaco.github.io/core50/
  • Kaggle 数据集:https://www.kaggle.com/datasets
  • Data Portal:http://dataportals.org/
  • Open Data Monitor:https://opendatamonitor.eu/
  • Quandl Data Portal:https://www.quandl.com/
  • Mut1ny 头部/面部分割数据集:http://www.mut1ny.com/face-headsegmentation-dataset
  • Github 上的优秀公共数据集:https://www.kdnuggets.com/2015/04/awesome-public-datasets-github.html
  • 头部 CT 扫描数据集:491 次扫描的 CQ500 数据集。
    地址:http://headctstudy.qure.ai/

自然图像数据集

  • MNIST:手写数字图像。最常用的可用性检查。格式 25×25、居中、黑白手写数字。这是一项简单的任务——仅某部分适用于 MNIST,不意味着它有效。
    地址:http://yann.lecun.com/exdb/mnist/
  • CIFAR10 / CIFAR100:32×32 彩色图像,10/100 类。虽然仍有趣却不再常用的可用性检查。
    地址:http://www.cs.utoronto.ca/~kriz/cifar.html
  • Caltech 101:101 类物体的图片。
    地址:http://www.vision.caltech.edu/Image_Datasets/Caltech101/
  • Caltech 256:256 类物体的图片。
    地址:http://www.vision.caltech.edu/Image_Datasets/Caltech256/
  • STL-10 数据集:用于开发无监督特征学习、深度学习、自学习算法的图像识别数据集。像修改过的 CIFAR-10。
    地址:http://cs.stanford.edu/~acoates/stl10/
  • The Street View House Numbers (SVHN):Google 街景中的门牌号码。可以把它想象成复现的户外 MNIST。
    地址:http://ufldl.stanford.edu/housenumbers/
  • NORB:玩具摆件在各种照明和姿势下的双目图像。
    地址:http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/
  • Pascal VOC:通用图像分割/分类——对于构建真实世界图像注释不是非常有用,但对基线很有用。
    地址:http://pascallin.ecs.soton.ac.uk/challenges/VOC/
  • Labelme:带注释图像的大型数据集。
    地址:http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
  • ImageNet:新算法的客观图像数据集(de-facto image dataset)。许多图像 API 公司都有来自其 REST 接口的标签,这些标签近 1000 类;WordNet; ImageNet 的层次结构。
    地址:http://image-net.org/
  • LSUN:具有很多辅助任务的场景理解(房间布局估计,显著性预测(saliency prediction)等),有关联竞赛。(associated competition)。
    地址:http://lsun.cs.princeton.edu/2016/
  • MS COCO:通用图像理解/说明,有关联竞赛。
    地址:http://mscoco.org/
  • COIL 20:不同物体在 360 度旋转中以每个角度成像。
    地址:http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php
  • COIL100:不同物体在 360 度旋转中以每个角度成像。
    地址:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php
  • Google 开源图像:有 900 万张图像的网址集合,这些图像通过知识共享(Creative Commons)被标注成 6000 多个类别。
    地址:https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

地理空间数据

  • OpenStreetMap:免费提供整个星球的矢量数据。它包含(旧版)美国人口普查局的数据。
    地址:http://wiki.openstreetmap.org/wiki/Planet.osm
  • Landsat8:整个地球表面的卫星视角图,每隔几周更新一次。
    地址:https://landsat.usgs.gov/landsat-8
  • NEXRAD:美国大气层的多普勒雷达扫描图。
    地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

人工数据集

  • Arcade Universe:一个人工数据集生成器,图像包含街机游戏 sprite,如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器。
    地址:https://github.com/caglar/Arcade-Universe
  • 以 Baby AI School 为灵感的数据集集合。
    地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAISchool
  • Baby AI Shapes Dataset:区分 3 种简单形状。
    地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets
  • Baby AI Image And Question Dataset:一个问题-图像-答案数据集。
    地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets
  • Deep Vs Shallow Comparison ICML2007:为实证评估深层架构而生成的数据集。
    地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007
  • MnistVariations:在 MNIST 中引入受控变化。
    地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/MnistVariations
  • RectanglesData:区分宽矩形和垂直矩形。
    地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesData
  • ConvexNonConvex:区分凸形和非凸形状。
    地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex
  • BackgroundCorrelation:嘈杂 MNIST 背景下相关度的控制
    地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation

人脸数据集

  • Labelled Faces in the Wild:13000 个经过裁剪的人脸区域(使用已经用名称标识符标记过的 Viola-Jones)。数据集中每个人员的子集里包含两个图像——人们常用此数据集训练面部匹配系统。
    地址:http://vis-www.cs.umass.edu/lfw/
  •  UMD Faces:有 8501 个主题的 367,920 个面孔的带注释数据集。
    地址:http://www.umdfaces.io/
  • CASIA WebFace:超过 10,575 个人经面部检测的 453,453 张图像的面部数据集。需要一些质量过滤。
    地址:http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html
  • MS-Celeb-1M:100 万张全世界的名人图片。需要一些过滤才能在深层网络上获得最佳结果。
    地址:https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/
  • Olivetti:一些人类的不同图像。
    地址:http://www.cs.nyu.edu/~roweis/data.html
  • Multi-Pie:The CMU Multi-PIE Face 数据库。
    地址:http://www.multipie.org/
  • Face-in-Action:http://www.flintbox.com/public/project/5486/
  • JACFEE:日本和白种人面部情绪表达的图像。
    地址:http://www.humintell.com/jacfee/
  • FERET:面部识别技术数据库。
    地址:http://www.itl.nist.gov/iad/humanid/feret/feret_master.html
  • mmifacedb:MMI 面部表情数据库。
    地址:http://www.mmifacedb.com/
  • IndianFaceDatabase:http://vis-www.cs.umass.edu/~vidit/IndianFaceDatabase/
  • 耶鲁人脸数据库:http://vision.ucsd.edu/content/yale-face-database
  • 耶鲁人脸数据库 B:http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html
  •  Mut1ny 头部/面部分割数据集:像素超过 16K 的面部/头部分割图像
    地址:http://www.mut1ny.com/face-headsegmentation-dataset

视频数据集

  • Youtube-8M:用于视频理解研究的大型多样化标记视频数据集。
    地址:https://research.googleblog.com/2016/09/announcing-youtube-8m-large-and-diverse.html

文本数据集

  • 20 newsgroups:分类任务,将出现的单词映射到新闻组 ID。用于文本分类的经典数据集之一,通常可用作纯分类的基准或任何 IR /索引算法的验证。
    地址:http://qwone.com/~jason/20Newsgroups/
  • 路透社新闻数据集:(较旧)纯粹基于分类的数据集,包含来自新闻专线的文本。常用于教程。
    地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
  • 宾州树库:用于下一个单词或字符预测。
    地址:http://www.cis.upenn.edu/~treebank/
  • UCI‘s Spambase:来自著名的 UCI 机器学习库的(旧版)经典垃圾邮件数据集。根据数据集的组织细节,可以将它作为学习私人垃圾邮件过滤的基线。
    地址:https://archive.ics.uci.edu/ml/datasets/Spambase
  • Broadcast News:大型文本数据集,通常用于下一个单词预测。
    地址:http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S44
  • 文本分类数据集:来自 Zhang et al., 2015。用于文本分类的八个数据集合集。这些是用于新文本分类基线的基准。样本大小从 120K 至 3.6M 不等,范围从二进制到 14 个分类问题。数据集来自 DBPedia、亚马逊、Yelp、Yahoo!和 AG。
    地址:https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M
  • WikiText:来自维基百科高质量文章的大型语言建模语料库,由 Salesforce MetaMind 策划。
    地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/
  • SQuAD:斯坦福问答数据集——应用广泛的问答和阅读理解数据集,其中每个问题的答案都以文本形式呈现。
    地址:https://rajpurkar.github.io/SQuAD-explorer/
  • Billion Words 数据集:一种大型通用语言建模数据集。通常用于训练分布式单词表征,如 word2vec。
    地址:http://www.statmt.org/lm-benchmark/
  • Common Crawl:网络的字节级抓取——最常用于学习单词嵌入。可从 Amazon S3 上免费获取。也可以用作网络数据集,因为它可在万维网进行抓取。
    地址:http://commoncrawl.org/the-data/
  • Google Books Ngrams:来自 Google book 的连续字符。当单词首次被广泛使用时,提供一种简单的方法来探索。
    地址:https://aws.amazon.com/datasets/google-books-ngrams/
  • Yelp 开源数据集:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。
    地址:https://www.yelp.com/dataset

问答数据集

  • Maluuba News QA 数据集:CNN 新闻文章中的 12 万个问答对。
    地址:https://datasets.maluuba.com/NewsQA
  • Quora 问答对:Quora 发布的第一个数据集,包含重复/语义相似性标签。
    地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
  • CMU Q / A 数据集:手动生成的仿真问/答对,维基百科文章对其难度评分很高。
    地址:http://www.cs.cmu.edu/~ark/QA-data/
  • Maluuba 面向目标的对话:程序性对话数据集,对话旨在完成任务或做出决定。常用于聊天机器人。
    地址:https://datasets.maluuba.com/Frames
  • bAbi:来自 Facebook AI Research(FAIR)的综合阅读理解和问答数据集。
    地址:https://research.fb.com/projects/babi/
  • The Children’s Book Test:Project Gutenberg 提供的儿童图书中提取的(问题+背景、答案)对的基线。用于问答(阅读理解)和仿真查找。
    地址:http://www.thespermwhale.com/jaseweston/babi/CBTest.tgz

情感数据集

  • 多领域情绪分析数据集:较旧的学术数据集。
    地址:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
  • IMDB:用于二元情感分类的较旧、较小数据集。对文献中的基准测试无法支持更大的数据集。
    地址:http://ai.stanford.edu/~amaas/data/sentiment/
  • Stanford Sentiment Treebank:标准情感数据集,在每个句子解析树的每个节点都有细粒度的情感注释。
    地址:http://nlp.stanford.edu/sentiment/code.html

推荐和排名系统

  • Movielens:来自 Movielens 网站的电影评分数据集,各类大小都有。
    地址:https://grouplens.org/datasets/movielens/
  • Million Song 数据集:Kaggle 上元数据丰富的大型开源数据集,可以帮助人们使用混合推荐系统。
    地址:https://www.kaggle.com/c/msdchallenge
  • Last.fm:音乐推荐数据集,可访问深层社交网络和其它可用于混合系统的元数据。
    地址:http://grouplens.org/datasets/hetrec-2011/
  • Book-Crossing 数据集:来自 Book-Crossing 社区。包含 278,858 位用户提供的约 271,379 本书的 1,149,780 个评分。
    地址:http://www.informatik.uni-freiburg.de/~cziegler/BX/
  • Jester:来自 73,421 名用户对 100 个笑话的 410 万个连续评分(分数从-10 至 10)。
    地址:http://www.ieor.berkeley.edu/~goldberg/jester-data/
  • Netflix Prize:Netflix 发布了他们的电影评级数据集的匿名版;包含 480,000 名用户对 17,770 部电影的 1 亿个评分。首个主要的 Kaggle 风格数据挑战。随着隐私问题的出现,只能提供非正式版。
    地址:http://www.netflixprize.com/

网络和图形

  • Amazon Co-Purchasing:亚马逊评论从「购买此产品的用户也购买了……」这一部分抓取数据,以及亚马逊相关产品的评论数据。适合在网络中试行推荐系统。
    地址:http://snap.stanford.edu/data/#amazon
  • Friendster 社交网络数据集:在变成游戏网站之前,Friendster 以朋友列表的形式为 103,750,348 名用户发布了匿名数据。
    地址:https://archive.org/details/friendster-dataset-201107

语音数据集

  • 2000 HUB5 English:最近在 Deep Speech 论文中使用的英语语音数据,从百度获取。
    地址:https://catalog.ldc.upenn.edu/LDC2002T43
  • LibriSpeech:包含文本和语音的有声读物数据集。由多个朗读者阅读的近 500 小时的各种有声读物演讲内容组成,包含带有文本和语音的章节。
    地址:http://www.openslr.org/12/
  • VoxForge:带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的案例。
    地址:http://www.voxforge.org/
  • TIMIT:英语语音识别数据集。
    地址:https://catalog.ldc.upenn.edu/LDC93S1
  • CHIME:嘈杂的语音识别挑战数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个扬声器在 4 个嘈杂位置的近 9000 个录音构成,仿真录音由多个语音环境和清晰的无噪声录音结合而成。
    地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
  • TED-LIUM:TED 演讲的音频转录。1495 个 TED 演讲录音以及这些录音的文字转录。
    地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

音符音乐数据集

  • Piano-midi.de: 古典钢琴曲
    地址:http://www.piano-midi.de/
  • Nottingham : 超过 1000 首民谣
    地址:http://abc.sourceforge.net/NMD/
  • MuseData: 古典音乐评分的电子图书馆
    地址:http://musedata.stanford.edu/
  • JSB Chorales: 四部协奏曲
    地址:http://www.jsbchorales.net/index.shtml

其它数据集

  • CMU 动作抓取数据集:http://mocap.cs.cmu.edu/
  • Brodatz dataset:纹理建模。
    地址:http://www.ux.uis.no/~tranden/brodatz.html
  • 来自欧洲核子研究中心的大型强子对撞机(LHC)的 300TB 高质量数据。
    地址:http://opendata.cern.ch/search?ln=en&p=Run2011A+AND+collection:CMS-Primary-Datasets+OR+collection:CMS-Simulated-Datasets+OR+collection:CMS-Derived-Datasets
  • 纽约出租车数据集:由 FOIA 请求而获得的纽约出租车数据,导致隐私问题。
    地址:http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml
  • Uber FOIL 数据集:来自 Uber FOIL 请求的纽约 4.5M 拾取数据。
    地址:https://github.com/fivethirtyeight/uber-tlc-foil-response
  • Criteo 点击量数据集:来自欧盟重新定位的大型互联网广告数据集。
    地址:http://research.criteo.com/outreach/

健康 & 生物数据

  • 欧盟传染病监测图集:http://ecdc.europa.eu/en/data-tools/atlas/Pages/atlas.aspx
  • 默克分子活动挑战:http://www.kaggle.com/c/MerckActivity/data
  • Musk dataset: Musk dataset 描述了以不同构造出现的分子。每个分子都是 musk 或 non-musk,且其中一个构造决定了这一特性。
    地址:https://archive.ics.uci.edu/ml/datasets/Musk+(Version+2)

政府 & 统计数据

  • Data USA: 最全面的可视化美国公共数据。
    地址:http://datausa.io/
  • 欧盟性别统计数据库:http://eige.europa.eu/gender-statistics
  • 荷兰国家地质研究数据 :http://www.nationaalgeoregister.nl/geonetwork/srv/dut/search#fast=index&from=1&to=50&any_OR_geokeyword_OR_title_OR_keyword=landinrichting*&relation=within
  • 联合国开发计划署项目:http://open.undp.org/#2016

数据分析技能全流程知识细节

进入一个全新的领域之前,最好能够对这个领域的知识体系、技能模型有全面的了解,这样你能知道哪些是应该学习,哪些是暂时不用学的,知道什么样的路径适合自己的状况。

基于数据分析这个技能,DC 学院 —— 准备了一份『超级技能地图』,帮你快速认识数据分析的技能模块,以及不同的分支下,有哪些必备的技能,以及有哪些好用的资源。

这一张图,可以帮助你快速认识数据分析这个领域,即便你从未接触过相关的内容,也可以很清晰地建立数据分析知识框架。

这是数据分析小白必备的数据分析技能图,因为包含了 Python 数据分析全方位的技能体系,比如数据获取、SQL 数据库、Python、统计学、数据分析核心模块、可视化、报告撰写等等都有详细拆解。

高效的学习路径是什么?就是按这样的顺序循序渐进,你会知道每个部分需要完成的目标是什么,需要学习哪些知识点,哪些知识是暂时不必要的。

1. 数据获取

一般数据获取有内部和外部两种渠道,内部数据可以通过企业数据库提取,需要掌握 SQL 相关的技能。

外部数据则可以通过公开数据集和爬取网络数据实现,需要了解相关的数据开放站点,以及掌握必要的 Python 爬虫技能。

数据获取
数据获取

2. SQL 数据库

SQL 技能是数据分析师职位必备的技能之一,需要你对企业的数据库进行管理,能够正常地存储和提取数据。当然 SQL 需要掌握的技能并不难,了解基本的语法,掌握基本的增删改查就可以满足常规的需求了。

SQL 数据库
SQL 数据库

3. 数据分析必备统计学

如果说数据分析需要什么数学基础,那统计学应该是设计最多的了,但不需要非常深入,因为大多数数据分析用到的无非是统计量、数据分布等基础知识。

数据分析必备统计学
数据分析必备统计学

4. 数据分析必备 Python 基础

利用 Python 进行数据分析,那 Python 的基础就非常重要了,这意味着你后续是否能够正常地用 Python 代码来实现你的分析想法。

基本的编程规范、数据结构、自定义函数 、控制语句(条件语句、循环语句)、文件读写和模块使用都是需要重点掌握的点。

数据分析必备 Python 基础
数据分析必备 Python 基础

5. 数据分析核心工具

在 Python 数据分析的体系内,Numpy / Pandas / Matplotlib 三个核心库是绕不过去的。也是这三个工具,能够让你实现数据清洗、科学计算、数据分析、数据可视化等核心的工作。

掌握这些,你就完全可以去实现描述型数据分析、探索型数据分析,再加上 Sklearn,你可以去实现预测型数据分析,一个完整的数据分析项目,也不过云云。

数据分析核心工具
数据分析核心工具

6. 数据报告撰写

数据报告撰写虽然看起来像是文档整理类的工作,但也是非常重要的,因为直接决定了你最终的输出成果。

对于如何撰写一份优秀的数据报告,问题拆解的逻辑、数据指标的选取、用户受众需求的分析、图形化的呈现形式都是非常重要的点。

数据报告撰写
数据报告撰写

DeepFashion:服装公开数据集

Large-scale Fashion (DeepFashion) Database
Large-scale Fashion (DeepFashion) Database

DeepFashion 是香港中文大学开放的一个 large-scale 数据集。包含 80 万张图片,包含不同角度,不同场景,买家秀,买家秀等图片。

每张图片也有非常丰富的标注信息,包括 50 种类别,1000 种属性,Bbox,特征点。

还有约 30 万的不同姿势/不同场景的图片 pairs。

实际上 DeepFashion 是由4个子集组成的。它们分别是:

1. Category and Attribute Prediction Benchmark

这个子集是用来做分类和属性预测的。共有 50 分类标记,1000 属性标记。包含 289,222 张图像。每张图像都有 1 个类别标注,1000 个属性标注,Bbox 边框,landmarks。数据集下载后可以直接使用。

 Category and Attribute Prediction Benchmark
Category and Attribute Prediction Benchmark

2. In-shop Clothes Retrieval Benchmark

这个是卖家秀图片集,每个商品 id,有多张不同角度的卖家秀,放在同一个文件夹内。7982 件商品,共 52712 张图像,每张图片都有 463 中属性,Bbox,landmarks,以及店铺描述。数据集下载后解压需要密码,密码需要邮件联系作者获取。

In-shop Clothes Retrieval Benchmark
In-shop Clothes Retrieval Benchmark

3. Consumer-to-shop Clothes Retrieval Benchmark

这个子集是卖家秀买家秀对应的数据集,每个商品id对应的文件夹中包含一张卖家秀和几张买家秀。33 881 种商品,共 239 557 张图片。每张图片都有 Bbox,303 种属性,以及来源说明(卖家,买家)。数据集解压同样需要密码。

Consumer-to-shop Clothes Retrieval Benchmark
Consumer-to-shop Clothes Retrieval Benchmark

4. Fashion Landmark Detection Benchmark:

这个子集主要是做 landmark和 Bbox 用的,包含 123 016 张图片,每张图片都有 landmarks 和 Bbox 的标记,还有类别标注(上衣,下装,全身),以及姿态(正常姿势,大幅度姿势等)信息。数据集可直接使用。

Fashion Landmark Detection Benchmark
Fashion Landmark Detection Benchmark

2019 年中国人工智能基础数据服务白皮书

人工智能基础数据服务:指为 AI 算法训练及优化提供的数据采集、清洗、信息抽取、标注等服务,以采集和标注为主。《2019 年中国人工智能基础数据服务白皮书》由艾瑞和百度数据众包联合发布,报告主要分析中国人工智能基础数据服务的现状以及未来发展方向,重点讨论人工智能基础数据服务的价值、发展背景、产业链、市场空间和应用场景。

在经历了一段时期的野蛮生长之后,人工智能基础数据服务行业进入成长期,行业格局逐渐清晰。人工智能基础数据服务方的上游是数据生产和外包提供者,下游是 AI 算法研发单位,人工智能基础数据服务方通过数据处理能力和项目管理能力为其提供整体的数据资源服务,不过 AI 算法研发单位和 AI 中台也可提供一些数据处理工具,产业上下游普遍存在交叉。

2018 年中国人工智能基础数据服务市场规模为 25.86 亿元,其中数据资源定制服务占比 86%,预计 2025年市场规模将突破 113 亿元。市场供给方主要由人工智能基础数据服务供应商和算法研发单位自建或直接获取外包标注团队的形式组成,其中供应商是行业主要支撑力量。

数据安全、采标能力、数据质量、管理能力、服务能力等仍是需求方的痛点,需要人工智能基础服务商有明确具体的安全管理流程、能够深入理解算法标注需求、可提供精力集中且高质量的服务、能够积极配合、快速响应需求方的要求。

随着算法需求越来越旺盛,依赖人工标注不能满足市场需求,因此增强数据处理平台持续学习能力,由机器持续学习人工标注,提升预标注和自动标注能力对人工的替代率将成趋势。远期,越来越多的长尾、小概率事件所产生的数据需求增强,机器模拟或机器生成数据会是解决这一问题的良好途径,及早研发相应技术也将成为 AI 基础数据服务商未来的护城河。

新一代 MNIST 数据集 – QMNIST

在机器学习研究中,MNIST 手写数字图像数据集已经作为基准使用了二十余年。该数据集虽然经典,但也存在测试集过小等问题。近日,来自 Facebook 和纽约大学的研究者重建并扩展了该数据集,在测试集中新增了 50,000 个样本。MNIST 作者之一的 Yann LeCun 在推特中表示

如果多次使用原版的 MNIST 测试集,你的模型可能在测试集上已经过拟合了。是时候在新增的样本上试一下了。

MNIST 数据集
MNIST 数据集

MNIST 是一个由 Yann Lecun 等人创建的手写数字图像数据集,是研究者研究机器学习、模式识别等任务的高质量数据库。它包含训练集和测试集,训练集包含 60,000 个样本,测试集包含 10,000 个样本。

MNIST 数据集抽取自 NIST 数据库。NIST 手写字符集第一个分区的发布要早一年,其训练集是由 2,000 名人口普查局雇员手写的,而测试集更加有挑战性,是由 500 名在校生手写的。

LeCun、Cortes 和 Burges 的其中一个目的是创建一个分布相似的训练集和测试集。据他们描述,这个过程产生了两个 60,000 个样本的集合。然后通过下采样将测试集样本数降低到 10,000 个,可能是因为用当时的电脑处理这样一个数据集会非常慢。剩余的 50,000 个样本从此就丢失了。

20 多年来,MNIST 数据集都被认为是标准的机器学习基准。在过去的十年来,许多研究者都表达过这个数据集已经被过度使用的观点。尤其是其测试集过小,只有 10,000 样本,这引起了很多担忧。数以百计的论文都依据这同一个测试集,得到的性能越来越高。那么模型是否已经在测试集上过拟合?我们还能否相信在该数据集上取得的新结论?机器学习数据集到底能用多久?

为了解决原版 MNIST 测试集过小等问题,来自 Facebook 和研究者决定重建该数据集。QMNIST 的 GitHub 页上提供了 Pytorch 平台的 QMNIST 数据加载器,需要将数据集下载至与 pytorch.py 相同的文件夹下将网络下载选项设置为 download=’True’。

from qmnist import QMNIST

# the qmnist training set, download from the web if not found
qtrain = QMNIST('_qmnist', train=True, download=True)

# the qmnist testing set, do not download.
qtest = QMNIST('_qmnist', train=False)

# the first 10k of the qmnist testing set with extended labels
# (targets are a torch vector of 8 integers)
qtest10k = QMNIST('_qmnist', what='test10k', compat=False, download='True')

# all the NIST digits with extended labels
qall = QMNIST('_qmnist', what='nist', compat=False)

它与标准的 Pytorch MNIST 数据加载器兼容。

GitHub地址项目 GitHub 地址

NLP最新科研福利!MSRA开源学术界最全面语义分析数据集

微软亚洲研究院(MSRA),刚刚送出最新一批 AI 资源和福利。

在“中国高校人工智能人才国际培养计划” 2019 国际人工智能专家论坛暨 2019 微软新一代人工智能开放科研教育平台合作论坛,MSRA 面向高校提供最新的人工智能技术、工具、科研成果,以及数据集。

新增业界最全面的语义分析数据集

在新一代人工智能开放科研教育平台的合作框架下,微软开放了自身人工智能领域的数据集供合作高校在科研和教育工作上进行引用,如微软机器阅读理解(MS MARCO)、微软研究院社交媒体对话语料库、18K 数学文字题测试集 SigmaDolphin 等。

高校也通过平台贡献了各自在多个领域的数据集,如中国科学技术大学类脑实验室的海量类脑数据等。

2019 年,微软亚洲研究院正式发布自然语言处理(NLP)领域全新的语义分析数据集 MSParS (Multi-perspective Semantic ParSing Dataset)。

作为智能音箱、搜索引擎、自动问答和对话系统等人工智能产品中的核心技术,语义分析(Semantic Parsing)面临着因人工标注代价高昂而导致的数据缺乏问题,目前已有的语义分析数据集在数据规模和问题类型覆盖度上非常有限。

为此,微软亚洲研究院提出并构建了 MSParS,该数据集(1.0版本)包含 81,826 个自然语言问题及其对应的结构化语义表示,覆盖 12 种不同的问题类型和 2,071 个知识图谱谓词,是学术界目前最全面的语义分析数据集。未来,微软将与各高校一起开放、共享更多数据,促进产教融合合作生态的建设。

MSParS 数据集:

https://github.com/msra-nlc/MSParS

 

旷视发布最大物体检测数据集

在 4 月 16 日的智源学者计划启动暨联合实验室发布会上,旷视科技发布了通用物体检测数据集Objects365,包含 63 万张图像,远超 ImageNet、COCO 等数据集。另外,还开办了针对此数据集的 CVPR Workshop 竞赛。数据集包括人、衣物、居室、浴室、厨房、办公、电器、交通、食物、水果、蔬菜、动物、运动、乐器 14 个大类,每一类都有数十个小类。

局部渐进稀疏技术自动驾驶新数据集

NuScenes 最新研究发布了一个大型自动驾驶数据集,该数据集是首个包括 5 个雷达,1 个激光雷达,6 个摄像头,IMU 和 GPS 在内的完整传感器套件的数据集。 NuTonomy场景(NuScenes)比 KITTI 数据集多出 7 倍和 100 倍的图像,涵盖 23 个类别,包括不同类型的车辆,行人,移动设备及其他对象。

研究人员还发明了一种新的 3D 方法来整合各种物体检测的类别和任务,包括对物体大小,分类,方向,本地化,速度和属性的检测和估计。针对激光雷达和图像检测方法的数据集分析和基线测试证明,尽管仅基于激光雷达和仅基于图像的物体检测都能达到物体识别的要求,但仅激光雷达的网络性能更为优越。

NuScenes 能够加速自动驾驶方面的研究和技术,从而推进物体识别技术,并使相关技术更加实用化。我们希望研究人员鼓励对于 NuScenes 的进一步探索,以使其能够运用所有传感器数据并利用语义地图来获得更好的性能。因为每个传感器模态都提供用于训练 3D 对象检测的补充特征。

清华 + 美图开源大规模视频分析数据集

互联网上有大量的教学视频,可以帮助我们完成各种各样的挑战,然而,大多数现有的教学视频分析数据集在多样性和规模上都存在局限性,而实际应用程序更加多样化,这使得这些数据集显得匮乏,此外,组织利用这些数据集仍然存在巨大挑战。

为了解决以上问题,清华大学和美图开源了教程类行为视频数据集 COINCOmprehensive INstructional video analysis)。COIN 数据集采用分层结构组织,包含 11,827 个视频,包含与我们日常生活相关的 12 个领域(如车辆、小玩意等) 180 个任务的视频内容。这些视频均来自 YouTube。视频的平均长度为 2.36 分钟。每个视频都标有 3.91 个片段,每个片段平均持续 14.91 秒。总的来说,数据集包含 476 小时的视频,带有 46,354 个带注释的段。

COmprehensive INstructional video analysis
COmprehensive INstructional video analysis

为了构建具有高度多样性的大型基准,我们提出了一种组织数据集的层次结构,分别为领域层、任务层、步骤层。

  • 领域层:对于第一级 COIN,共分为 12 个领域:护理和护工,车辆,休闲,小机械,电器,家居用品,科学与工艺、植物与水果、零食与饮料、运动与家务。
  • 任务层:链接到领域层,精细到具体的目的。比如“更换灯泡”与“安装吊扇”的二级分类都归属“电器”领域下。
  • 步骤层:第三级是完成不同任务的一系列不同步骤,例如,“拆卸灯罩”、“取出旧灯泡”、“安装新灯泡”、“安装灯罩”等步骤与“更换灯泡”任务相关联。

GitHub地址项目 GitHub 地址

大规模中文自然语言处理语料

中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。在 2019 年初这个时点上 —— 普通的从业者、研究人员或学生,并没有一个比较好的渠道获得极大量的中文语料。笔者想要训练一个中文的词向量,在百度和 Github 上上搜索了好久,收获却很少:要么语料的量级太小,要么数据过于成旧,或需要的处理太复杂。

为此,徐亮创建了一个中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、新闻和百科语料。包括 ——

  1. 维基百科(wiki2019zh),100万个结构良好的中文词条;
  2. 新闻语料(news2016zh),250万篇新闻,含关键词、描述;
  3. 百科问答(baike2018qa),150万个带问题类型的问答;
  4. 社区问答json版(webtext2019zh),410万个高质量社区问答,适合训练超大模型;
  5. 翻译语料(translation2019zh),520万个中英文句子对;

GitHub地址项目 GitHub 地址

270 GB 阿里巴巴数据中心数据开放下载

  • 数据中心每个机器的运行情况如何?
  • 这些机器上运行着什么样的应用?
  • 这些应用有什么特点?

对于这些问题,除了少数资深从业者之外,普通学生和企业的研究者很难了解其中细节。

为了让有兴趣的学生以及相关研究人员,可以从数据上更加深入地理解大规模数据中心,我们特别发布了这份数据集(Alibaba Cluster Data V2018)。数据集中记录了某个生产集群中服务器以及运行任务的详细情况。我们希望这波数据的发布可以拉近我们与学术研究、业界同行之间的距离。

在数据集中,你可以详细了解到我们是如何通过混部把资源利用率提高到 45%;我们每天到底运行了多少任务;以及业务的资源需求有什么特点。如何使用这份数据集,完全取决于你的需要。

GitHub地址项目 GitHub 地址

中文 NLP 词库

最近,在 GitHub 上,有人收罗了一份资源,汇集了 40 个关于中文 NLP 词库,涵盖了各个方面。中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌 & 零件词库、时间抽取、连续英文切割、中文词向量大全、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据。

在应用这些语料库同时,你或者还需要 pyHanLPJieBa 等中文分词组件支持。

GitHub地址项目 GitHub 地址

Google 开源 Open Images V4 数据集

Open Images 是谷歌开源的一个大型数据集,包含大约 900 万张图像,这些图像用图像级别的标签和目标边界框进行了标注。最近,谷歌发布了该数据集的第四个版本 —— Open Images V4,图像数量增加到 920 万,其训练集包含 1,460 万个边界框,用于标识从属于 600 个目标类别的 174 万张图像中的目标,这使它成为了现有的含有目标位置标注的最大数据集。这些边界框大部分由专业的标注人员手工绘制,以确保准确性和一致性。数据集中的图像非常多样化,通常包含存在多个目标的复杂场景(平均每张图像 8.4 个)。此外,数据集用逾数千个类别的图像级标签进行标注。数据集被分成了训练集(9,011,219 张图像)、验证集(41,620 张图像)和测试集(125,436 张图像)三部分。

Google Open Images Dataset V4
Google Open Images Dataset V4

数据集下载地址

平行语料库数据集

与大部分机器学习模型一样,有效的机器翻译系统需要大量的训练数据才能产生可读性强的结果。平行文本翻译语料库是两种语言之间的结构化翻译文本集。此类平行语料库对训练机器翻译算法至关重要。但从哪里可以获得这些外语数据集呢?

机器之心整理了一份完整的名单:《囊括欧亚非大陆多种语言的 25 个平行语料库数据集

Tencent AI Lab 开源大规模 NLP 数据集

10 月19 日,Tencent AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据集包含 800 多万中文词汇。Tencent AI Lab 表示,相比现有的公开数据,该数据在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。

Tencent AI Lab 此次公开的中文词向量数据包含 800 多万中文词汇,其中每个词对应一个 200 维的向量。相比现有的中文词向量数据,Tencent AI Lab 的中文词向量着重提升了以下 3 个方面:

  • 覆盖率(Coverage):该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如『不念僧面念佛面』、『冰火两重天』、『煮酒论英雄』、『皇帝菜』、『喀拉喀什河』等。
  • 新鲜度(Freshness):该数据包含一些最近一两年出现的新词,如『恋与制作人』、『三生三世十里桃花』、『打call”、『十动然拒』、『供给侧改革』、『因吹斯汀』等。
  • 准确性(Accuracy):由于采用了更大规模的训练数据和更好的训练算法,所生成的词向量能够更好地表达词之间的语义关系。
Tencent AI Lab Embedding Corpus for Chinese Words and Phrases
Tencent AI Lab Embedding Corpus for Chinese Words and Phrases