近期,Tianchi 发布了一份非常全面的开源数据集。包含了计算机视觉,自然语言处理,智能金融,智能商务,智能医疗,智能制造,智能农业,智能教育等数据集,非常适合学习和实践。
标签: Dataset
眼底 OCTA 血管分割数据集(ROSE)及新型的血管分割框架
对眼底 OCTA 图像中的血管结构进行提取分割,除了有助于临床医生对许多眼科疾病的诊断外,还有望为观测和评估包括阿尔茨海默氏病(AD)等在内的神经退行性疾病发展开辟新途径。目前基于视网膜 OCTA 图像的自动血管分割研究相对较少,一方面由于 OCTA 图像存在低信噪比、投影伪影等问题,另一方面也缺少公开的 OCTA 血管分割数据集用于训练分割模型,因此 OCTA 图像中血管结构的自动分割仍存在很大的挑战。今天向大家介绍一篇近期发表在 IEEE-TMI 的一篇研究论文,该论文公开了领域内一个为数不多的眼底 OCTA 血管分割数据集(ROSE),并以此为基础提出了用于眼底 OCTA 血管分割的新型[……]
Kaggle 上线 arXiv 完整数据集
众所周知,arXiv 是我们搜索、浏览和下载学术论文的重要工具。近 30 年来,arXiv 为公众和研究社区提供了开放获取学术论文的服务。这些论文涉及物理学的庞大分支和计算机科学的众多子学科,如数学、统计学、电气工程、定量生物学和经济学等等。
arXiv 上研究论文数量之多有利也有弊。一方面,对于在自身研究领域迅速成长的研究生,以及致力于用科研为公众提供服务的研究者而言,这一丰富的信息库可以提供极有效的助力。另一方面,arXiv 有时在搜索时也有不便。
与此同时,Kaggle 通常是数据科学家和机器学习工程师寻求有趣数据集、公开笔记和赛题的重要平台。研究者可以利用 Kaggle 上[……]
最全 SpaceX 火箭数据开源
r/SpaceX 是 SpaceX 粉丝自发组织的社区,日常搜集整理 SpaceX 的火箭发射信息。
近日,SpaceX 粉丝把火箭有关信息贴到 GitHub,他们整理的 API,基本包含了 SPaceX 成立迄今的所有火箭数据。API 包含:SpaceX 的龙飞船、Starship、发射历史数据、核心舱、起落架、载荷信息等等,应有尽有。REST API 包含三大部分,clients、app (应用) 和原始数据。其中,API Clients 是对现有关于 SpaceX 的 API 合集,降低了以往信息查找、汇总的难度。
项目 GitHub 地址[……]
2020 年数据集资源更新
新增数据集
- 开源生物识别数据
- Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段。
- Uber 2B trip data:首次展示 2 百万公里的出行数据。
- Yelp Open Dataset:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。
- Core50:用于连续目标识别的新数据集和基准。
- Kaggle 数据集
- Data Portal
- Open Data Monitor
- Quandl Data Portal
[……]
位置识别 Street-level Sequences 数据集
位于瑞典的 Mapillary 宣布发布了一款新产品 MapillaryStreet-Level Sequences 数据集,这是一款公开可用的数据集,可以对 AI 模型进行基准测试和训练,以实现大规模、终身的位置识别。终身位置识别是在地理定位图像数据库中查找查询图像的最相似位置的任务。
本周发布的 Mapillary Street-LevelSequence 数据集是一个 160 万个地理图像序列的集合,这些序列与元数据绑定在一起,用于训练地点识别算法。Street-LevelSequence 数据集既有商业版本,也有研究版本,介绍了用于终身位置识别的 MapillaryStreet-[……]
Google 18 万小时的海域录音助力保护座头鲸
近几年,人工智能已经走进了各个领域,以帮助人类更好的进行研究。近日,《纽约时报》报道称,机器学习为海洋『巨头』座头鲸的科学研究提供了很大帮助。AI 可以通过长达 18 万小时的太平洋海下录音,检测出座头鲸歌声出现的时间和地点。美国国家海洋与大气管理局生态学家联系 Google 寻求帮助,希望在所有其他海洋噪音(例如海豚的叫声或轮船发动机的声音)中找到座头鲸的歌声。Google 工程师利用带注释数据集(其中鲸鱼歌声和其他噪音已被识别出来)在十小时内训练出一个神经网络来探测鲸鱼的歌声,这个网络基于一个用于识别 Youtube 视频中声音的模型。
事实上,AI 对于海洋研究用处很大,因[……]
CVPR 2020 Google 图像匹配挑战赛数据集
DFG 交通标志数据集
DFG 交通标志数据集,包括 200 个交通标志类别捕获在斯洛文尼亚公路跨越约 7,000 高分辨率图像。图像是由斯洛文尼亚 DFG 咨询公司提供和注释的。RGB 图像是通过安装在一辆汽车上的摄像头获得的,这辆汽车行驶在斯洛文尼亚六个不同的自治市。这些图像数据是在农村和城市地区获得的。从收集的大量数据中,只选择了包含至少一个交通标志的图像。此外,选择是这样进行的,通常有一个显着的场景变化之间的任何一对选定的连续图像。
该评价数据集称为 DFG 交通标志数据集是通过只关注具有足够数量样本的平面交通标志来创建的。每个类别至少有 20 个实例。边界框大小至少为 30 像素的样本被严格标注,而边[……]
奥迪大型自动驾驶数据集:A2D2
今天奥迪公司的研究人员在发布的论文 A2D2: Audi Autonomous Driving Dataset 中,公布了其大型自动驾驶数据集:A2D2,同时还配备了相关教程,并提供开放下载。数据集目标为推进计算机视觉、机器学习、自动驾驶的商用和学术研究。数据类型包含:RGB 图像,也包括对应的 3D 点云数据,记录的数据是时间同步的。标注类型包括:目标 3D 包围框,语义分割,实例分割以及从汽车总线提取的数据。数据规模:标注的非序列数据,41,227 帧,都含有语义分割标注和点云标签。其中含有前置摄像头视野内目标 3D 包围框标注 12,497 帧。另外,该库还包括 392,556 连续帧的[……]