作者:PRANAVDAR
翻译:Nicola
校对:冯羽
本文共字,建议阅读8分钟。本文介绍了图像处理,自然语言处理,以及音频/语音处理三类5个开源数据集。
简介
深度学习(或生活中的大部分领域)的关键是演练。演练各种问题-从图像处理到语音识别。每个问题都有其独特的细微差别和方法。
但是,哪里可以获得这些数据?现今你看到的很多研究论文都使用通常不向公众开放的专有数据集。而这成为了如果你学习并应用你新掌握的技能的阻碍。
如果你也遇到此问题,我们有解决方案提供给你。我们挑选了一系列公开可用的数据集供各位详细阅读。
在本文中,我们列出了一系列高质量的数据集,每个深度学习爱好者都可以应用和改进他们的技能。使用这些数据集将使你成为一名更好的数据科学家,同时你所学到的知识将对你的职业生涯产生无价的帮助-。我们还收录了具有最新技术(SOTA)结果的论文供你浏览并改进你的模型。
如何使用这些数据集
首先要做的事-这些数据集的容量相当大!所以请确保你的网络是高速的、不限流量或有很多流量地下载数据。
有很多种可以使用这些数据集的方式。你可以使用它们来应用各种深度学习技巧。也可以使用它们来磨练你的技能,了解如何识别和构建每个问题,思考独特的使用案例并展示给所有人你的发现,让大家都可以看到!
这些数据集分为三类-图像处理,自然语言处理,以及音频/语音处理。
让我们开始更深入的了解!
图像处理
MNIST
MNIST是最受欢迎的深度学习数据集之一。这是一个手写数字数据集,包含一组60,个示例的训练集和一组10,个示例的测试集。这是一个对于在实际数据中尝试学习技术和深度识别模式的很好的数据库,同时尝试学习如何在数据预处理中花费最少的时间和精力。
大小:?50MB
记录数量:分为10个类别的70,个图片
SOTA:DynamicRoutingBtwnCapsuls
MS-COCOCOCO是一个规模大且丰富的物体检测,分割和字幕数据集。它有几个特点:
物体分割
文中识别
超像素物质分割
K图像( 00K标记)
万个物体实例
80个物体类别
91个物质类别
每张图片5个字幕
50,有关键点的人
大小:?5GB(压缩)
记录数量:K图像,80个物体类别,每幅图像5个字幕,50,个有关键点的人
SOTA:MaskR-CNN
ImagNtImagNt是依据WordNt层次结构组织的图像数据集。WordNt包含大约,个短语,ImagNt提供了平均大约1个图像来说明每个短语。
大小:?GB
记录数量:图像总数:?1,,;每个都有多个边界框和相应的类标签
SOTA:AggrgatdRsidualTransformationsforDpNuralNtworks
OpnImagsDatastOpnImags是一个包含近万个图像URL的数据集。这些图像已经用数千个类别的图像级标签边框进行了注释。该数据集包含9,,19张图像的训练集,41,60张图像的验证集以及15,张图像的测试集。
大小:GB(压缩)
记录数量:9,,19张超过5k标签的图像
SOTA:Rsnt图像分类模型(在V数据上训练):Modlchckpoint,Chckpointradm,Infrnccod.
VisualQAVQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解是视觉和语言。这个数据集有一些有趣的特点:
65,张图片(COCO和抽象场景)
每张图片至少有3个问题(平均5.4个问题)
每个问题10个基于事实答案
每个问题3个似乎合理(但看起来不正确)的答案
自动评估指标
大小:5GB(压缩)
记录数量:65,张图片,每张图片至少3个问题,每个问题10个基于事实答案
SOTA:TipsandTricksforVisualQustionAnswring:LarningsfromthChallng
ThStrtViwHousNumbrs(SVHN)这是用于开发物体检测算法的真实世界图像数据集。这些只需要最少的数据预处理。它与本列表中提到的MNIST数据集类似,但拥有更多标签数据(超过,个图像)。这些数据是从谷歌街景中查看的房屋号码中收集的。
大小:.5GB
记录数量:10个课程中的6,30,40张图片
SOTA:DistributionalSmoothingWithVirtualAdvrsarialTraining
CIFAR-10这是另一个图像分类的数据集。它包含了10个类别的60,个图像(每个类在上图中表示为一行)。总共有50,个训练图像和10,个测试图像。数据集分为6个部分-5个培训批次和1个测试批次。每批有10,个图像。
大小:MB
记录数量:10个类别的60,张图片
SOTA:ShakDroprgularization
Fashion-MNISTFashion-MNIST包含60,个训练图像和10,个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其作为MNIST的直接替代品。每张图片都以灰度显示,并与10个类别的标签相关联。大小:30MB记录数量:10个类别的70,张图片SOTA:RandomErasingDataAugmntation
自然语言处理
IMDBRviws
这是一个电影爱好者的梦寐以求的数据集。它意味着二元情感分类,并具有比此领域以前的任何数据集更多的数据。除了训练和测试评估示例之外,还有更多未标记的数据可供使用。包括文本和预处理的词袋格式。大小:80MB记录数量:5,个高度差异化的电影评论用于训练,5,个测试SOTA:LarningStructurdTxtRprsntations
TwntyNwsgroups顾名思义,该数据集包含有关新闻组的信息。为了选择这个数据集,从0个不同的新闻组中挑选了1篇新闻文章。这些文章具有一定特征,如主题行,签名和引用。大小:0MB记录数量:来自0个新闻组的0,条消息DOTA:VryDpConvolutionalNtworksforTxtClassification
SntimntSntimnt是一个可用于情感分析的数据集。一个流行的数据集,非常适合开始你的NLP旅程。情绪已经从数据中预先移除。最终的数据集具有以下6个特征:推文的极性推文的ID
推文的日期
问题
推文的用户名
推文的文本 大小:80MB(压缩)记录数量:,条推文
SOTA:AssssingStat-of-th-ArtSntimntModlsonStat-of-th-ArtSntimntDatasts
WordNt在上面的ImagNt数据集中提到,WordNt是一个很大的英文同义词集。同义词集是每个都描述了不同的概念的同义词组。WordNt的结构使其成为NLP非常有用的工具。大小:10MB记录数量:,个同义词集通过少量“概念关系”与其他同义词集相关联。SOTA:Wordnts:StatofthArtandPrspctivs
YlpRviws这是Ylp为了学习目的而发布的一个开源数据集。它包含了由数百万用户评论,商业属性和来自多个大都市地区的超过0万张照片。这是一个非常常用的全球NLP挑战数据集。大小:.66GBJSON,.9GBSQL和7.5GB照片(全部压缩)记录数量:5,00,条评论,,条商业属性,0万张图片和11个大都市区SOTA:AttntivConvolution
ThWikipdiaCorpus这个数据集是维基百科全文的集合。它包含来自多万篇文章的将近19亿字。使得这个成为强大的NLP数据集的是你可以通过单词,短语或段落本身的一部分进行搜索。大小:0MB记录数量:4,,篇文章,19亿字SOTA:BrakingThSoftmaxBottlnck:AHigh-RankRNNlanguagModl
ThBlogAuthorshipCorpus