深度学习常用数据集介绍

深度学习在计算机视觉领域取得了十分重大的突破，许多研究也是如雨后春笋般。而模型的训练离不开数据集的支持，因此有必要对常用的数据集进行了解。接下来主要对计算机视觉和自然语言处理这两个领域的常用数据集进行介绍。

计算机视觉

MNIST

MNIST数据集被称为深度学习领域的“Hello World!”，入门必备！它有60000个训练样本集和10000个测试样本集，每个样本图像的宽高为28*28。此数据集是以二进制存储的，不能直接以图像格式查看，不过很容易找到将其转换成图像格式的工具。

该数据集可在http://yann.lecun.com/exdb/mnist/ 获取，主要包含以下四部分：

train-images-idx3-ubyte.gz: training set images (9912422 bytes)
train-labels-idx1-ubyte.gz: training set labels (28881 bytes)
t10k-images-idx3-ubyte.gz: test set images (1648877 bytes)
t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes)

CIFAR

CIFAR-10

CIFAR-10包含10个类别，50000个训练图像，彩色图像大小：32x32，10000个测试图像。

该数据集可在http://www.cs.toronto.edu/~kriz/cifar.html 获取，主要包含以下类别：

CIFAR-100

CIFAR-100与CIFAR-10类似，包含100个类，每类有600张图片，其中500张用于训练，100张用于测试；这100个类分组成20个超类。图像类别均有明确标注。

Superclass	Classes
aquatic mammals	beaver, dolphin, otter, seal, whale
fish	aquarium fish, flatfish, ray, shark, trout
flowers	orchids, poppies, roses, sunflowers, tulips
food containers	bottles, bowls, cans, cups, plates
fruit and vegetables	apples, mushrooms, oranges, pears, sweet peppers
household electrical devices	clock, computer keyboard, lamp, telephone, television
household furniture	bed, chair, couch, table, wardrobe
insects	bee, beetle, butterfly, caterpillar, cockroach
large carnivores	bear, leopard, lion, tiger, wolf
large man-made outdoor things	bridge, castle, house, road, skyscraper
large natural outdoor scenes	cloud, forest, mountain, plain, sea
large omnivores and herbivores	camel, cattle, chimpanzee, elephant, kangaroo
medium-sized mammals	fox, porcupine, possum, raccoon, skunk
non-insect invertebrates	crab, lobster, snail, spider, worm
people	baby, boy, girl, man, woman
reptiles	crocodile, dinosaur, lizard, snake, turtle
small mammals	hamster, mouse, rabbit, shrew, squirrel
trees	maple, oak, palm, pine, willow
vehicles 1	bicycle, bus, motorcycle, pickup truck, train
vehicles 2	lawn-mower, rocket, streetcar, tank, tractor

Imagenet

MNIST将初学者领进了深度学习领域，而Imagenet数据集对深度学习的浪潮起了巨大的推动作用。深度学习大牛Hinton在2012年发表的论文《ImageNet Classification with Deep Convolutional Neural Networks》在计算机视觉领域带来了一场“革命”，此论文的工作正是基于Imagenet数据集。

Imagenet数据集有1400多万幅图片，涵盖2万多个类别；其中有超过百万的图片有明确的类别标注和图像中物体位置的标注，具体信息如下：

Total number of non-empty synsets: 21841
Total number of images: 14,197,122
Number of images with bounding box annotations: 1,034,908
Number of synsets with SIFT features: 1000
Number of images with SIFT features: 1.2 million

Imagenet数据集是目前深度学习图像领域应用得非常多的一个领域，关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细，有专门的团队维护，使用非常方便，在计算机视觉领域研究论文中应用非常广，几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。

自然语言处理

语言模型

Penn Treebank Dataset（PTB）

PTB（Penn Treebank Dataset）文本数据集是语言模型学习中目前最广泛使用的数据集。语言建模(LM)是自然语言处理和自然理解模型任务的一个核心任务，能对句子结构分步进行表示，它展示的不仅是语言的复杂内容，比如语法结构，还能提取语料库可能包含的一定数量信息。PTB是一个较小的数据集，PTB数据集由华尔街日报的文章组成，包含字符，929k个训练tokens，词汇量为10k。

wikitext2

wikitext2数据集源自维基百科文章，包含2M训练tokens，词汇量为33k。PTB数据集一样wikitext2数据集包含非混洗文档，因此需要模型来捕获句间依赖性才能很好地执行。

text8&&wikitext103

text8数据集包含17M的训练标记，词汇量为44k字；而wikitext103数据集的训练集大小为103M，词汇量为267k字。这是两个中等规模的数据集。

LAMBADA

LAMBADA 数据集是从小说中提取的短段落的数据集。$lambada $数据集包含大约200M tokens,词汇量大小为93215。

文本分类

IMDB

这个数据包括3个部分，训练集，测试集和未标记的数据集。训练集和测试集用于训练和测试文本分类模型，未标记的数据集用于训练词向量。IMDB电影数据集含有50000个电影评论，分为正反两类。训练集包中包含25000个正反类评论用于训练，测试集中包含25000个评论用于测试。

MR

MR数据集是“电影评论”中的情绪极性数据集。主要包括：

document-level: polarity dataset v2.0: 1000 positive and 1000 negative processed reviews.
sentence-level: sentence polarity dataset v1.0: 5331 positive and 5331 negative processed sentences/snippets.
Sentiment-scale datasets: scale dataset v1.0: a collection of documents whose labels come from a rating scale.
Subjectivity dataset v1.0: 5000 subjective and 5000 objective processed sentences.

Google Snippets

Google Snippets数据集包括10060个训练样本和2280个测试样本，分为8个类。平均下来每个snippet有18.07个词。

TREC

TREC数据集包括6个不同的问题类型，训练集有5452个标注了的问题，测试集有500个问题。