Datasets Fondamentaux

DatasetAnnéeTâcheTaille
MNIST1998Reconnaissance chiffres70k images
CIFAR-10/1002009Classification objets60k images
ImageNet2009Classification 1000 classes1.2M images
MS COCO2014Detection + segmentation + captioning330k images
SQuAD2016Question-answering100k questions
GLUE / SuperGLUE2018/2019NLP benchmark multi-tâches
Common CrawlCorpus texte pour LLMs500B+ tokens
RedPajama2023Open-source CC, reproduit LLaMA1.2T tokens
FineWeb2024Dataset pour LLM sans copyright (Hugging Face)15T tokens

← Self-Supervised Learning17Adversarial ML & Robustesse →