Datasets de Référence par Domaine

DomaineDatasetTailleTâche
VisionImageNet-1k1.2MClassification 1000 classes
VisionCOCO330kDetection + Segmentation
VisionLAION-5B5B paires (image,text)Text-to-image
VisionADE20K27kSegmentation scénique
NLPGLUE / SuperGLUE≈ 10 tasksBenchmark NLP
NLPSQuAD 2.0150kQuestion answering
NLPCommon Crawl500B+ tokensPre-training LLM
NLPThe Pile (EleutherAI)825 GBPre-training diversifié
NLPC4 (Google)750 GBPre-training T5
NLPFineWeb (HF)15T tokensPre-training LLM (2024)
NLPDolma (AI2)3T tokensPre-training OLMo
MultiYouTube-8M8M vidéosClassification vidéo
MultiKinetics-700700k vidéosAction recognition
RLAtari 260057 jeuxDeep RL benchmark
RLDMC (DeepMind Control)30 tâchesContinous control
GNNOGB (Open Graph Benchmark)7 datasetsNode/graph/link prediction
AudioLibriSpeech1000hASR
AudioAudioSet2M clipsAudio event detection

← Reproducibilité & Experiment Tracking42Formal Verification & AI Safety →