L’Ère Internet (1998–2010)

L’explosion d’Internet change l’échelle. Google, Amazon, Facebook doivent gérer des données à l’échelle planétaire — aucun système existant ne peut suivre.

Google File System (GFS) (2003) prouve qu’on peut construire un système de fichiers distribué avec du hardware standard (et défaillant). MapReduce (2004) simplifie le traitement parallèle : les développeurs écrivent deux fonctions (map et reduce) et le framework gère la distribution, la tolérance aux pannes, la parallélisation.

Dynamo (Amazon, 2007) et Bigtable (Google, 2006) redéfinissent le stockage distribué. Dynamo sacrifie la cohérence pour la haute disponibilité (modèle eventually consistent) — c’est la démonstration pratique du théorème CAP.

Apache Hadoop (2006) implémente MapReduce et HDFS (clone de GFS) en open source. Apache ZooKeeper (2008) apporte la coordination distribuée. Apache Cassandra (2008) fusionne Bigtable et Dynamo pour une scalabilité horizontale massive.

Yahoo! puis Facebook adoptent Hadoop pour leur analyse de logs. Google publie Pregel (2010) pour le traitement de graphes, Dremel (2010) pour l’analyse interactive.

AnnéeContributionActeurs
2003GFS (Google File System) — filesystem distribué sur hardware standardGoogle (Ghemawat, Gobioff, Leung)
2004MapReduce — paradigme de traitement parallèle simplifiéGoogle (Dean, Ghemawat)
2006Hadoop — implémentation open source de MapReduce + HDFSYahoo! (Doug Cutting)
2006Bigtable — stockage distribué structuréGoogle (Chang, Dean et al.)
2007Dynamo — stockage clé-valeur hautement disponibleAmazon (DeCandia et al.)
2008Apache ZooKeeper — coordination distribuée, consensusYahoo!, Apache
2008Apache Cassandra — fusion Bigtable + DynamoFacebook (Lakshman, Malik)

← Les Fondations Théoriques02La Scalabilité Cloud & Conteneurs →