L’Ère Internet (1998–2010)

L’explosion d’Internet change l’échelle. Google, Amazon, Facebook doivent gérer des données à l’échelle planétaire — aucun système existant ne peut suivre.

Google File System (GFS) (2003) prouve qu’on peut construire un système de fichiers distribué avec du hardware standard (et défaillant). MapReduce (2004) simplifie le traitement parallèle : les développeurs écrivent deux fonctions (map et reduce) et le framework gère la distribution, la tolérance aux pannes, la parallélisation.

Dynamo (Amazon, 2007) et Bigtable (Google, 2006) redéfinissent le stockage distribué. Dynamo sacrifie la cohérence pour la haute disponibilité (modèle eventually consistent) — c’est la démonstration pratique du théorème CAP.

Apache Hadoop (2006) implémente MapReduce et HDFS (clone de GFS) en open source. Apache ZooKeeper (2008) apporte la coordination distribuée. Apache Cassandra (2008) fusionne Bigtable et Dynamo pour une scalabilité horizontale massive.

Yahoo! puis Facebook adoptent Hadoop pour leur analyse de logs. Google publie Pregel (2010) pour le traitement de graphes, Dremel (2010) pour l’analyse interactive.

Année	Contribution	Acteurs
2003	GFS (Google File System) — filesystem distribué sur hardware standard	Google (Ghemawat, Gobioff, Leung)
2004	MapReduce — paradigme de traitement parallèle simplifié	Google (Dean, Ghemawat)
2006	Hadoop — implémentation open source de MapReduce + HDFS	Yahoo! (Doug Cutting)
2006	Bigtable — stockage distribué structuré	Google (Chang, Dean et al.)
2007	Dynamo — stockage clé-valeur hautement disponible	Amazon (DeCandia et al.)
2008	Apache ZooKeeper — coordination distribuée, consensus	Yahoo!, Apache
2008	Apache Cassandra — fusion Bigtable + Dynamo	Facebook (Lakshman, Malik)

← Les Fondations Théoriques • 02 • La Scalabilité Cloud & Conteneurs →

ArtNotes

Explorateur

02 - L'Ère Internet (1998–2010)

L’Ère Internet (1998–2010)

Vue Graphique

Liens retour