L’Ère Internet (1998–2010)
L’explosion d’Internet change l’échelle. Google, Amazon, Facebook doivent gérer des données à l’échelle planétaire — aucun système existant ne peut suivre.
Google File System (GFS) (2003) prouve qu’on peut construire un système de fichiers distribué avec du hardware standard (et défaillant). MapReduce (2004) simplifie le traitement parallèle : les développeurs écrivent deux fonctions (map et reduce) et le framework gère la distribution, la tolérance aux pannes, la parallélisation.
Dynamo (Amazon, 2007) et Bigtable (Google, 2006) redéfinissent le stockage distribué. Dynamo sacrifie la cohérence pour la haute disponibilité (modèle eventually consistent) — c’est la démonstration pratique du théorème CAP.
Apache Hadoop (2006) implémente MapReduce et HDFS (clone de GFS) en open source. Apache ZooKeeper (2008) apporte la coordination distribuée. Apache Cassandra (2008) fusionne Bigtable et Dynamo pour une scalabilité horizontale massive.
Yahoo! puis Facebook adoptent Hadoop pour leur analyse de logs. Google publie Pregel (2010) pour le traitement de graphes, Dremel (2010) pour l’analyse interactive.
| Année | Contribution | Acteurs |
|---|---|---|
| 2003 | GFS (Google File System) — filesystem distribué sur hardware standard | Google (Ghemawat, Gobioff, Leung) |
| 2004 | MapReduce — paradigme de traitement parallèle simplifié | Google (Dean, Ghemawat) |
| 2006 | Hadoop — implémentation open source de MapReduce + HDFS | Yahoo! (Doug Cutting) |
| 2006 | Bigtable — stockage distribué structuré | Google (Chang, Dean et al.) |
| 2007 | Dynamo — stockage clé-valeur hautement disponible | Amazon (DeCandia et al.) |
| 2008 | Apache ZooKeeper — coordination distribuée, consensus | Yahoo!, Apache |
| 2008 | Apache Cassandra — fusion Bigtable + Dynamo | Facebook (Lakshman, Malik) |
← Les Fondations Théoriques • 02 • La Scalabilité Cloud & Conteneurs →