Database Modernes & ML (2015–aujourd’hui)

Depuis 2015, le paysage des bases de données se recompose autour de trois tendances : NewSQL, cloud-native, et vector databases pour l’IA.

NewSQLGoogle Spanner (2012, public 2017) est la première base relationnelle globalement distribuée avec une cohérence forte et une disponibilité élevée. CockroachDB (2015) clone Spanner en open source. TiDB (2015) propose un sharding auto-géré compatible MySQL.

Cloud-nativeSnowflake (2014) sépare stockage et calcul, scale indépendamment. BigQuery, Redshift, Databricks transforment l’analyse de données en service serverless. Supabase (2020) réinvente Firebase avec PostgreSQL comme backend.

Vector databases — l’explosion des LLMs et embeddings (OpenAI, BERT, etc.) crée un besoin : stocker et rechercher des vecteurs à haute dimension. Pinecone (2019), Weaviate, Qdrant, Chroma (2023) émergent. PostgreSQL ajoute le support vectoriel via pgvector.

Pour ta thèse : Les systèmes distribués tolérants aux fautes byzantines ont besoin de stockage cohérent et résilient. Les architectures NewSQL (Spanner, CockroachDB) et les bases vectorielles distribuées sont pertinentes pour la gestion des gradients et des modèles dans l’apprentissage fédéré.

AnnéeContributionActeurs
2012Spanner — première DB relationnelle globalement distribuée, TrueTimeGoogle
2014Snowflake — séparation storage/calcul, cloud-nativeBenoit Dageville, Thierry Cruanes
2015CockroachDB — Spanner-like open source, distribution forteCockroach Labs
2015TiDB — sharding auto-géré, compatible MySQLPingCAP
2019Pinecone — première base vectorielle managéePinecone (Edo Liberty)
2021pgvector — support vectoriel dans PostgreSQLAndrew Kane
2023Chroma — base vectorielle open source, légère, pour l’IAChroma
2023Neon — PostgreSQL serverless avec branchement natifNeon (Nikita Shamgunov)

← La Révolution NoSQL (2005–2015)04