Formal Verification & AI Safety

Approche	Année	Concept
alpha-beta-CROWN	2021	Certification formelle de réseaux par bound propagation
Certified Robustness	2019	Entraîner avec des bornes certifiées (LiRPA, IBP)
Red Teaming	2022	Attaque systématique pour trouver des failles
Constitutional AI	2023	Régle interne auto-gérée (Anthropic)
RLHF (Alignment)	2022	Alignement par préférences humaines
Model Cards	2018	Documentation standardisée des modèles (Google)
Dataset Cards	2020	Documentation des jeux de données (Hugging Face)
Evaluations (MMLU, GSM8K, HumanEval)	2021-2023	Benchmarks de compétences
Watermarking LLM	2023	Détection de texte généré par IA
AI Act (EU)	2024	Législation européenne sur l’IA

ArtNotes