20 mars 2025 1 min

Prometheus + Grafana : monitoring Kubernetes de A à Z

cloud devops kubernetes

Le duo Prometheus/Grafana reste la référence pour le monitoring des clusters Kubernetes. Avec le kube-prometheus-stack (anciennement prometheus-operator), le déploiement est simplifié via un seul Helm chart qui installe Prometheus, Grafana, Alertmanager, et les exporteurs essentiels.

Métriques essentielles à surveiller

USE Method — Utilization, Saturation, Errors pour chaque ressource (CPU, mémoire, réseau, disque)
RED Method — Rate, Errors, Duration pour chaque service (latence P99, taux d’erreur 5xx)
Kubernetes-specific — Pod restart count, pending pods, node conditions, PVC usage

Alerting intelligent

Évitez le piège des alertes excessives. Concentrez-vous sur les symptômes (latence utilisateur élevée) plutôt que les causes (CPU à 80%). Utilisez les recording rules pour pré-calculer les métriques complexes et réduire la charge sur Prometheus.

Pour les environnements multi-cluster, Thanos ou Mimir permettent d’agréger les métriques avec du stockage long terme sur object storage (S3/GCS).