Deployment

Monitoring & Logging

Monitoring & Logging

Journaux centralisés pour tous les bots.
Suivi des performances, alertes, et analytics d'usage.
Intégration CI/CD (GitLab CI) pour validations automatiques.

Objectifs du monitoring

Fiabilité: détecter rapidement régressions, incidents, goulots d’étranglement.
Pilotage produit: comprendre l’usage (intentions, volume, latence RAG/LLM) par bot.
Optimisation coûts: corréler charge, tokens, ressources consommées.

Indicateurs à suivre

Métriques: latences (p95/p99), taux d’erreurs, QPS, files d’attente, CPU/Mem, saturation DB, temps d’index.
Logs: requêtes, erreurs, événements clés (auth, régénération d’index), corrélés par bot.id et request.id.
Traces: parcours des requêtes (web -> server -> RAG -> provider), pour isoler les lenteurs.

Mise en place et instrumentation

Stack classique: Prometheus + Grafana (métriques), Loki/ELK (logs), Tempo/Jaeger (traces).
Instrumentation: exposez des endpoints /metrics, ajoutez des trace spans aux appels RAG/LLM.
Corrélation: propagez bot.id et request.id dans headers/logs/traces.

[req] bot.id=kalli request.id=abcd-1234 latency=220ms status=200 tokens=850

Alerting

Seuils dynamiques: alerte sur p95 latence, erreurs 5xx, surconsommation CPU/mémoire.
SLO/SLI: définissez des objectifs (ex: 99.5% req < 1s) et alertez sur les écarts.
Playbooks: documentez procédures de mitigation (rollback Helm, purge cache, scale up, etc.).

Bonnes pratiques

Dashboards par bot: filtres par bot.id pour comparer et diagnostiquer.
Rétention: ajustez la durée de conservation (coût vs besoin d’analyse).
Tests en CI: lint des dashboards/alertes, tests de fumée post-déploiement.

Environment Configuration

Previous Page

FAQ

Questions fréquentes à propos de Kalli

On this page

Monitoring & Logging Objectifs du monitoring Indicateurs à suivre Mise en place et instrumentation Alerting Bonnes pratiques