Tout ne doit pas passer par une API cloud. Pour certains projets — données sensibles, contraintes réglementaires, volumétrie — un LLM open source auto-hébergé est le bon choix. Voici quand j'y bascule et comment je le mets en place sans sur-ingénierie.
Quand l'auto-hébergement a du sens
- Confidentialité : les données ne doivent pas quitter votre infrastructure.
- Coût : volumétrie élevée où l'API cloud devient chère.
- Contrôle : besoin de fixer le modèle, la version, le comportement.
- Latence et disponibilité maîtrisées en interne.
Les modèles que j'utilise
Llama, Mistral et Qwen couvrent la majorité des besoins, du petit modèle rapide pour de la classification au modèle plus large pour du raisonnement. Le bon réflexe : choisir le plus petit modèle qui passe le critère qualité, pas le plus gros par principe.
Mise en route pragmatique
Pour démarrer, Ollama suffit souvent : un binaire, un modèle, une API locale compatible. On industrialise ensuite (GPU, file d'attente, quantization, monitoring) seulement quand le besoin le justifie. Comme toujours : la simplicité d'abord, la complexité quand elle se paie.
# Démarrer un modèle local avec Ollama
ollama run qwen2.5:7b
# API locale compatible OpenAI
curl http://localhost:11434/api/generate \
-d '{"model":"qwen2.5:7b","prompt":"Résume ce texte..."}'Auto-héberger un LLM, ce n'est pas un trophée. C'est une décision d'architecture : confidentialité et coût d'un côté, effort d'exploitation de l'autre.