Les LLM (Large Language Models) sont puissants mais génériques. Pour qu'ils répondent à partir de vos données — documentation produit, contrats, base client — il faut les spécialiser. Deux approches dominent le marché : la Retrieval-Augmented Generation (RAG) et le fine-tuning. Bien choisir évite plusieurs dizaines de milliers d'euros de dette.
RAG en une phrase
On stocke vos documents dans une base vectorielle (Qdrant, Pinecone, pgvector). À chaque question, on récupère les passages pertinents et on les injecte dans le prompt d'un LLM générique.
Avantages : mises à jour instantanées, traçabilité des sources, coût maîtrisé, fonctionne avec n'importe quel LLM.
Limites : la qualité dépend du retrieval, et la fenêtre de contexte limite ce qu'on peut injecter.
Fine-tuning en une phrase
On réentraîne un modèle de base (Llama, Mistral, GPT-4) sur un dataset de paires question/réponse spécifiques à votre métier.
Avantages : réponses plus fluides dans votre ton, moins de tokens consommés par requête, contrôle fin du style.
Limites : coût d'entraînement élevé, données figées au moment du training, MLOps requis pour maintenir le modèle dans le temps.
Le cadre de décision DTS — 5 questions
- Votre corpus évolue-t-il chaque semaine ?
Oui → RAG (mises à jour instantanées). Non → les deux sont possibles. - Le ton ou le style de réponse est-il critique ?
Oui (marque, juridique, médical) → fine-tuning. Non → RAG suffit. - Besoin de traçabilité des sources ?
Oui (audit, conformité) → RAG. Non → fine-tuning acceptable. - Budget initial limité, besoin de prototyper vite ?
Oui → RAG (un MVP en 2 semaines). Non → fine-tuning envisageable. - Volume stable supérieur à 100 000 requêtes par mois ?
Oui → fine-tuning peut amortir le coût. Non → RAG reste plus économique.
Notre stack typique
- Base vectorielle : Qdrant en self-hosted, ou pgvector si PostgreSQL est déjà en place.
- Orchestration : n8n pour les workflows simples, Dagster dès que ça devient industriel.
- LLM : Claude, GPT-4 ou Mistral en API ; Llama en local quand la donnée ne sort pas.
Cas d'école
RAG gagnant : un service client interne branché sur une documentation produit qui évolue toutes les semaines. Le RAG indexe les nouvelles versions automatiquement.
Fine-tuning gagnant : un générateur de clauses juridiques qui doit respecter un ton et un formalisme strictement stables. Le style du modèle compte plus que la fraîcheur des données.
Le pattern DTS : prototype, mesure, décide
Dans 80 % des cas, nous démarrons par un prototype RAG livré en deux semaines. Nous mesurons la qualité (taux de réponse correcte, temps, coût). Si les limites sont atteintes, on envisage le fine-tuning — sur des bases réelles, pas sur des suppositions.
Envie d'explorer l'IA générative sur vos données ? Nous proposons un atelier de cadrage IA de deux heures, offert. Prenons rendez-vous.