Vizion Web
IA & LLM

Fine-tuning

Définition

Spécialisation d'un LLM existant sur vos données pour qu'il réponde dans votre ton ou maîtrise votre domaine métier. Plus coûteux que le RAG, à réserver aux cas où le prompting ne suffit plus.

Comment ça marche

Le fine-tuning consiste à reprendre un LLM existant et à le ré-entraîner sur un jeu de données spécifique (vos exemples question/réponse, votre ton, votre vocabulaire métier). Le modèle obtenu hérite des capacités du modèle de base mais devient plus précis sur votre domaine. Techniquement, on n'entraîne pas tout le modèle (ce qui coûterait des millions de dollars) mais une partie : soit toutes les couches avec un learning rate très bas (full fine-tuning), soit des adaptateurs légers comme LoRA qui modifient quelques pourcents des paramètres. Le résultat est un modèle dérivé qu'on appelle ensuite via l'API du fournisseur.

Quand l'envisager

Le fine-tuning a du sens dans plusieurs cas. Pour reproduire un ton très spécifique (juridique formel, médical, marketing dans une voix de marque) où le prompting ne suffit pas. Pour des classifications fines à grande échelle où on traite des millions d'éléments et où un modèle dédié coûte moins cher qu'un modèle généraliste appelé en continu. Pour intégrer du vocabulaire métier que le modèle de base ne connaît pas (acronymes internes, jargon sectoriel). Pour réduire les coûts en passant d'un modèle haut de gamme à un modèle plus petit fine-tuné qui atteint la même qualité sur votre cas.

Le coût caché

C'est plus lourd qu'on l'imagine. La préparation des données prend des semaines : il faut au minimum quelques centaines d'exemples de qualité, idéalement quelques milliers, avec une diversité de cas représentative. Chaque exemple doit être validé en qualité, sinon le fine-tuning apprend les erreurs en plus du bon comportement. Vient ensuite l'évaluation : il faut un jeu de test séparé, des métriques claires, et un protocole pour mesurer l'amélioration par rapport au baseline. Et l'hébergement : un modèle fine-tuné OpenAI coûte plus cher à l'appel qu'un modèle standard, et chaque évolution du modèle de base demande de refaire le fine-tuning.

Avant de fine-tuner

On essaie systématiquement d'abord les alternatives, moins coûteuses. Améliorer le system prompt : préciser le rôle, donner des exemples few-shot, clarifier le format attendu. Ajouter du RAG pour ancrer dans des sources réelles. Utiliser un modèle plus capable (passer de GPT-4o-mini à GPT-5, ou de Claude Haiku à Claude Sonnet). Combiner sortie structurée et validation côté serveur. Dans 80% des cas, ces leviers suffisent pour atteindre la qualité voulue. Le fine-tuning ne vient qu'après, quand on a épuisé ces options et qu'on identifie un gap structurel que seul un modèle spécialisé peut combler.

Les options disponibles

OpenAI permet le fine-tuning sur les modèles GPT-4o-mini, GPT-4o et GPT-5-mini. Anthropic le propose désormais sur Claude (en bêta sur certains tiers). Côté open-source, on fine-tune Llama, Mistral, Qwen avec des frameworks comme Unsloth, axolotl, TRL de Hugging Face. L'auto-hébergement permet plus de contrôle et de souveraineté, au prix de l'infrastructure GPU. Pour de la pure spécialisation sans contrainte de souveraineté, le fine-tuning OpenAI ou Anthropic reste le chemin le plus rapide. Pour des cas où la donnée ne peut pas sortir de l'infra, on bascule sur du fine-tuning open-source sur Mistral.

Les pièges à éviter

Trois écueils principaux. Sous-estimer la qualité requise des données : un jeu de 200 exemples bricolés produit un modèle moins bon que le baseline. On vise au moins 500 à 1000 exemples soigneusement curés. Ignorer l'évaluation : sans métrique claire avant/après, on ne sait pas si le fine-tuning a apporté quelque chose. Et oublier la maintenance : chaque nouvelle version du modèle de base demande de refaire le fine-tuning, sinon on reste figé sur un modèle qui devient progressivement obsolète. C'est un engagement, pas un one-shot, et le ROI doit être calculé sur la durée totale d'exploitation.