LLM
Définition
Large Language Model. Modèle d'intelligence artificielle entraîné sur d'énormes volumes de texte pour comprendre et générer du langage naturel. Exemples : GPT, Claude, Gemini, Mistral.
Comment ça marche
Un LLM apprend en lisant des milliards de pages de texte (livres, articles scientifiques, code source, conversations, documentation technique). Il n'en stocke pas le contenu : il en extrait des régularités statistiques très fines via une architecture neuronale appelée transformer. Lors d'une réponse, le modèle convertit l'entrée en tokens (morceaux de mots), puis prédit le prochain token le plus probable étant donné tout ce qui précède. Cette prédiction se répète token après token jusqu'à la fin de la réponse. C'est ce mécanisme, en apparence simple, qui produit l'illusion d'un raisonnement cohérent et nuancé.
L'entraînement et les données
L'entraînement se déroule en plusieurs phases. Le pré-entraînement, qui dure des semaines sur des milliers de GPU, apprend au modèle la structure du langage et un savoir général à partir d'un corpus massif. Vient ensuite le fine-tuning supervisé sur des exemples soignés (question, réponse idéale), qui spécialise le modèle pour le dialogue ou les tâches métier. Enfin, le RLHF (Reinforcement Learning from Human Feedback) ajuste le ton et les comportements en s'appuyant sur des préférences humaines. Chaque étape coûte des millions de dollars et conditionne durablement les forces et les angles morts du modèle final.
Les grandes familles de modèles
Le marché s'organise autour de quelques familles : OpenAI (GPT, série o pour le raisonnement), Anthropic (Claude, fort sur les contextes longs et le code), Google (Gemini, intégré à la suite Workspace), Mistral (acteur européen avec des modèles plus légers et open-weights), Meta (Llama, open-source et auto-hébergeable). Chacune propose plusieurs tailles selon le compromis qualité, coût et latence. On distingue aussi les modèles généralistes des modèles spécialisés dans le raisonnement long, qui prennent plus de temps mais excellent sur les problèmes complexes. Le bon choix dépend du cas d'usage, du budget et des contraintes de souveraineté des données.
Quand l'utiliser
Un LLM est pertinent dès qu'il faut comprendre du langage non structuré ou en produire à grande échelle. Cas typiques : assistants conversationnels internes ou clients, génération de contenu marketing, extraction d'informations depuis des e-mails, factures, contrats ou PDF scannés, classification automatique (priorité d'un ticket, sentiment d'un avis client), résumé de longs documents, traduction contextuelle, génération de code. Là où une approche classique (regex, règles métier, modèles statistiques) bloque sur la diversité des formulations, un LLM s'adapte sans configuration spécifique. À l'inverse, pour des opérations strictement déterministes (calcul comptable, validation de schéma), un programme classique reste plus fiable et plus économique.
Comment l'intégrer dans un produit
Intégrer un LLM dans une application sérieuse demande bien plus qu'un appel d'API. On combine généralement plusieurs techniques : le RAG pour ancrer les réponses dans votre documentation, le tool use (ou function calling) pour donner au modèle accès à vos systèmes en lecture comme en écriture, la sortie structurée pour récupérer des données dans un schéma JSON strict, et le prompt caching pour réduire fortement les coûts quand un contexte stable revient souvent. Le tout s'orchestre dans une couche serveur (Next.js, Supabase Edge Functions, n8n), avec validation, logs et garde-fous métier à chaque étape sensible.
Les coûts et la latence
Les LLM sont facturés au token, en entrée comme en sortie. Un modèle généraliste haut de gamme coûte typiquement 10 à 30 fois plus cher qu'un modèle économique pour une qualité supérieure de 20 à 30% : le choix dépend de la criticité du cas. La latence varie de quelques centaines de millisecondes pour un petit modèle à plusieurs secondes pour un modèle de raisonnement. On l'atténue avec le streaming SSE (l'utilisateur voit la réponse arriver token par token), le prompt caching et un placement edge proche de l'utilisateur. Sur un produit qui scale, l'optimisation des coûts devient un sujet à part entière, avec son monitoring et ses arbitrages quotidiens.
Les limites à connaître
Un LLM peut se tromper avec confiance, ce qu'on appelle une hallucination. Il peut aussi reproduire des biais présents dans ses données d'entraînement, refuser des requêtes légitimes par excès de prudence, ou inversement répondre à des requêtes manipulées (prompt injection). Côté confidentialité, tout prompt envoyé à un fournisseur transite par ses serveurs : il faut signer un DPA et arbitrer ce qu'on accepte d'externaliser. Côté déterminisme, deux appels identiques peuvent produire des réponses légèrement différentes. On ne déploie jamais un LLM en production sans validation côté serveur des données critiques, monitoring des coûts et de la qualité, et humain dans la boucle pour les actions à fort impact.