Multimodal
Définition
Modèle capable de traiter plusieurs types d'entrées (texte, image, audio) dans un même prompt. Les modèles GPT et Claude récents sont multimodaux sur texte + image.
Ce que ça veut dire
Un modèle multimodal accepte plusieurs types d'entrées dans un même prompt : texte et image, parfois audio, parfois vidéo. Il voit la pièce jointe comme il lit le texte, et peut en parler dans sa réponse. La quasi-totalité des modèles récents (Claude 4.5, GPT-5, Gemini 2.5 Pro) sont multimodaux au moins sur texte et image. Certains (Gemini, GPT-5) gèrent aussi l'audio en entrée. Quelques modèles spécialisés (Whisper pour la transcription, Sora pour la vidéo, GPT Image et Imagen pour la génération d'image) restent unimodaux mais s'intègrent dans des pipelines plus larges.
À quoi ça sert
Les usages concrets sont nombreux. Lire une capture d'écran d'erreur et expliquer le bug. Extraire des données d'une photo de facture, de carte de visite, de plaque d'immatriculation. Modérer automatiquement les images uploadées par les utilisateurs. Décrire une image pour l'accessibilité ou le SEO. Analyser un schéma technique et générer du code à partir d'un mockup. Lire un graphique et en extraire les valeurs. Comparer deux versions d'un document. Pour un produit qui manipule du visuel, le multimodal supprime énormément de code d'intégration spécialisé (OCR, vision par ordinateur, classification d'image).
Comment l'utiliser
Côté API, on encode les images en base64 ou on fournit une URL publique. Chez Anthropic et OpenAI, on intègre l'image dans le tableau de messages avec un type dédié (image_url ou image base64). Les images sont automatiquement redimensionnées par le fournisseur pour rester dans les limites de tokens. Côté code Next.js, on accepte un upload de fichier (formData), on lit le contenu, on l'envoie au modèle avec une instruction texte. Vercel AI SDK simplifie l'intégration en proposant un type message universel qui marche avec tous les fournisseurs supportant le multimodal.
Les coûts spécifiques
Une image est facturée en tokens, généralement entre 500 et 2000 tokens selon sa taille et le mode (low/high detail). Une image haute résolution (1500x1500) peut consommer plusieurs milliers de tokens, ce qui devient significatif sur un produit qui traite beaucoup de visuels. Pour réduire les coûts : redimensionner les images côté serveur avant envoi, utiliser le mode low detail quand on n'a pas besoin de précision, batcher plusieurs images dans un même appel quand c'est cohérent. L'audio et la vidéo coûtent encore plus cher, et la facturation varie selon la durée et le fournisseur.
Quand l'utiliser
Le multimodal s'impose dès que le cas d'usage manipule autre chose que du texte. Pour des cas pur texte (chatbot, génération, classification de texte), c'est superflu et coûteux. Pour des cas où on a besoin de précision pixel-perfect (mesurer une distance, compter exactement des objets, lire un caractère microscopique), les modèles multimodaux ne sont pas encore au niveau de la vision par ordinateur dédiée. À l'inverse, pour de la compréhension de scène, de l'extraction structurée depuis des documents, du dialogue sur image, ils sont déjà imbattables. Le choix dépend du niveau de précision requis.
Les modèles ne se valent pas
Tous les multimodaux ne sont pas équivalents. Claude excelle sur la lecture de documents structurés et la compréhension de schémas. GPT-5 est solide sur la généralité et la créativité. Gemini 2.5 Pro brille sur les contextes très longs avec vidéo et audio. Pour de l'audio en entrée, Gemini et GPT-5 fonctionnent ; pour la transcription pure, Whisper reste imbattable en coût. Pour de la vidéo, Gemini est le plus avancé en 2025. On choisit le modèle selon le mix d'entrées du cas d'usage, le niveau de précision requis et le coût par appel. Un POC sur quelques échantillons représentatifs tranche la question rapidement.