La paralysie de l'analyse est le piège numéro un de la semaine 2. Il y a des dizaines de modèles, des centaines de frameworks, et une avalanche de benchmarks contradictoires. La bonne nouvelle : pour un premier déploiement, la plupart de ces choix sont secondaires. Voici ce qui compte vraiment.

Décision 1 : quel modèle pour quel usage

Le modèle n'est pas la décision la plus importante — c'est souvent la dernière qu'on devrait prendre, une fois le cas d'usage et les contraintes définis. Mais voici le cadre simplifié :

  • Tâches de rédaction et synthèse en français : Mistral Large, Claude 3.5 Sonnet, GPT-4o. Mistral a un avantage structurel sur la langue française et les références juridiques françaises.
  • Code et développement : Claude 3.5 Sonnet, GPT-4o, Codestral. Les benchmarks de code favorisent Claude et les modèles spécialisés.
  • Analyse de documents longs (contrats, rapports) : les modèles avec grande fenêtre de contexte (128k tokens+) sont nécessaires. Claude et GPT-4o excellent ici.
  • Cas d'usage à faible latence et fort volume : des modèles plus petits (Mistral 7B, Llama 3 8B) en déploiement local sont souvent plus adaptés que les grands modèles cloud.

La règle pratique : choisissez le modèle le plus simple qui répond au cas d'usage. Ne déployez pas un canon pour tirer des moineaux.

Décision 2 : hébergement — l'arbre de décision

C'est la décision la plus importante, et elle se résout avec trois questions :

Q1 : vos données sont-elles confidentielles ou réglementées ?
Si oui (données clients, données financières non publiques, données santé, données RH) → éliminez les cloud américains non qualifiés. Restez sur cloud souverain européen ou on-premise.

Q2 : avez-vous la capacité à gérer une infrastructure ?
Si non (pas d'équipe DevOps, pas d'équipe sécurité) → cloud souverain managé (OVHcloud AI, Scaleway, Mistral API hébergée en Europe). Si oui → on-premise ou cloud avec déploiement dédié.

Q3 : quel est votre volume d'usage prévu ?
Moins de 50 utilisateurs actifs → API cloud. Plus de 200 utilisateurs ou usage intensif → évaluez le on-premise, le TCO devient favorable.

Décision 3 : architecture — API simple, RAG ou fine-tuning

Trois architectures, trois contextes d'usage :

  • API simple avec prompt engineering : 80% des cas d'usage de départ. Le modèle est appelé directement avec un prompt bien conçu. Simple à déployer, facile à maintenir, résultats souvent suffisants.
  • RAG (Retrieval-Augmented Generation) : quand le modèle doit répondre à partir de vos documents internes (base de connaissances, documentation technique, archives contrats). Le document pertinent est récupéré et injecté dans le contexte. C'est l'architecture de 80% des déploiements documentaires.
  • Fine-tuning : quand le modèle doit adopter un style ou un vocabulaire très spécifique que le prompt engineering ne peut pas capturer. Réservez cela à la phase de scale — c'est coûteux en données et en infrastructure.

Pour un premier déploiement : commencez toujours par l'API simple ou le RAG. Le fine-tuning est une optimisation, pas un point de départ.

Les erreurs classiques à éviter

  • Choisir le modèle le plus impressionnant plutôt que le plus adapté au cas d'usage. GPT-4o n'est pas systématiquement meilleur que Mistral 7B pour une tâche simple en contexte souverain.
  • Décider du modèle avant de définir les critères de succès. Le bon modèle, c'est celui qui atteint vos critères — pas celui qui a le meilleur score sur un benchmark généraliste.
  • Ignorer le coût de l'infrastructure. Un modèle cloud à 0,01€ par requête peut coûter 40k€/an à 500 utilisateurs intensifs. Calculez avant de décider.
  • Sur-architecturer dès le départ. Un RAG avec pipeline de reranking, agents autonomes et mémoire persistante en semaine 2 d'un premier déploiement, c'est trop. Complexité = délai = risque d'abandon.

Comment décider vite sans se tromper

Fixez-vous une règle de décision avant vendredi de la semaine 2 : si vous n'avez pas de raison spécifique de faire autrement, votre premier déploiement utilisera un modèle souverain européen, en API cloud managée, avec une architecture RAG si vous avez une base documentaire, API simple sinon.

C'est la stack de référence pour 80% des premiers déploiements en entreprise française. Elle est souveraine, scalable et suffisante.

Bilan semaine 2

  • Modèle sélectionné sur la base du cas d'usage prioritaire, pas du benchmark le plus médiatisé
  • Hébergement décidé sur trois critères : confidentialité des données, capacité IT, volume
  • Architecture définie : API simple ou RAG pour un premier déploiement
  • Budget infrastructure estimé sur 12 mois

La semaine 3, vous passez aux actes : le POC sur le cas d'usage prioritaire. Avec les décisions de cette semaine, vous avez le cadre — il faut maintenant livrer quelque chose qui marche.

Lire la semaine 3 : lancer votre POC →