Glossaire IA Entreprise 2026 : 120 termes essentiels

Ce glossaire en bref

120+ termes définis pour les professionnels (DSI, RSSI, DPO)
Organisé de A à Z avec définitions claires et contexte entreprise
Mis à jour mai 2026 — inclut EU AI Act, MCP, agents autonomes, Graph RAG

Navigation rapide : A · B · C · D · E · F · G · H · I · J · K · L · M · N · O · P · Q · R · S · T · U · V · W · Z

A

Agent IA

Système d'intelligence artificielle capable d'agir de manière autonome pour atteindre un objectif : il perçoit son environnement, planifie des actions, exécute des outils (recherche web, accès base de données, envoi d'email) et ajuste son comportement en fonction des résultats obtenus. Contrairement à un simple LLM sollicité en question-réponse, un agent peut enchaîner plusieurs étapes sans intervention humaine à chaque tour. Pour les DSI, cela signifie des gains d'automatisation importants mais aussi de nouveaux risques de contrôle à anticiper.

Exemple : Un agent IA de support client analyse les tickets entrants, interroge la base de connaissances, rédige une réponse et, si la confiance est insuffisante, escalade automatiquement vers un opérateur humain.

AGI — Artificial General Intelligence

L'AGI désigne une intelligence artificielle capable d'effectuer n'importe quelle tâche cognitive qu'un être humain peut accomplir, avec le même niveau de généralisation et d'adaptation. Elle s'oppose aux IA actuelles, dites « étroites » (narrow AI), qui excellent dans un domaine précis mais échouent hors de ce périmètre. Aucun système AGI n'existe à ce jour, mais le débat sur l'horizon de son émergence structure les stratégies de long terme de plusieurs grands laboratoires. Pour les entreprises, l'AGI reste un horizon prospectif ; les enjeux opérationnels actuels concernent les LLM et les agents IA.

Alignment (Alignement)

L'alignement désigne l'ensemble des techniques visant à s'assurer qu'un modèle d'IA se comporte conformément aux valeurs, aux intentions et aux contraintes fixées par ses concepteurs ou ses utilisateurs. Un modèle mal aligné peut produire des sorties nuisibles, trompeuses ou contraires à la politique de l'organisation même s'il est techniquement performant. Les méthodes principales incluent le RLHF, le DPO et la définition de guardrails. Pour les RSSI, l'alignement est directement lié à la maîtrise des risques IA.

ANSSI

L'Agence Nationale de la Sécurité des Systèmes d'Information est l'autorité française en matière de cybersécurité. Elle publie des guides de bonnes pratiques sur l'IA (notamment sur le déploiement sécurisé de LLM en entreprise) et est l'organisme de qualification pour le référentiel SecNumCloud. Les RSSI doivent s'y référer pour tout projet d'IA traitant des données sensibles ou critiques.

Exemple : Le guide ANSSI sur la sécurité des systèmes d'IA (2024) recommande de tracer toutes les requêtes adressées aux LLM en production et d'isoler les modèles dans des environnements cloisonnés.

API (Application Programming Interface)

Interface qui permet à deux logiciels de communiquer entre eux selon un protocole défini. Dans le contexte IA, les API permettent d'interroger un modèle de langage à distance (ex. : API OpenAI, API Mistral) sans héberger soi-même le modèle. Du point de vue de la confidentialité, utiliser une API externe implique que les données envoyées transitent chez un tiers : un point critique pour les DPO qui doivent vérifier les conditions contractuelles (DPA, localisation des données, politique de rétention). L'alternative souveraine est le déploiement on-premise via des solutions comme Ollama ou VLLM.

Architecture RAG

Voir RAG (Retrieval-Augmented Generation). Le terme « architecture RAG » insiste sur la dimension système : il ne s'agit pas seulement d'un algorithme mais d'une chaîne complète comprenant un vector store, un module de chunking, un modèle d'embedding, un reranker et un LLM de génération. La robustesse de chaque composant conditionne la qualité finale des réponses.

Attention (mécanisme d'attention)

Le mécanisme d'attention est le cœur architectural des Transformers : il permet au modèle de pondérer dynamiquement l'importance de chaque token du contexte par rapport à chaque autre token lors de la génération. C'est ce mécanisme qui donne aux LLM leur capacité à maintenir la cohérence sur de longs textes et à mettre en relation des informations distantes. La variante « multi-head attention » permet d'apprendre simultanément plusieurs types de relations. Le coût computationnel de l'attention croît quadratiquement avec la longueur du contexte, ce qui explique les efforts d'optimisation via le KV cache.

Auto-hébergement (Self-hosting)

Déploiement d'un modèle IA directement sur les serveurs de l'organisation, sans recours à un fournisseur cloud externe. L'auto-hébergement garantit que les données ne quittent jamais l'infrastructure de l'entreprise, ce qui répond aux exigences de souveraineté et de RGPD. Les outils facilitant l'auto-hébergement incluent Ollama, VLLM, Open WebUI et AnythingLLM. La contrepartie est un investissement en infrastructure GPU et en compétences MLOps.

AnythingLLM

Application open source permettant de déployer un assistant IA en entreprise avec RAG intégré, gestion multi-utilisateurs et connexion à de nombreux backends LLM (Ollama, OpenAI, Mistral, etc.). AnythingLLM offre une interface web conviviale, la gestion de documents par espace de travail et des logs d'utilisation. Elle est particulièrement adaptée aux organisations souhaitant un déploiement rapide sans développement custom. Disponible en auto-hébergement complet.

Exemple : Une PME industrielle déploie AnythingLLM connecté à Ollama pour permettre à ses techniciens d'interroger les manuels de maintenance en langage naturel, sans aucune donnée transmise vers l'extérieur.

Agentic RAG

Extension du RAG classique où un agent IA pilote dynamiquement la stratégie de recherche : il décide quelles sources interroger, reformule la requête si les premiers résultats sont insuffisants, décompose les questions complexes en sous-questions et synthétise les réponses multi-sources. L'agentic RAG améliore significativement la qualité des réponses sur des questions complexes ou multi-hop mais augmente la latence et la complexité opérationnelle. LlamaIndex et LangChain proposent des abstractions pour l'implémenter.

Audit IA

Évaluation formelle d'un système d'intelligence artificielle couvrant ses performances, sa sécurité, sa conformité réglementaire (EU AI Act, RGPD) et son alignement sur les valeurs de l'organisation. L'audit IA peut être réalisé en interne ou par un tiers accrédité. Pour les systèmes à haut risque au sens de l'EU AI Act, des audits périodiques sont obligatoires. Le référentiel ISO 42001 fournit un cadre pour les systèmes de management de l'IA auditables.

B

Benchmark

Ensemble de tests standardisés permettant de mesurer et comparer les performances de modèles IA sur des tâches définies (raisonnement, code, mathématiques, langue française, etc.). Les benchmarks courants incluent MMLU, HellaSwag, HumanEval, GPQA ou le benchmark Arena de Chatbot Arena. Pour les DSI, les benchmarks orientent le choix du modèle, mais doivent être complétés par une évaluation sur des cas d'usage métier réels car un bon score général ne garantit pas les performances sur une tâche spécifique.

Exemple : Avant de déployer un LLM pour de la rédaction juridique, un service IT évalue les modèles candidats sur un benchmark interne de 200 questions issues de son domaine.

BERT (Bidirectional Encoder Representations from Transformers)

Modèle de langage pré-entraîné par Google (2018) basé sur l'architecture Transformer, mais entraîné à comprendre le contexte des deux côtés d'un token (bidirectionnel), contrairement aux LLM génératifs qui lisent de gauche à droite. BERT et ses dérivés (RoBERTa, CamemBERT pour le français) sont particulièrement efficaces pour les tâches de classification, d'extraction d'entités et de recherche sémantique via embedding. En entreprise, les modèles de type BERT sont souvent utilisés comme encodeurs dans les pipelines RAG.

Biais algorithmique

Tendance d'un système IA à produire des résultats systématiquement favorables ou défavorables à certains groupes en raison de déséquilibres dans les données d'entraînement ou dans la conception du modèle. Les biais peuvent être liés au genre, à l'origine, à l'âge ou à d'autres caractéristiques. Pour les DPO, les biais algorithmiques constituent un risque de non-conformité au RGPD et à l'EU AI Act (particulièrement pour les systèmes à haut risque comme le recrutement ou l'octroi de crédit). Une évaluation régulière et des audits de biais sont recommandés.

Blackbox (Boîte noire)

Qualifie un système IA dont le mécanisme interne de décision n'est pas interprétable par un observateur externe : on voit les entrées et les sorties, mais pas le raisonnement intermédiaire. La majorité des LLM modernes sont des boîtes noires à un certain niveau. Ce caractère pose des problèmes d'explainabilité et de conformité réglementaire, notamment pour les systèmes à haut risque sous l'EU AI Act qui exigent une transparence sur les décisions automatisées.

C

ChromaDB

Base de données vectorielle open source légère, conçue pour simplifier le développement d'applications RAG. ChromaDB peut fonctionner en mode embarqué (directement dans le processus Python, sans serveur dédié) ou en mode client-serveur. Elle est très utilisée pour les prototypes et les déploiements de taille modeste grâce à sa facilité d'installation. Pour des volumes importants ou des besoins de performance en production, des solutions comme Qdrant ou Weaviate sont généralement préférées.

Chunking (Découpage)

Processus de découpage des documents en fragments (chunks) avant leur vectorisation et leur stockage dans un vector store. La stratégie de chunking — taille des fragments, chevauchement, respect des structures sémantiques (paragraphes, sections) — est l'un des facteurs les plus déterminants pour la qualité d'un système RAG. Un chunk trop court perd le contexte ; un chunk trop long dilue la précision de la recherche. Les approches avancées incluent le chunking sémantique, le chunking hiérarchique et le parent-child chunking.

Exemple : Un contrat de 50 pages est découpé en chunks de 512 tokens avec 50 tokens de chevauchement pour préserver la continuité des clauses.

CLIP (Contrastive Language–Image Pre-training)

Modèle multimodal développé par OpenAI qui apprend à associer des images et des textes dans un même espace vectoriel. CLIP permet la recherche d'images par description textuelle et inversement. Il est à la base de nombreux systèmes de génération d'images (Stable Diffusion) et de recherche visuelle. En entreprise, CLIP est utile pour indexer des catalogues produits, des archives photographiques ou des bibliothèques de schémas techniques.

Context window (Fenêtre de contexte)

Quantité maximale de tokens (mots, fragments de mots et symboles) qu'un LLM peut traiter en une seule fois, aussi bien en entrée qu'en sortie. Un context window de 128 000 tokens correspond à environ 90 000 mots, soit un roman entier. La taille de la fenêtre de contexte détermine la quantité de documents qu'on peut injecter directement dans un prompt (approche dite « long context ») par opposition à une architecture RAG. Pour les DSI, elle conditionne le coût par requête et la latence.

Corpus

Ensemble structuré de textes utilisés pour entraîner, évaluer ou alimenter un modèle IA. La qualité, la diversité et la représentativité du corpus sont déterminantes pour les performances et les biais du modèle résultant. En entreprise, constituer un corpus de qualité (documents internes, bases de connaissances, manuels) est souvent la première étape d'un projet RAG ou de fine-tuning.

CrewAI

Framework open source Python permettant d'orchestrer des équipes d'agents IA collaboratifs, chacun doté d'un rôle, d'outils et d'objectifs définis. CrewAI facilite la mise en place de workflows multi-agents où différents agents se spécialisent (recherche, rédaction, validation) et se transmettent des informations. Utile pour automatiser des processus complexes qui nécessitent plusieurs étapes de raisonnement ou d'action.

Exemple : Un flux CrewAI comprend un agent « rechercheur » qui collecte des informations sectorielles, un agent « analyste » qui les structure et un agent « rédacteur » qui produit un rapport synthétique.

CSRD (Corporate Sustainability Reporting Directive)

Directive européenne (2022/2464) imposant aux grandes entreprises de publier des rapports détaillés sur leurs impacts environnementaux, sociaux et de gouvernance (ESG), incluant désormais les impacts indirects (Scope 3). L'IA est à la fois un outil d'aide à la conformité CSRD (automatisation de la collecte de données ESG) et un sujet de reporting en soi (consommation énergétique des modèles, biais dans les systèmes RH). Les DPO et RSSI doivent anticiper l'intersection entre CSRD et gouvernance IA.

Chain-of-thought (CoT)

Technique de prompt engineering qui consiste à demander au modèle de décomposer explicitement son raisonnement étape par étape avant de donner une réponse finale. Le CoT améliore significativement les performances des LLM sur des tâches de raisonnement logique, mathématique et de planification. La variante « zero-shot CoT » consiste simplement à ajouter « Réfléchis étape par étape » dans le prompt. Pour les entreprises, le CoT est particulièrement utile pour des tâches d'analyse complexe où la traçabilité du raisonnement est importante.

Compliance IA

Ensemble des démarches visant à s'assurer que les usages de l'IA dans une organisation respectent les exigences légales, réglementaires et éthiques applicables. La compliance IA articule plusieurs référentiels : EU AI Act, RGPD, NIS2, DORA (secteur financier), HDS (santé), ISO 42001. Pour les DPO et RSSI, la compliance IA nécessite une cartographie des usages IA, une classification par niveau de risque et la mise en place de processus de gouvernance continus.

D

Data poisoning (Empoisonnement des données): Attaque consistant à introduire des données corrompues ou malveillantes dans le jeu d'entraînement ou la base de connaissances d'un modèle IA pour influencer son comportement. Le data poisoning peut viser à faire produire au modèle des réponses erronées sur des sujets précis, à introduire des backdoors ou à dégrader ses performances. Pour les RSSI, c'est un vecteur d'attaque à intégrer dans la modélisation des menaces IA, notamment pour les systèmes RAG dont la base documentaire est alimentée par des sources multiples.
Deepfake: Contenu synthétique (vidéo, audio, image) généré par IA pour faire croire qu'une personne réelle dit ou fait quelque chose qu'elle n'a pas dit ou fait. Les deepfakes constituent un risque de réputation et de fraude grandissant pour les entreprises : usurpation d'identité de dirigeants (fraude au président augmentée), désinformation, manipulation de preuves. L'EU AI Act impose le marquage des contenus synthétiques. Les solutions de détection de deepfakes progressent mais restent imparfaites.
Dense retrieval: Méthode de recherche dans une base documentaire qui utilise des vecteurs denses (produits par un modèle d'embedding) pour trouver les passages sémantiquement proches d'une requête. Contrairement à la recherche classique par mots-clés (sparse retrieval), le dense retrieval capture les synonymes, les paraphrases et les relations conceptuelles. Il constitue la composante principale des systèmes RAG modernes et est souvent combiné au sparse retrieval dans une approche hybrid search.
DPO — Direct Preference Optimization: Technique d'alignement des modèles de langage qui entraîne directement le modèle sur des paires de réponses humaines (préférée vs. rejetée) sans nécessiter l'entraînement d'un modèle de récompense séparé comme dans le RLHF. DPO est plus stable, moins coûteux en calcul et donne des résultats comparables au RLHF sur de nombreuses tâches. Il est devenu la méthode dominante pour l'alignement des modèles open source comme Mistral et LLaMA.
DORA (Digital Operational Resilience Act): Règlement européen (2022/2554) entré en application en janvier 2025, qui impose aux entités financières (banques, assurances, établissements de paiement) des exigences strictes de résilience opérationnelle numérique : gestion des risques ICT, tests de résilience, notification des incidents, gestion des tiers prestataires. Pour les DSI du secteur financier, DORA implique de couvrir les systèmes IA dans les plans de continuité et d'inclure les fournisseurs de LLM dans la cartographie des risques tiers.
Distillation (Knowledge distillation): Technique de compression de modèle qui entraîne un modèle plus petit (le « student ») à reproduire le comportement d'un grand modèle performant (le « teacher »), en apprenant de ses probabilités de sortie plutôt que des seules étiquettes. La distillation permet d'obtenir des modèles compacts qui conservent une grande partie des capacités du modèle parent, réduisant ainsi les besoins en GPU et la latence. Plusieurs modèles populaires (Mistral 7B, Phi-2) ont bénéficié de techniques proches de la distillation.
DPA (Data Processing Agreement): Accord de traitement des données (en français : DPA ou ATD) que le RGPD impose de conclure entre un responsable de traitement et tout sous-traitant qui traite des données personnelles en son nom. Dans le contexte IA, tout recours à une API LLM externe (OpenAI, Anthropic, Mistral via La Plateforme) pour traiter des données personnelles nécessite un DPA conforme. Les DPO doivent vérifier : la localisation des données, la politique de rétention, les engagements de sécurité et la chaîne de sous-traitance du fournisseur.

E

Embedding (Plongement vectoriel)

Représentation numérique d'un texte (mot, phrase, paragraphe ou document entier) sous forme d'un vecteur de nombres réels dans un espace de haute dimension. Les embeddings capturent la sémantique : des textes au sens proche ont des vecteurs proches dans cet espace. Ils sont produits par des modèles spécialisés (text-embedding-3-small d'OpenAI, nomic-embed-text, bge-m3) et constituent la brique fondamentale des systèmes de recherche sémantique et de RAG. La dimension des vecteurs (128 à 4096 valeurs) affecte la précision et le coût de stockage.

EU AI Act (Règlement européen sur l'IA)

Premier cadre réglementaire complet sur l'intelligence artificielle, adopté par le Parlement européen en mars 2024 et entré progressivement en application depuis août 2024. Il classe les systèmes IA en quatre niveaux de risque : inacceptable (interdit), haut risque (obligations strictes), risque limité (obligations de transparence) et risque minimal. Les systèmes à haut risque (recrutement, crédit, infrastructures critiques, médical) doivent satisfaire des exigences de documentation, de surveillance humaine, de robustesse et d'auditabilité. Les modèles d'IA à usage général (GPAI) tels que les LLM sont soumis à des obligations spécifiques selon leur puissance de calcul d'entraînement. Les DPO et RSSI doivent cartographier les usages IA de leur organisation selon cette classification.

Calendrier clé : Interdictions en vigueur depuis février 2025 ; obligations pour les GPAI depuis août 2025 ; obligations pour les systèmes à haut risque à partir de 2026-2027.

Évaluation LLM

Processus de mesure systématique des performances, de la fiabilité et de la sécurité d'un LLM sur des tâches définies. Les dimensions clés de l'évaluation incluent : la précision factuelle, la résistance aux hallucinations, la pertinence pour les cas d'usage métier, la latence, le coût par requête et la résistance aux attaques (prompt injection, jailbreak). Des frameworks open source comme RAGAS (pour le RAG), LangSmith ou Promptfoo facilitent l'évaluation automatisée. Une évaluation rigoureuse est indispensable avant tout déploiement en production.

Explainabilité (XAI — Explainable AI)

Capacité d'un système IA à fournir des explications compréhensibles pour ses décisions ou recommandations. Pour les modèles de décision (classification, scoring), des techniques comme SHAP ou LIME permettent d'identifier les variables déterminantes. Pour les LLM, l'explainabilité est plus complexe : le chain-of-thought prompting, qui demande au modèle d'expliciter son raisonnement, est une approche partielle. L'EU AI Act impose des exigences d'explainabilité pour les systèmes à haut risque, notamment dans les décisions affectant des droits individuels.

F

Few-shot learning

Capacité d'un modèle IA à apprendre ou à adapter son comportement à partir d'un très petit nombre d'exemples fournis dans le prompt (généralement 2 à 10). En few-shot, on inclut dans la requête plusieurs paires « exemple d'entrée → sortie attendue » avant de poser la vraie question. Cette technique améliore significativement la pertinence des sorties sans nécessiter de fine-tuning. Elle s'oppose au zero-shot (aucun exemple) et au many-shot (de nombreux exemples exploitant un long context window).

Exemple : Pour extraire les montants de factures, on fournit 3 exemples de factures avec le montant extrait avant de présenter la nouvelle facture à analyser.

Fine-tuning (Affinage)

Processus d'entraînement supplémentaire d'un modèle pré-entraîné sur un jeu de données spécialisé afin d'adapter ses comportements à un domaine ou une tâche précise. Le fine-tuning permet d'intégrer le vocabulaire métier, d'améliorer le style rédactionnel ou d'aligner le modèle sur des procédures internes. Il est plus coûteux qu'une simple adaptation par few-shot ou RAG, mais produit un modèle dont les comportements sont plus profondément modifiés. Les techniques efficientes comme LoRA et QLoRA réduisent les besoins en mémoire GPU.

Quand l'utiliser : Quand le style ou le format de sortie doit être très précis ; quand le modèle doit maîtriser un jargon très spécifique non présent dans ses données d'entraînement ; pour améliorer la latence en remplaçant des instructions complexes dans le prompt.

Foundation model (Modèle de fondation)

Grand modèle pré-entraîné sur des quantités massives de données générales, conçu pour être adapté à une large variété de tâches en aval par fine-tuning, few-shot ou RAG. Les LLM comme GPT-4, Claude, Mistral Large ou Llama 3 sont des modèles de fondation. L'EU AI Act les désigne sous le terme GPAI (General Purpose AI) et leur applique des obligations spécifiques.

Function calling (Appel de fonction)

Capacité d'un LLM à identifier, dans une requête utilisateur, qu'une fonction externe doit être appelée et à générer les paramètres structurés correspondants. Le modèle ne s'exécute pas lui-même la fonction : il signale à l'application hôte quelle fonction appeler et avec quels arguments. C'est la brique fondamentale des agents IA capables d'interagir avec des APIs, des bases de données ou des outils métier. Souvent confondu avec le tool calling, qui en est la généralisation.

Exemple : L'utilisateur demande « Quel est le prix de l'action LVMH ? » ; le LLM génère un appel à la fonction get_stock_price(ticker="MC.PA") que l'application exécute, puis renvoie le résultat au modèle pour formuler la réponse.

Federated learning (Apprentissage fédéré)

Paradigme d'entraînement distribué où le modèle est entraîné localement sur les données de chaque participant, et seuls les gradients (mises à jour du modèle) — non les données brutes — sont partagés avec un serveur central qui agrège les mises à jour. Le federated learning préserve la confidentialité des données tout en permettant un apprentissage collectif. Il est particulièrement pertinent pour les consortiums d'entreprises souhaitant mutualiser des données sensibles (santé, finance) sans les centraliser.

G

Garde-fous (Safety rails): Ensemble de mécanismes techniques et organisationnels visant à limiter les comportements indésirables d'un système IA : refus de certaines requêtes, filtrage des sorties, validation humaine obligatoire pour certaines actions, alertes en cas de dérive. Les garde-fous peuvent être implémentés au niveau du modèle (par l'entraînement), du system prompt ou d'une couche logicielle dédiée (Guardrails). Pour les RSSI, les garde-fous constituent la première ligne de défense contre les abus et les incidents IA.
GPU (Graphics Processing Unit): Processeur graphique massivement parallèle, devenu le composant matériel central de l'IA. Les GPU (principalement NVIDIA avec ses séries A100, H100, H200) permettent d'entraîner et d'inférer les LLM à des vitesses impossibles sur CPU classiques, grâce à leur capacité à effectuer des milliers d'opérations matricielles en parallèle. Pour les DSI qui souhaitent déployer des modèles on-premise, le choix et le dimensionnement GPU est un enjeu économique majeur : un Llama 3.1 70B nécessite par exemple 2 à 4 GPU H100 pour une inférence fluide en FP16.
Graph RAG: Extension du RAG classique qui s'appuie sur un knowledge graph pour enrichir la recherche documentaire par des relations explicites entre entités. Là où le RAG vectoriel trouve des passages textuellement proches, Graph RAG peut naviguer les relations (« qui dirige quelle filiale », « quel produit est concerné par quelle réglementation ») et produire des réponses intégrant des chaînes de raisonnement sur le graphe. Développé notamment par Microsoft Research (2024), Graph RAG améliore significativement les performances sur les requêtes complexes nécessitant une vue globale du corpus.
Guardrails: Terme générique désignant les mécanismes de contrôle encadrant les sorties d'un LLM, mais aussi le nom d'un framework open source Python (NeMo Guardrails de NVIDIA, Guardrails AI) permettant de définir des règles déclaratives sur ce qu'un modèle peut ou ne peut pas produire. En pratique, les guardrails peuvent filtrer les contenus sensibles, forcer un format de sortie, bloquer les topics hors périmètre ou déclencher une escalade humaine. Ils sont distincts des garde-fous définis dans le system prompt, qui restent contournables.

H

Hallucination

Phénomène par lequel un LLM génère des affirmations factuellement incorrectes, inexistantes ou fabriquées, mais présentées avec une apparente confiance. Les hallucinations surviennent parce que les LLM sont des modèles statistiques de langage qui optimisent la plausibilité des tokens suivants, non la vérité factuelle. Pour les entreprises, les hallucinations constituent le premier risque opérationnel des déploiements IA : une réponse erronée peut induire une mauvaise décision, engager la responsabilité ou nuire à la réputation. L'architecture RAG réduit significativement les hallucinations en ancrant les réponses dans des sources vérifiables.

Exemple : Un LLM interrogé sur la législation fiscale peut citer une circulaire qui n'existe pas, avec le numéro et la date correspondants.

HDS (Hébergement de Données de Santé)

Certification française obligatoire pour tout prestataire hébergeant des données de santé à caractère personnel. Délivrée par un organisme accrédité (BSI, Bureau Veritas, etc.), elle atteste que le prestataire respecte les exigences de la loi Informatique et Libertés et du Code de la santé publique en matière de sécurité. Pour les DSI du secteur santé souhaitant utiliser de l'IA, tout hébergeur de LLM traitant des données patient doit être certifié HDS. L'auto-hébergement sur infrastructure propre certifiée HDS est une alternative.

HNSW (Hierarchical Navigable Small World)

Algorithme d'indexation et de recherche approximative de voisins les plus proches (Approximate Nearest Neighbor — ANN) dans un espace vectoriel. HNSW organise les vecteurs en un graphe hiérarchique permettant des recherches très rapides (quelques millisecondes) même sur des bases de millions de vecteurs, avec un excellent compromis vitesse/précision. Il est l'algorithme par défaut de la plupart des vector stores modernes (Qdrant, Weaviate, ChromaDB). Comprendre HNSW aide les DSI à dimensionner correctement les ressources mémoire (l'index HNSW réside en RAM).

Hybrid search (Recherche hybride)

Stratégie de recherche documentaire combinant la recherche sémantique dense (par embeddings) et la recherche par mots-clés sparse (BM25, TF-IDF). La recherche dense excelle à capturer le sens et les paraphrases ; la recherche sparse excelle à retrouver des termes exacts (noms propres, codes produit, références réglementaires). La combinaison des deux scores (via Reciprocal Rank Fusion ou d'autres méthodes de fusion) produit en général de meilleures performances que chaque approche seule. La plupart des vector stores modernes supportent nativement l'hybrid search.

I

Inference (Inférence): Phase d'utilisation d'un modèle IA entraîné pour produire des prédictions ou des réponses à partir de nouvelles entrées. Contrairement à l'entraînement, qui est une opération unique et coûteuse, l'inférence est répétée à chaque requête utilisateur. Le coût et la vitesse d'inférence (mesurés en tokens/seconde et en coût par million de tokens) sont des paramètres clés pour les DSI qui dimensionnent les infrastructures de production. Des optimisations comme la quantization, le KV cache et le batching améliorent l'efficacité de l'inférence.
IA générative: Famille de modèles d'intelligence artificielle capables de créer du contenu original : texte, images, audio, vidéo, code, données synthétiques. Contrairement aux IA discriminantes (qui classifient ou prédisent à partir de données existantes), les IA génératives apprennent la distribution des données d'entraînement et peuvent générer de nouveaux exemples cohérents. Les LLM sont le sous-ensemble le plus déployé en entreprise. L'IA générative ouvre des usages de productivité importants mais introduit aussi des risques spécifiques (hallucination, deepfake, biais).
IA souveraine: Approche de déploiement de l'IA garantissant que les données, les modèles et les infrastructures restent sous le contrôle d'une organisation ou d'un État, sans dépendance à des fournisseurs extra-européens. La souveraineté IA couvre plusieurs dimensions : souveraineté des données (les données ne quittent pas l'UE ou l'infrastructure de l'organisation), souveraineté du modèle (utilisation de modèles open source ou déployés localement), souveraineté de l'infrastructure (cloud souverain ou on-premise). C'est le positionnement central d'Intelligence Privée.
In-context learning: Capacité des LLM à apprendre de nouvelles tâches ou comportements uniquement à partir des exemples et instructions fournis dans le prompt, sans modifier les poids du modèle. Cette propriété émergente des grands modèles englobe le zero-shot, le few-shot et le instruction tuning implicite. Elle permet d'adapter rapidement un modèle à un contexte métier sans coût d'entraînement, ce qui en fait le mode d'adaptation le plus courant en entreprise.
Instruction tuning: Variante du fine-tuning qui entraîne un modèle sur des paires instruction-réponse pour améliorer sa capacité à suivre des consignes en langage naturel. C'est l'étape qui transforme un modèle de base (« base model », bon pour compléter du texte) en un modèle assistant (« instruct model », capable de répondre à des questions et d'exécuter des tâches). La plupart des modèles déployés en production sont des modèles instruction-tuned : Mistral Instruct, Llama 3.1 Instruct, etc.
ISO 42001: Première norme internationale de système de management de l'intelligence artificielle, publiée en décembre 2023. ISO 42001 fournit un cadre certifiable pour la gouvernance responsable de l'IA : politique IA, gestion des risques, évaluation d'impact, amélioration continue. Elle est complémentaire à l'EU AI Act et au NIST AI RMF. Pour les DSI, une certification ISO 42001 peut servir de preuve de maturité IA vis-à-vis des clients, partenaires et régulateurs.

J

Jailbreak: Technique d'attaque visant à contourner les garde-fous et restrictions d'un LLM pour lui faire produire des contenus qu'il est censé refuser : instructions malveillantes, contenus illicites, informations confidentielles. Les jailbreaks exploitent des failles dans l'alignement du modèle via des formulations creatives (jeux de rôle, encodages, injections indirectes). Pour les RSSI, le risque de jailbreak est réel en production : un chatbot client peut être manipulé pour révéler des informations sur son system prompt ou outrepasser ses instructions. Les solutions incluent des couches de filtrage et des tests de robustesse réguliers.
JSON mode: Fonctionnalité de certains LLM garantissant que la sortie est un JSON valide et structuré, facilitant l'intégration dans des pipelines applicatifs. Sans JSON mode, les LLM peuvent produire du JSON malformé ou entourer le JSON de texte explicatif. Le JSON mode (ou « structured output ») est essentiel pour les architectures d'agents IA et de function calling où la fiabilité du format de sortie est critique.

K

Knowledge graph (Graphe de connaissances): Représentation structurée de connaissances sous forme d'un réseau de nœuds (entités : personnes, produits, concepts) et d'arêtes (relations : « est-un », « appartient-à », « réglemente »). Les knowledge graphs permettent de raisonner sur des relations complexes que la recherche sémantique vectorielle capture mal. Combinés avec les LLM dans les architectures Graph RAG, ils améliorent la précision des réponses sur des corpus documentaires structurés. Des outils comme Neo4j, Amazon Neptune ou des solutions open source permettent de construire et interroger des knowledge graphs.
KV cache (Key-Value cache): Mécanisme d'optimisation de l'inférence LLM qui stocke en mémoire les représentations intermédiaires (clés et valeurs du mécanisme d'attention) déjà calculées, pour éviter de les recalculer à chaque nouveau token généré. Sans KV cache, la complexité de génération croît quadratiquement avec la longueur du contexte ; avec KV cache, elle devient linéaire. Pour les DSI qui déploient des LLM en production, le KV cache est un paramètre clé du dimensionnement mémoire GPU : les longs context windows consomment proportionnellement plus de VRAM.

L

LangChain: Framework Python (et JavaScript) open source facilitant le développement d'applications basées sur des LLM : chaînes de traitement, intégration de mémoire, connexion à des outils, pipelines RAG. LangChain a popularisé les patterns d'applications LLM mais sa complexité et ses changements d'API fréquents ont conduit à l'émergence d'alternatives plus légères (LlamaIndex, Haystack). LangSmith, son produit complémentaire, offre des capacités d'observabilité et d'évaluation.
Latence: Temps écoulé entre l'envoi d'une requête à un LLM et la réception de la première réponse (TTFT — Time To First Token) ou de la réponse complète. La latence est un critère clé pour les applications interactives où l'utilisateur attend une réponse en temps réel. Elle dépend de la taille du modèle, de l'infrastructure (GPU, réseau), du batching et des optimisations (quantization, KV cache). Le streaming (envoi token par token) améliore la perception de latence sans réduire le temps total.
LiteLLM: Bibliothèque Python open source fournissant une interface unifiée pour appeler plus de 100 LLM différents (OpenAI, Anthropic, Mistral, Ollama, Azure, Bedrock, etc.) avec la même API. LiteLLM agit comme un proxy LLM et facilite la portabilité du code entre fournisseurs, le basculement automatique (fallback) et la gestion des coûts. Pour les DSI souhaitant une architecture multi-modèles, LiteLLM simplifie l'intégration et la gouvernance.
LlamaIndex: Framework Python open source spécialisé dans l'ingestion de données et la construction de pipelines RAG. LlamaIndex propose des abstractions pour charger des données depuis de nombreuses sources (PDF, Notion, Confluence, bases SQL), les indexer et les interroger via des LLM. Il est réputé pour ses fonctionnalités avancées de RAG (reranking, query routing, agentic RAG) et sa documentation de qualité. Complémentaire ou alternatif à LangChain.
LLM — Large Language Model: Modèle de langage de grande taille, entraîné sur des corpus massifs de textes, capable de comprendre et de générer du langage naturel avec une cohérence et une richesse remarquables. Les LLM actuels (GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Mistral Large, Llama 3.3) comptent des dizaines à des centaines de milliards de paramètres. Ils reposent sur l'architecture Transformer et le mécanisme d'attention. Pour les entreprises, les LLM sont la brique de base des cas d'usage IA : assistants internes, RAG, agents, génération de documents, analyse de données.
LoRA — Low-Rank Adaptation: Technique de fine-tuning efficiente qui n'entraîne pas tous les paramètres du modèle, mais injecte de petites matrices de bas rang dans les couches d'attention. LoRA réduit drastiquement le nombre de paramètres entraînables (de 99% ou plus) et donc les besoins en mémoire GPU et en données d'entraînement, tout en atteignant des performances proches d'un fine-tuning complet. Les adaptateurs LoRA peuvent être fusionnés avec le modèle de base ou chargés dynamiquement. Voir aussi QLoRA pour la variante quantifiée.
LLM-as-judge: Technique d'évaluation où un LLM (souvent plus puissant ou différent du modèle évalué) joue le rôle de juge pour noter automatiquement la qualité des réponses d'un autre LLM. LLM-as-judge permet d'automatiser à grande échelle des évaluations qui nécessiteraient sinon une annotation humaine coûteuse. Des frameworks comme MT-Bench ou Prometheus implémentent cette approche. Pour les équipes IA, c'est un outil clé du pipeline de MLOps pour surveiller en continu la qualité des réponses en production.

M

MCP — Model Context Protocol

Protocole ouvert développé par Anthropic (2024) standardisant la façon dont les LLM et les agents IA se connectent à des sources de données et des outils externes. MCP définit une interface client-serveur permettant à un modèle d'accéder à des systèmes (bases de données, APIs, systèmes de fichiers, outils métier) de manière structurée et sécurisée, sans que chaque intégration nécessite un développement ad hoc. Pour les DSI, MCP simplifie l'architecture des applications agentiques et facilite l'interopérabilité entre modèles et systèmes d'information existants.

Exemple : Un agent connecté via MCP peut interroger simultanément le CRM Salesforce, le ERP SAP et la GED interne en utilisant des connecteurs MCP standardisés.

Mistral

Startup française d'IA fondée en 2023 par d'anciens chercheurs de DeepMind et Meta, devenue un acteur de référence du LLM en Europe. Mistral développe des modèles open source de haute performance (Mistral 7B, Mixtral 8x7B, Mistral Large) et propose une offre commerciale via sa plateforme La Plateforme. Pour les entreprises européennes soucieuses de souveraineté, Mistral offre une alternative crédible aux fournisseurs américains, avec des modèles déployables on-premise et une infrastructure localisée en France.

MLOps (Machine Learning Operations)

Ensemble des pratiques, outils et processus visant à industrialiser le déploiement, la surveillance et la maintenance des modèles d'apprentissage automatique en production. MLOps applique au machine learning les principes DevOps : intégration continue, déploiement continu, versioning des modèles et des données, monitoring des performances et de la dérive. Pour les DSI, mettre en place une pratique MLOps est indispensable pour garantir la fiabilité des systèmes IA dans la durée : un modèle non surveillé peut se dégrader progressivement sans que cela soit détecté.

MoE — Mixture of Experts

Architecture de réseau de neurones composée de plusieurs sous-réseaux spécialisés (les « experts ») et d'un mécanisme de routage (le « gating ») qui sélectionne dynamiquement les experts les plus pertinents pour chaque token ou chaque requête. MoE permet d'augmenter la capacité totale du modèle (nombre de paramètres) sans augmenter proportionnellement le coût d'inférence, car seule une fraction des experts est activée à chaque fois. Mixtral 8x7B (Mistral) et GPT-4 sont présumés utiliser cette architecture. Pour les DSI, MoE explique comment des modèles très performants peuvent rester raisonnablement rapides et économiques à l'inférence.

Multimodal

Qualifie un modèle capable de traiter et de générer plusieurs types de données (modalités) : texte, images, audio, vidéo, code. Les LLM multimodaux comme GPT-4o, Gemini 1.5 Pro ou LLaVA peuvent analyser des images, transcrire de l'audio ou répondre à des questions sur des graphiques. Pour les entreprises, la multimodalité ouvre des cas d'usage nouveaux : analyse automatique de factures scannées, contrôle qualité visuel, transcription de réunions avec analyse du discours.

Model card (Carte de modèle)

Document standardisé accompagnant un modèle IA et décrivant ses caractéristiques essentielles : données d'entraînement, performances sur différents groupes démographiques, limites connues, usages recommandés et déconseillés, et considérations éthiques. Les model cards ont été popularisées par Google et sont désormais une pratique standard sur Hugging Face. Pour les DPO et RSSI, la model card est un document de référence lors de l'évaluation d'un modèle tiers et un élément de la documentation de conformité EU AI Act.

Monitoring IA (Surveillance des modèles)

Surveillance continue des modèles IA en production pour détecter les dérives de performance, les anomalies de comportement, les tentatives d'attaque (prompt injection, jailbreak) et les variations de coût. Le monitoring IA couvre la dérive de données (data drift), la dérive du modèle (model drift), les métriques de qualité des réponses et les indicateurs opérationnels (latence, taux d'erreur). Des outils comme LangFuse, Phoenix (Arize) ou Prometheus + Grafana sont utilisés selon l'architecture. Le monitoring est une composante essentielle du MLOps.

N

NIS2 (Network and Information Security Directive 2): Directive européenne (2022/2555) transposée en droit français qui élargit le périmètre et renforce les obligations de cybersécurité pour les entités essentielles et importantes dans des secteurs critiques (énergie, transport, santé, finance, eau, numérique). NIS2 impose des mesures de gestion des risques (dont les risques liés à l'IA), des obligations de notification des incidents et des sanctions significatives. Les RSSI doivent intégrer les risques spécifiques à l'IA (prompt injection, data poisoning) dans leur analyse NIS2.
NLP — Natural Language Processing: Domaine de l'intelligence artificielle dédié à la compréhension et à la génération du langage humain par les machines. Le NLP couvre des tâches variées : classification de texte, extraction d'entités, traduction automatique, résumé, question-réponse, analyse de sentiment. Les LLM ont profondément transformé le NLP depuis 2017, rendant obsolètes de nombreuses approches antérieures basées sur des règles ou des modèles statistiques plus simples.
NIST AI RMF (AI Risk Management Framework): Cadre de gestion des risques IA publié par le National Institute of Standards and Technology américain (2023), structuré autour de quatre fonctions : Gouverner, Cartographier, Mesurer, Gérer. Bien que d'origine américaine, le NIST AI RMF est une référence internationale complémentaire à l'EU AI Act et au référentiel ISO 42001. Les RSSI peuvent s'en inspirer pour structurer leur programme de gestion des risques IA, notamment pour l'identification et l'évaluation des risques liés aux modèles en production.
Nœud vectoriel: Dans le contexte des knowledge graphs et des bases de données hybrides, un nœud vectoriel est un nœud du graphe enrichi d'un vecteur d'embedding permettant la recherche sémantique sur les entités du graphe. Cette combinaison (graphe + vecteur) est au cœur des architectures Graph RAG et des bases de données comme Weaviate qui supportent nativement les deux modes de recherche.

O

Ollama

Outil open source permettant de télécharger et d'exécuter des LLM open source (Llama, Mistral, Gemma, Phi, Qwen, etc.) localement sur un ordinateur ou un serveur, avec une interface simple en ligne de commande et une API compatible OpenAI. Ollama gère automatiquement la quantization et l'allocation GPU/CPU. Pour les DSI et RSSI, Ollama est souvent la première étape d'une stratégie d'IA souveraine : déploiement en quelques minutes, données totalement privées, aucune dépendance réseau.

Exemple : ollama run mistral télécharge et démarre un serveur Mistral 7B localement en moins de 5 minutes.

On-premise (Sur site)

Mode de déploiement où les logiciels, modèles et données sont hébergés et exploités sur les propres serveurs de l'organisation, dans ses locaux ou dans un datacenter qu'elle contrôle. Par opposition au cloud public, l'on-premise garantit la maîtrise totale des données et des accès. Pour les déploiements IA, l'on-premise est privilégié par les secteurs sensibles (défense, santé, finance, industrie critique) et toute organisation traitant des données confidentielles ou soumises à des obligations réglementaires strictes.

Open WebUI

Interface web open source (anciennement Ollama WebUI) permettant d'interagir avec des LLM déployés localement via Ollama ou d'autres backends, avec une expérience similaire à ChatGPT : conversations multiples, historique, gestion de documents, accès multi-utilisateurs avec authentification. Open WebUI supporte également les fonctionnalités RAG natives et les tool calls. C'est la solution la plus populaire pour offrir une interface conviviale à un déploiement IA souverain.

Orchestrateur

Composant logiciel responsable de coordonner l'exécution de plusieurs agents IA, outils et LLM au sein d'un workflow complexe. L'orchestrateur décompose l'objectif global en sous-tâches, les distribue aux agents appropriés, gère les dépendances et les états intermédiaires, et synthétise les résultats. Des frameworks comme LangChain, CrewAI ou LlamaIndex AgentWorkflow jouent le rôle d'orchestrateur. Le MCP standardise la communication entre l'orchestrateur et les outils.

OWASP LLM Top 10

Liste publiée par l'Open Web Application Security Project référençant les 10 risques de sécurité les plus critiques pour les applications basées sur des LLM. La liste 2025 inclut notamment : prompt injection, fuite de données sensibles, jailbreak, chaîne d'approvisionnement compromise, hallucinations avec impact sécuritaire, déni de service, vol de propriété intellectuelle via le modèle. Pour les RSSI, l'OWASP LLM Top 10 est la référence de base pour la sécurité des applications IA.

P

Perplexité: Métrique évaluant la qualité d'un modèle de langage : elle mesure à quel point le modèle est « surpris » par un texte de référence. Une perplexité faible indique que le modèle prédit bien les tokens du texte de test, donc qu'il modélise bien le langage. La perplexité est utilisée en interne lors de l'évaluation des LLM, mais ne corrèle pas toujours bien avec les performances sur des tâches applicatives. Pour les non-spécialistes, elle reste un indicateur technique parmi d'autres, complété par des benchmarks plus applicatifs.
Prompt engineering: Art et science de formuler des instructions (prompts) pour obtenir les meilleures sorties possibles d'un LLM. Les techniques clés incluent : le chain-of-thought (demander au modèle de raisonner étape par étape), le few-shot, la décomposition de tâches complexes, la définition d'un persona dans le system prompt, et l'utilisation de formats structurés. Un bon prompt engineering peut améliorer radicalement les performances d'un modèle sur une tâche sans aucun entraînement supplémentaire. C'est une compétence qui monte en puissance dans les équipes IT et métier.
Prompt injection: Attaque consistant à insérer des instructions malveillantes dans les données traitées par un LLM (document, email, page web) pour détourner son comportement. Dans une attaque d'injection directe, l'utilisateur formule lui-même l'instruction malveillante. Dans une attaque indirecte, les instructions sont cachées dans une source externe que le modèle consulte (page web, fichier PDF). Pour les RSSI, la prompt injection est le vecteur d'attaque n°1 des applications LLM en production : un agent IA qui lit des emails peut être détourné par un email contenant des instructions cachées. Référencé en première position dans l'OWASP LLM Top 10.
Proxy LLM: Composant logiciel intercalé entre les applications clientes et les LLM, qui relaie les requêtes tout en ajoutant des services transverses : authentification, contrôle des quotas, journalisation, filtrage de contenu, routage vers différents modèles, gestion des coûts. Des solutions comme LiteLLM ou LangFuse peuvent jouer ce rôle. Pour les DSI, un proxy LLM centralise la gouvernance de l'accès aux modèles et fournit une visibilité sur l'utilisation IA à l'échelle de l'organisation.
Prompt caching: Technique d'optimisation qui met en cache le traitement d'un contexte long récurrent (system prompt, documents de référence) pour éviter de le recalculer à chaque nouvelle requête. Lorsqu'une même séquence de tokens initiale est réutilisée d'une requête à l'autre, le cache est activé, réduisant la latence et le coût de 60 à 90%. Supporté nativement par l'API Anthropic Claude, le prompt caching est particulièrement pertinent pour les applications avec un contexte statique long (documentation, règles métier, system prompt étendu).
PII (Personally Identifiable Information): Informations permettant d'identifier directement ou indirectement une personne physique (nom, email, numéro de sécurité sociale, adresse IP, données biométriques, etc.). Dans le contexte IA, les PII constituent un risque majeur : elles peuvent être présentes dans les corpus d'entraînement (et mémorisées par le modèle), dans les prompts utilisateurs envoyés à des APIs externes, ou produites par inadvertance dans les réponses. Les DPO doivent mettre en place des mécanismes de détection et d'anonymisation des PII dans les pipelines IA (RGPD).

Q

QLoRA — Quantized Low-Rank Adaptation: Combinaison de quantization et de LoRA permettant de faire du fine-tuning de très grands modèles sur du matériel GPU grand public ou professionnel modeste. QLoRA charge le modèle de base en précision réduite (4 bits), ce qui divise par 4 la mémoire requise, puis entraîne uniquement les petites matrices LoRA en précision normale. Cette technique a démocratisé le fine-tuning : il est désormais possible d'adapter un modèle de 70 milliards de paramètres sur une seule GPU A100 80 Go.
Quantization (Quantification): Technique de compression de modèle qui réduit la précision numérique des poids (de FP32 ou FP16 vers INT8, INT4 ou même INT2), diminuant ainsi la mémoire nécessaire et accélérant l'inférence. Un modèle quantifié en 4 bits occupe environ 4 fois moins de mémoire qu'en 16 bits, avec une perte de qualité souvent faible sur les modèles modernes. La quantization est indispensable pour déployer de grands modèles sur des GPU de capacité limitée. Les formats courants incluent GGUF (pour Ollama) et GPTQ/AWQ (pour VLLM).
Qdrant: Base de données vectorielle open source haute performance développée en Rust, spécialisée dans la recherche de voisins les plus proches pour les embeddings. Qdrant supporte l'hybrid search, le filtrage par métadonnées, la quantization des vecteurs et les déploiements distribués. Sa performance et sa robustesse en font un choix fréquent pour les déploiements RAG en production. Disponible en open source auto-hébergé ou en cloud managé (Qdrant Cloud).

R

RAG — Retrieval-Augmented Generation

Architecture combinant la recherche documentaire et la génération par LLM pour produire des réponses factuelles ancrées dans une base de connaissances contrôlée. Le principe : quand un utilisateur pose une question, le système recherche d'abord les passages les plus pertinents dans la base documentaire (retrieval), puis les injecte dans le prompt du LLM qui génère une réponse en s'appuyant sur ces sources (generation). Le RAG est la réponse standard aux hallucinations et à l'obsolescence des connaissances des LLM. Pour les entreprises, il permet d'exploiter les documents internes sans entraîner de nouveau modèle.

Composants clés : chunking → embedding → vector store → retrieval → reranking → LLM.

RGPD (Règlement Général sur la Protection des Données)

Règlement européen (2016/679) définissant les droits des personnes physiques sur leurs données personnelles et les obligations des organisations qui les traitent. Dans le contexte IA, le RGPD s'applique à toute utilisation de données personnelles pour entraîner, évaluer ou déployer des modèles. Les DPO doivent notamment s'assurer : de la base légale du traitement, du respect du principe de minimisation (n'utiliser que les données nécessaires), des droits des personnes (accès, rectification, effacement), et de l'encadrement contractuel des sous-traitants (dont les fournisseurs de LLM). L'utilisation d'une API LLM externe nécessite un DPA (Data Processing Agreement) conforme.

RLHF — Reinforcement Learning from Human Feedback

Technique d'alignement qui utilise des retours humains pour entraîner un modèle de récompense, puis optimise le LLM via apprentissage par renforcement pour maximiser ce score de récompense. RLHF a permis de transformer des modèles de base en assistants utiles, honnêtes et inoffensifs (InstructGPT, ChatGPT). Il est progressivement remplacé ou complété par des méthodes plus simples comme le DPO. La collecte de données humaines de qualité reste le goulot d'étranglement de RLHF.

Reranking (Reclassement)

Étape optionnelle mais souvent décisive dans un pipeline RAG qui réordonne les passages récupérés par la recherche initiale selon leur pertinence réelle vis-à-vis de la question. Les rerankers (cross-encoders comme Cohere Rerank, bge-reranker, ms-marco) évaluent chaque paire (question, passage) conjointement, ce qui est plus précis mais plus lent que la recherche vectorielle initiale. Le reranking améliore significativement la qualité des réponses RAG, particulièrement sur des requêtes complexes ou ambiguës.

Red teaming IA

Pratique consistant à simuler des attaques adversariales contre un système IA pour identifier ses failles et limites avant le déploiement en production. Le red teaming IA teste la résistance aux jailbreaks, aux prompt injections, aux data poisoning et aux comportements non désirés. Il peut être réalisé manuellement par des experts en sécurité ou automatisé avec des outils spécialisés (PyRIT de Microsoft, Garak). L'EU AI Act recommande le red teaming pour les modèles GPAI à haut impact.

S

SecNumCloud: Qualification délivrée par l'ANSSI aux prestataires de services cloud répondant aux exigences de sécurité les plus élevées définies par le référentiel du même nom. SecNumCloud garantit notamment la protection contre les lois extra-européennes à portée extraterritoriale (Cloud Act américain, etc.) et impose des exigences strictes sur la localisation des données, le contrôle des accès et la résilience. Pour les organisations traitant des données sensibles (OIV, administrations, données de santé), SecNumCloud est souvent un prérequis pour le choix d'un prestataire cloud. Les fournisseurs qualifiés incluent OVHcloud, Outscale (Dassault Systèmes) et S3ns (Google/Thales).
Semantic search (Recherche sémantique): Approche de recherche qui comprend l'intention et le sens d'une requête plutôt que de simplement matcher des mots-clés. Basée sur les embeddings, elle retrouve des documents pertinents même si la question est formulée différemment du contenu des documents. La recherche sémantique est au cœur des systèmes RAG et remplace avantageusement la recherche full-text classique pour les bases de connaissances en langage naturel. Souvent combinée à la recherche par mots-clés dans une approche hybrid search.
Sparse retrieval: Méthode de recherche documentaire basée sur des représentations creuses (sparse) comme TF-IDF ou BM25, qui attribuent des poids aux mots-clés présents dans les documents et les requêtes. Contrairement au dense retrieval, le sparse retrieval ne capture pas la sémantique mais excelle à retrouver des termes exacts, des codes ou des identifiants. Sa rapidité et son efficacité sur les requêtes précises en font un complément indispensable au dense retrieval dans les architectures hybrid search.
System prompt (Prompt système): Instructions initiales fournies à un LLM avant tout échange avec l'utilisateur, définissant son rôle, ses contraintes, son style de réponse et le périmètre de ses actions. Le system prompt est invisible pour l'utilisateur final mais conditionne fortement le comportement du modèle. Pour les RSSI, la confidentialité du system prompt est un enjeu : des techniques d'extraction peuvent tenter de le révéler. Des guardrails supplémentaires viennent renforcer les contraintes définies dans le system prompt.
SLA (Service Level Agreement): Accord de niveau de service définissant les engagements contractuels d'un fournisseur en matière de disponibilité, de performance et de temps de réponse. Dans le contexte IA, le SLA d'une API LLM ou d'une plateforme d'IA couvre typiquement : la disponibilité (uptime), la latence maximale, les temps de reprise après incident et les pénalités en cas de non-respect. Pour les DSI qui déploient l'IA dans des processus critiques, négocier des SLA adaptés et prévoir des mécanismes de fallback est essentiel.
Shadow IT IA: Usage non sanctionné de services et outils IA par les employés, en dehors du cadre validé par la DSI et la politique de sécurité de l'entreprise (ex. : utilisation personnelle de ChatGPT pour traiter des données sensibles, installation de plugins IA non approuvés). Le shadow IT IA représente un risque réel de fuite de données et de non-conformité RGPD. Pour les DSI, la réponse est une politique IA claire, des outils approuvés accessibles et de la formation — la prohibition seule est généralement inefficace.
Streaming (LLM): Mode de génération où le LLM envoie les tokens au fur et à mesure de leur génération, plutôt qu'attendre que la réponse complète soit produite avant de l'envoyer. Le streaming améliore drastiquement la perception de la latence pour l'utilisateur : la réponse commence à apparaître en quelques millisecondes. Il est activé par défaut dans la plupart des interfaces comme Open WebUI et supporté par toutes les API LLM majeures via les Server-Sent Events (SSE).

T

Temperature (Température): Paramètre de génération des LLM contrôlant le degré d'aléatoire des sorties : une température de 0 rend les sorties déterministes (le token le plus probable est toujours choisi), tandis qu'une température élevée (0,8 à 1,2) diversifie les sorties en donnant plus de chances à des tokens moins probables. Pour les usages entreprise nécessitant des réponses précises et reproductibles (extraction de données, génération de code), une température basse est recommandée. Pour les usages créatifs (brainstorming, génération de contenu), une température plus élevée produit des résultats plus variés.
Tokenizer (Tokeniseur): Composant qui transforme le texte brut en séquence de tokens (sous-mots, mots ou caractères) que le modèle peut traiter. Chaque LLM utilise son propre tokenizer avec son propre vocabulaire. La façon dont un texte est tokenisé influence le nombre de tokens (et donc le coût de traitement) ainsi que les performances du modèle sur certaines tâches. Les mots rares, les langues peu représentées ou les termes techniques sont souvent découpés en de nombreux tokens, ce qui peut dégrader les performances du modèle sur ces contenus.
Tool calling (Appel d'outil): Généralisation du function calling : capacité d'un LLM à sélectionner et appeler des outils externes (APIs, fonctions, recherches, scripts) pour enrichir ses réponses ou réaliser des actions. Le tool calling est la capacité fondamentale qui transforme un LLM en agent IA. Les outils peuvent être définis par le développeur (recherche dans une base de connaissances, envoi d'email, requête SQL) ou standardisés via le protocole MCP. La sécurisation des outils accessibles est un enjeu RSSI majeur.
Transformer: Architecture de réseau de neurones introduite par Google en 2017 dans l'article « Attention Is All You Need », qui a révolutionné le NLP et constitue la base de tous les LLM modernes. Le Transformer repose sur le mécanisme d'attention pour modéliser les relations entre les éléments d'une séquence, sans recourir aux réseaux récurrents (RNN) qui peinaient sur les longues séquences. L'efficacité du Transformer à traiter des données séquentielles l'a également propulsé dans d'autres domaines : vision par ordinateur, bioinformatique, génération musicale.
TGI — Text Generation Inference: Framework open source développé par Hugging Face pour servir des LLM en production à haute performance. TGI supporte le batching continu, la quantization, le KV cache optimisé et l'inférence sur plusieurs GPU en parallèle. Il offre une API compatible OpenAI et supporte une large gamme de modèles (LLaMA, Mistral, Falcon, etc.). TGI est une alternative à VLLM pour les déploiements on-premise nécessitant un fort débit.

U

UBL (Usage-Based Licensing / Unified Business Language): Dans le contexte IA, l'UBL (Usage-Based Licensing) désigne un modèle de tarification où le coût est proportionnel à l'usage effectif (tokens traités, requêtes, temps de calcul) plutôt qu'à une licence fixe. La majorité des API LLM fonctionnent en UBL. Pour les DSI, ce modèle facilite le démarrage (coût nul si pas d'usage) mais rend la budgétisation difficile en cas de forte croissance des usages. La mise en place d'un proxy LLM avec des quotas par équipe est recommandée pour maîtriser les coûts.
UMAP (Uniform Manifold Approximation and Projection): Algorithme de réduction de dimensionnalité permettant de projeter des vecteurs de haute dimension (par exemple des embeddings de 1536 dimensions) dans un espace 2D ou 3D visualisable. UMAP est utilisé pour explorer et comprendre la structure des espaces vectoriels : visualiser des clusters de documents, détecter des anomalies ou valider la qualité des embeddings. C'est un outil d'analyse précieux lors de la conception et du débogage de pipelines RAG.

V

Vecteur: Représentation mathématique d'un objet (texte, image, audio) sous forme d'un tableau de nombres réels. Dans le contexte de l'IA, les vecteurs capturent la sémantique : deux textes au sens proche auront des vecteurs proches dans l'espace vectoriel (mesurés par similarité cosinus ou distance euclidienne). La qualité de la représentation vectorielle dépend du modèle d'embedding utilisé. La manipulation de vecteurs est au cœur de la recherche sémantique et du RAG.
Vector store (Base de données vectorielle): Système de stockage et d'indexation optimisé pour les vecteurs d'embedding, permettant des recherches rapides de voisins les plus proches (ANN — Approximate Nearest Neighbors). Les vector stores constituent le cœur d'un pipeline RAG. Les principales solutions incluent Qdrant, Weaviate, ChromaDB, Pinecone (cloud), pgvector (extension PostgreSQL). Le choix dépend du volume de données, des besoins de performance, de la nécessité d'hébergement souverain et des fonctionnalités requises (hybrid search, filtres, graphe).
Vectorisation: Processus de transformation d'un contenu (texte, image, document) en vecteur d'embedding via un modèle d'encodage. La vectorisation est l'étape centrale de la préparation des données dans un pipeline RAG : chaque chunk de document est vectorisé et stocké dans le vector store avec ses métadonnées. La cohérence est essentielle : le même modèle d'embedding doit être utilisé pour vectoriser les documents ET les requêtes utilisateurs.
VLLM: Framework open source Python optimisé pour l'inférence de LLM en production à haute performance. VLLM implémente des techniques avancées comme le PagedAttention (gestion efficace du KV cache), le batching continu et la parallélisation multi-GPU, permettant de multiplier par 10 à 20 le débit d'inférence par rapport à des implémentations naïves. C'est la référence pour les déploiements on-premise à grande échelle nécessitant de servir de nombreux utilisateurs simultanément.
Vision IA (Computer vision): Domaine de l'IA permettant aux systèmes d'analyser et de comprendre des images et des vidéos : détection d'objets, classification d'images, segmentation, OCR, analyse de visages, contrôle qualité visuel. Les modèles multimodaux comme GPT-4V ou LLaVA combinent vision et langage dans un même modèle. En entreprise, la vision IA s'applique au contrôle qualité industriel, à la lecture automatique de documents scannés, à la surveillance de sites et à l'analyse de contenus visuels.

W

Weaviate

Base de données vectorielle open source (développée aux Pays-Bas) combinant recherche vectorielle dense, hybrid search et capacités de knowledge graph. Weaviate est écrit en Go pour des performances élevées, supporte la multimodalité (texte, images) et propose une intégration native avec les principaux modèles d'embedding. Son architecture modulaire permet de connecter directement des modèles de vectorisation et des LLM. Disponible en open source auto-hébergé ou en cloud managé (Weaviate Cloud).

Weight (Poids)

Paramètres numériques d'un réseau de neurones, appris lors de l'entraînement, qui encodent les connaissances et les capacités du modèle. Un LLM de 7 milliards de paramètres possède 7 milliards de poids. La qualité et la diversité des données d'entraînement, ainsi que l'architecture du réseau, déterminent ce que les poids encodent. Le fine-tuning modifie certains poids pour adapter le modèle ; la quantization réduit la précision numérique des poids pour diminuer l'empreinte mémoire.

Whisper

Modèle de reconnaissance automatique de la parole (ASR — Automatic Speech Recognition) open source développé par OpenAI, capable de transcrire et de traduire l'audio dans plus de 99 langues avec une précision remarquable, y compris le français. Whisper est disponible en plusieurs tailles (tiny, base, small, medium, large) permettant de choisir le compromis vitesse/précision. Pour les entreprises, Whisper permet la transcription souveraine de réunions, de dictées ou de messages vocaux sans envoyer les données vers des services externes.

Exemple : Déployé localement avec Ollama ou faster-whisper, Whisper transcrit automatiquement les réunions Teams enregistrées pour les intégrer dans un système RAG interne.

Workflow IA

Séquence d'étapes automatisées intégrant des modèles IA, des outils et des processus métier pour accomplir une tâche complexe. Un workflow IA peut combiner la transcription audio (Whisper), la recherche documentaire (RAG), la génération de réponse (LLM) et l'envoi d'une notification (API). Des outils comme n8n, Zapier AI, LangChain ou CrewAI permettent de concevoir et d'orchestrer ces workflows. La gouvernance des workflows IA (traçabilité, audit, gestion des erreurs) est un enjeu MLOps clé.

Z

Zero-shot learning

Capacité d'un LLM à réaliser une tâche sans qu'aucun exemple de cette tâche ne soit fourni dans le prompt : le modèle s'appuie uniquement sur ses connaissances acquises lors de l'entraînement et sur les instructions générales données. Le zero-shot est la modalité la plus simple d'utilisation d'un LLM mais la moins précise pour des tâches très spécifiques. Il est souvent le point de départ d'une évaluation : si le zero-shot est insuffisant, on passe au few-shot, puis éventuellement au fine-tuning.

Exemple : Demander à un LLM « Classe cet email en : urgent / non urgent / spam » sans fournir d'exemples — c'est du zero-shot.

Zero-trust IA

Application du principe de sécurité « Zero Trust » (ne jamais faire confiance, toujours vérifier) aux systèmes d'intelligence artificielle. En pratique, cela signifie ne pas accorder de confiance implicite aux sorties d'un agent IA : chaque action critique doit être validée, les accès aux outils sont limités au strict nécessaire (principe de moindre privilège), et toutes les interactions sont tracées et auditées. Le zero-trust IA est une approche de sécurité recommandée par les RSSI pour encadrer les déploiements d'agents autonomes.

Récapitulatif : les acronymes clés à retenir

LLM — Large Language Model : le modèle de langage de grande taille
RAG — Retrieval-Augmented Generation : combiner recherche et génération
MCP — Model Context Protocol : le standard de connexion des agents aux outils
EU AI Act — Le cadre réglementaire européen sur l'IA
RGPD / NIS2 / DORA — Les trois grands textes de conformité numérique européens
SecNumCloud / HDS — Les certifications françaises de confiance pour l'hébergement sensible

Ce glossaire est mis à jour régulièrement. Vous avez identifié un terme manquant ou une définition à affiner ? Contactez notre équipe.

Intelligence Privée

Expert en IA souveraine pour entreprises françaises. LLM hébergés en France, conformité RGPD/NIS2/EU AI Act, fine-tuning sur données métier.

intelligence-privee.com

Recevoir ce guide en PDF

Téléchargez « Glossaire IA Entreprise 2026 : 120 termes définis pour DSI, … » + la checklist pratique associée, directement dans votre boîte mail.

Glossaire IA Entreprise 2026 : 120 termes définis pour DSI, RSSI et DPO

Ce glossaire en bref

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q

R

S

T

U

V

W

Z

Récapitulatif : les acronymes clés à retenir

Intelligence Privée

Recevoir ce guide en PDF

Continuer la lecture