Architecture IA fiable : Patterns et Anti-patterns

L’architecture de référence en 5 couches qui transforme l’IA d’une “boîte noire” imprévisible en un système auditable et production-ready, avec les patterns et anti-patterns qui font la différence entre succès et échec.

Série “De l’Idée au Code : IA Fiable” Partie 1 : Pourquoi le ‘Prompt-to-UI’ ne scale pas Partie 2 : La Représentation Intermédiaire (IR) Partie 3 : Stack TypeScript : Zod & Vercel AI SDK Partie 4 : Validation multi-niveaux Partie 5 : Génération de code déterministe

Assembler la pipeline

Au fil des trois articles précédents, nous avons établi un constat : le “prompt-direct” ne scale pas (Article 1). La solution est un pattern architectural, la Représentation Intermédiaire (IR) (Article 2). Ce pattern est rendu possible par des stacks techniques modernes comme Pydantic/Instructor ou Zod/Vercel AI SDK (Article 3).

Maintenant, comment assembler ces briques dans une architecture de production robuste, sécurisée et évolutive ?

Voici le modèle en 5 couches que j’utilise comme référence. Il transforme l’IA d’une “boîte noire” imprévisible en un composant système auditable.

L’architecture de référence en 5 couches

Couche 1 : Le Schéma Métier (Le Contrat)

C’est la fondation. On ne commence jamais par le prompt. On commence par la donnée.

Rôle : Définir le contrat formel de ce que l’IA doit manipuler.
Outils : Zod (TypeScript) pour la validation type-safe avec schémas structurés.
Point clé : Ce n’est pas juste un schéma de types. C’est là qu’on intègre la validation métier :
- Exemple : une date de fin doit être postérieure à la date de début
- Exemple : un montant de commande doit être > 0
- Exemple : une couleur doit respecter le format hex #RRGGBB

Le schéma Zod définit l’IR de type SPEC (Structured, Parameterized, Hierarchical) qui servira de blueprint.

Couche 2 : Génération de l’IR (La Traduction)

C’est la seule couche où le LLM opère.

Rôle : Traduire l’intention de l’utilisateur (prompt, image, etc.) en un blueprint structuré (l’IR de type SPEC), en respectant le contrat de la Couche 1.
Outils : LLMs (GPT-4, Claude 3.5 Sonnet) orchestrés par Vercel AI SDK avec generateObject ou streamObject.
Point clé : Le Constrained Decoding force le LLM à générer une IR syntaxiquement parfaite. On passe de ~35,9% de fiabilité (prompt classique) à 100% de conformité garantie.

Couche 3 : Validation Multi-Niveaux (Le Contrôle Qualité)

Avant d’exécuter quoi que ce soit, l’IR passe par un portail de qualité.

Rôle : Garantir que le “plan” généré par l’IA est non seulement valide, mais aussi pertinent et sûr.
Niveaux de validation :
1. Syntaxique : L’IR est-elle un JSON conforme au schéma Zod ?
  - Géré automatiquement par Vercel AI SDK + Constrained Decoding
  - Garantie de conformité : 100%
2. Métier : L’IR respecte-t-elle les règles définies dans Zod ?
  - Exemples : dates cohérentes, couleurs valides, contraintes numériques
  - Implémenté via les validateurs Zod (.regex(), .min(), .max(), .refine())
  - Retries automatiques si échec
3. Sémantique (Optionnel) : Pour les cas critiques, on peut utiliser un “comité LLM”
  - Un second LLM (plus simple, moins coûteux) agit comme reviewer
  - Mécanisme basé sur la réflexion : “Ce plan respecte-t-il l’intention utilisateur ?”
  - Questions posées : “Les choix de composants sont-ils cohérents ?”, “Y a-t-il des contradictions logiques ?”
  - Utilisé par SpecifyUI pour valider la cohérence des designs complexes

Cette validation multi-niveaux est au cœur de l’architecture SPEC de SpecifyUI.

Couche 4 : Génération du Code Final (L’Exécution)

C’est la couche la plus importante pour la fiabilité.

Rôle : Transformer l’IR (maintenant validée) en artefact exécutable (Code UI, config, etc.).
Outils : Moteurs de templates (Jinja2, Handlebars) ou des scripts déterministes.
Point clé (Anti-Pattern) : Ne PAS utiliser un LLM ici. Cette étape doit être 100% déterministe. On sépare la créativité stochastique (Couche 2) de la génération d’artefacts, qui doit être prévisible et auditable.

Couche 5 : Evaluation Flywheel (La Boucle Vertueuse)

Une fois en production, le travail commence. Cette couche établit un cycle vertueux d’amélioration continue.

Rôle : Établir une boucle d’évaluation continue (evaluation flywheel) qui transforme les données de production en améliorations du système.
Méthode - Le cycle vertueux :
1. Tests pré-déploiement : Validation de régression sur des cas de test
2. Monitoring de production : Détection des dérives et échecs de validation (Couche 3)
3. Collecte de feedback : Corrections utilisateurs, patterns d’usage
4. Amélioration post-déploiement : Affiner les prompts (Couche 2) et les schémas Zod (Couche 1)
5. Itération : Les améliorations alimentent les prochains déploiements
Point clé : Les données de production ne sont pas un point final, mais le carburant du développement. Ce n’est pas du monitoring passif, c’est une boucle d’apprentissage active.

Patterns & Anti-Patterns : Le résumé de terrain

Pour finir, voici ce qui distingue une intégration IA réussie d’un projet qui part dans le mur.

Patterns Recommandés	Anti-Patterns à Éviter
Séparer le blueprint (IR de type SPEC) de l’implémentation (code final).	Générer directement le code final à partir d’un prompt.
Valider l’IR à plusieurs niveaux AVANT la génération de code.	Valider uniquement le résultat final (trop tard).
Intégrer la logique métier dans les schémas Zod.	Mettre la logique métier et les contraintes dans le prompt.
Utiliser des générateurs déterministes (templates) pour le code final.	Utiliser un LLM pour générer le code final (non déterministe).
*Utiliser Vercel AI SDK pour éviter le vendor lock-in.*	Développer une solution fortement couplée à une seule API de LLM.
Établir une boucle de feedback (evaluation flywheel) pour affiner les schémas.	Considérer le déploiement comme une étape finale (zéro monitoring).
Utiliser les chiffres : viser 100% de conformité avec structured outputs.	Accepter ~35,9% de fiabilité avec du prompt engineering classique.

Conclusion de la série

L’IA générative n’est pas magique. C’est une nouvelle brique d’ingénierie logicielle.

En tant qu’architectes, notre travail n’est pas de faire des démos, mais de construire des systèmes fiables. L’approche “prompt-direct” est une impasse pour la production.

L’adoption de la Représentation Intermédiaire (IR) de type SPEC (Structured, Parameterized, Hierarchical), soutenue par une architecture en couches et des outils de validation (Zod + Vercel AI SDK), est le seul pattern que j’ai trouvé qui soit maintenable, scalable et déterministe.

Les chiffres le prouvent : on passe de ~35,9% de fiabilité (prompt engineering classique) à 100% de conformité garantie avec les structured outputs.

Les systèmes le prouvent : SpecifyUI démontre que cette architecture fonctionne en production, avec des résultats mesurés (contrôle créatif supérieur, designs plus cohérents, itérations 10x plus rapides).

Ce n’est pas juste une technique, c’est le fondement sur lequel on peut construire la prochaine génération d’applications métiers intelligentes et fiables.

Lire la série : ⬅️ Partie 3 : Stack TypeScript (Zod & Vercel AI SDK) | Partie 5 : Génération de code déterministe ️