Comment construire un système de mémoire persistante et auto-gérée pour les assistants IA de codage, avec Meilisearch et des hooks de session.

Comment donner à l'IA une mémoire auto-actualisée comme celle des humains — permanente et sans maintenance

1. Le problème : chaque conversation repart de zéro

Les grands modèles de langage (LLM) ont un défaut fondamental : ils n'ont aucune mémoire persistante.

À chaque nouvelle session, le modèle ne sait rien de votre projet. Il ne se souvient pas comment il a résolu un bug complexe la dernière fois, quelles API présentent des pièges à éviter, ni vos préférences et conventions.

Pire encore, les LLM sont intrinsèquement stochastiques — face au même problème, ils peuvent emprunter des chemins de raisonnement totalement différents à chaque fois. Une méthode qui a fonctionné lors de la dernière session pourrait ne jamais être reproduite dans la suivante. Le modèle risque de refaire exactement les mêmes erreurs.

Au fil du développement, les connaissances s'accumulent rapidement : des dizaines de configurations de compétences automatisées, des centaines d'expériences opérationnelles, des routes API, des configurations d'infrastructure, des scripts éparpillés et des sous-projets. Volume massif, aucun format unifié, multilingue, multidisciplinaire, et ça grossit à chaque nouvelle session.

Le vrai goulot d'étranglement n'est pas que l'IA « ne sait pas faire » — c'est qu'elle ne sait pas quel fragment de connaissance existant utiliser. Face à plus de 200 fragments d'information éparpillés, elle ne peut pas identifier celui dont elle a besoin maintenant.

La question n'est donc pas « comment écrire de la documentation », mais : comment permettre à l'IA de trouver la bonne information parmi des milliers de fragments non structurés, sans intervention humaine, tout en gérant automatiquement le cycle de vie complet de ces connaissances ?

2. La solution : laisser l'IA gérer sa propre mémoire

La curation manuelle n'est pas viable. Les documents sont écrits mais jamais mis à jour. Les catégories sont créées mais jamais maintenues. La seule approche viable : laisser le système d'IA gérer lui-même le cycle de vie de ses connaissances — collecte, recherche, mise à jour et retrait.

Ce système repose sur trois capacités fondamentales :

Capacité 1 : Collecte automatique — tout scanner, sans classification manuelle

Un indexeur léger s'exécute automatiquement au démarrage de chaque session de codage IA. Il scanne toutes les ressources du projet : compétences d'automatisation, fichiers mémoire, services d'outils, configurations d'infrastructure, routes API, modules métier, scripts et sous-projets.

Chaque entrée extrait automatiquement : nom, description, mots-clés (multilingues), chemin du fichier source et horodatage de dernière modification.

Le point clé : l'utilisateur n'a rien à organiser. L'indexeur extrait les métadonnées à partir des en-têtes de fichiers, des noms de fichiers et de la structure du code. Vous écrivez — le système indexe. Pas d'étape de classification, pas de fardeau d'étiquetage.

Capacité 2 : Recherche intelligente — de l'intention floue à la correspondance précise

Le moteur de recherche fonctionne sur deux niveaux complémentaires :

Niveau 1 : Moteur de recherche plein texte (milliseconde)

Basé sur Meilisearch :
- Tolérance aux fautes de frappe : les erreurs de saisie trouvent quand même une correspondance
- Multilingue : requêtes transparentes en chinois, anglais et français
- Classement temporel : les connaissances récentes apparaissent avant les anciennes
- Pondération des champs : titre > description > mots-clés > résumé

Niveau 2 : Un petit modèle comme pont sémantique

Quand il y a un fossé sémantique entre la description de l'utilisateur et le nommage des connaissances, un modèle de langage léger (ex. Mistral Small) réécrit la requête — transformant l'intention en langage naturel en mots-clés de recherche.

Par exemple, l'utilisateur dit « imprimer un bon de livraison » — le petit modèle l'étend en « bon livraison shipping label Colissimo expédition ». L'utilisateur n'a pas besoin de connaître le nom exact des connaissances — le petit modèle fait le pont entre l'intention et les mots-clés.

Combinaison : les requêtes simples aboutissent en 1 ms ; les requêtes floues complètent la réécriture sémantique + recherche en moins de 2 secondes. Coût quasi nul.

Capacité 3 : Auto-maintenance — déduplication, obsolescence, mises à jour

C'est la partie la plus critique — les connaissances ne sont pas figées après écriture. Elles ont un cycle de vie.

Décroissance temporelle : chaque entrée porte un horodatage de modification. À la recherche, l'ancienneté est calculée automatiquement. Les entrées dépassant un seuil sont marquées « potentiellement obsolètes » — toujours retournées, mais avec un avertissement incitant l'IA à vérifier avant d'utiliser.
Déduplication sémantique : quand une connaissance sur le même sujet est mise à jour, la nouvelle version écrase directement l'ancienne — même nom de fichier, contenu différent. Git conserve l'historique ; l'index actif ne contient que la version la plus récente.
Retrait automatique : les connaissances de type « état du projet » expirent naturellement. L'IA vérifie et nettoie les mémoires expirées en fin de session, empêchant le gonflement de l'index.
Reconstruction complète : à chaque démarrage de session, l'indexeur ne fait pas de mise à jour incrémentale — il rescanne tout et repousse tout. Supprimer un fichier → disparu de l'index. Modifier un fichier → index mis à jour. Ajouter un fichier → automatiquement indexé.

Écrire → Indexer → Rechercher → Utiliser → Découvrir de nouvelles connaissances → Écrire. Boucle fermée complète. Zéro maintenance humaine.

3. Implémentation technique

Le système entier ne nécessite que trois composants :

Composant 1 : Hook de démarrage de session

Les outils de codage IA (ex. Claude Code) permettent d'exécuter des commandes shell au démarrage de session. En exploitant ce mécanisme, chaque nouvelle session déclenche automatiquement une reconstruction de l'index :

SessionStart Hook → python3 indexer.py --rebuild

Terminé en moins de 3 secondes : scan des fichiers → extraction des métadonnées → synchronisation complète avec le moteur de recherche. L'utilisateur ne remarque rien.

Composant 2 : Directive de recherche obligatoire

Une règle impérative dans les instructions système de l'IA :

« Pour toute demande incertaine, tu DOIS d'abord chercher dans la base de connaissances. Ne jamais deviner à partir des connaissances d'entraînement. »

Cela garantit que l'IA consulte sa mémoire avant d'agir. Pas une suggestion — une obligation. Sans cette règle, l'IA tend à répondre directement depuis ses données d'entraînement, en sautant la recherche.

Composant 3 : Boucle de rétro-écriture mémoire

Pendant les conversations, l'IA identifie automatiquement les informations à retenir — expériences opérationnelles, préférences utilisateur, états de projet, erreurs à éviter — et les écrit dans des fichiers Markdown structurés avec en-têtes YAML. Au prochain démarrage de session, l'indexeur les intègre automatiquement.

Cela forme une boucle complète : connaissances générées pendant l'utilisation → écriture automatique → indexation automatique → recherche automatique la prochaine fois.

4. Résultats

Métrique	Sans mémoire	Avec mémoire
Temps sur tâches répétées	Tâtonnement à chaque fois	Mémoire retrouvée, chemin vérifié suivi
Transfert inter-sessions	Inexistant	Auto-persisté + auto-recherché
Migration inter-modèles	Connaissances perdues	Connaissances dans les fichiers, pas dans le modèle
Effort de maintenance	Organisation manuelle	Zéro
Reconstruction d'index	—	< 3 secondes
Latence de recherche	—	1 ms (plein texte) / 2 s (sémantique)

Changement qualitatif : sans mémoire, l'IA est un outil qui recommence à chaque fois — intelligent mais amnésique. Avec mémoire, l'IA devient un collaborateur qui accumule de l'expérience — sachant ce qui a marché, quelles méthodes sont validées, quels pièges éviter.

5. L'idée fondamentale

La stochasticité des LLM est un atout en création, mais un désastre en exécution d'opérations connues.

La solution n'est pas de rendre les modèles plus déterministes (cela sacrifierait la créativité), mais d'injecter la bonne connaissance au bon moment — utiliser le déterminisme du moteur de recherche pour compenser l'aléatoire du modèle génératif.

Cela diffère du RAG traditionnel (Retrieval-Augmented Generation). L'approche RAG consiste à « donner plus de contexte au modèle pour répondre aux questions ». Ce système gère le cycle de vie complet des connaissances — pas seulement la recherche, mais aussi la collecte, l'indexation, la validation, la mise à jour et le retrait.

La mémoire humaine fonctionne exactement ainsi : les choses importantes se renforcent par le rappel répété ; les choses obsolètes s'estompent naturellement ; les nouvelles expériences écrasent continuellement les anciennes cognitions. Ce système reproduit exactement ce mécanisme pour l'IA.

Quand l'IA possède une mémoire auto-gérée, elle n'est plus un appel de fonction sans état — elle devient un collègue expérimenté.

Stack technique : Meilisearch (auto-hébergé, gratuit) + Modèle léger (réécriture sémantique) + Indexeur Python + Session Hook

Format mémoire : Markdown + frontmatter YAML

Stratégie d'indexation : reconstruction complète, < 3 s, déclenchée automatiquement par session

Compatible avec : Claude Code, Cursor, ou tout outil de codage IA supportant les hooks

Comment donner à l'IA une mémoire auto-actualisée comme celle des humains