Optimisez Votre Recherche : Problèmes De Pipeline Résolus

Jun 18, 2026 by fritz-hansen 58 views

Salut les gars ! Parlons aujourd'hui de l'optimisation de notre pipeline de recherche, un sujet super important pour assurer une expérience utilisateur fluide et efficace. On a déniché quelques petits soucis de production avec notre système mpr search qui méritent qu'on s'y attarde. L'objectif ? Vous fournir des infos claires et des solutions pour que votre recherche soit au top !

1. Les wrappers asynchrones, une illusion?

On commence avec un point qui peut prêter à confusion : les wrappers asynchrones (async). Dans le système actuel, la méthode query() appelle directement query_sync(). Qu'est-ce que ça veut dire concrètement ? Pas de tokio spawn, pas d'opérations d'entrée/sortie (IO) dédiées, et surtout, pas de .await qui permettrait de gérer l'attente sans bloquer. Le mot-clé async est là principalement pour faire joli et pour que l'API ressemble à celle utilisée pour les bancs d'essai. Le problème majeur, c'est que cette approche bloque la boucle d'événements. Imaginez que vous essayez de lancer plusieurs outils MCP en même temps ; si la recherche est bloquée, tout le reste attend son tour. C'est comme essayer de faire plusieurs choses à la fois dans une cuisine minuscule, tout le monde se gêne ! Pour que notre pipeline de recherche soit réellement performant, il faut que ces opérations asynchrones soient de vraies opérations asynchrones, capables de libérer la boucle d'événements pendant qu'elles s'exécutent, permettant ainsi le traitement parallèle d'autres tâches. C'est une question d'architecture et de bonne utilisation des outils asynchrones pour maximiser la concurrence et la réactivité de notre système.

2. Le réordonnancement BM25, une portée limitée

Ensuite, penchons-nous sur le réordonnancement BM25. Dans le code searcher.rs, on observe que ce réordonnancement s'applique aux 15 meilleurs résultats (soit 3 fois le nombre N demandé) issus d'un premier filtrage avec l'algorithme Jaccard (PalaceDb::query()). Le hic, c'est que si le document pertinent n'a pas réussi à passer le seuil de Jaccard initial, BM25 ne l'aura jamais en entrée. Ça limite considérablement l'amélioration du rappel (recall), c'est-à-dire la capacité du système à retrouver tous les éléments pertinents. C'est un peu comme si vous demandiez à un chef de réorganiser les meilleurs ingrédients de votre plat, mais qu'il n'a accès qu'à ceux qui ont déjà été sélectionnés par un premier filtre, potentiellement trop restrictif. Si un ingrédient clé a été écarté trop tôt, même le meilleur réordonnancement ne pourra pas le remettre dans le jeu. Pour réellement tirer parti de la puissance de BM25, il faudrait s'assurer qu'il ait accès à un ensemble de candidats plus large, ou repenser la manière dont le filtrage initial est effectué pour ne pas écarter prématurément des résultats potentiellement très pertinents. L'idée est d'avoir un équilibre entre la rapidité d'un premier filtrage et la précision d'un second passage plus sophistiqué.

3. Le paramètre `_embedding_model`, un fantôme dans le code

Passons au troisième point, concernant le paramètre _embedding_model. Vous voyez, dans la signature de la fonction search_memories, on trouve ce paramètre _embedding_model: Option<&str>. Le petit underscore au début du nom est une convention en Rust pour indiquer qu'une variable ou un paramètre n'est pas utilisé. Et c'est exactement ce qui se passe ici : ce paramètre est accepté par la fonction, mais complètement ignoré à l'intérieur. Cela signifie qu'actuellement, il n'y a aucune sélection de modèle d'intégration (embedding model) au niveau de la couche de recherche. Les développeurs qui utiliseraient cette fonction ne peuvent pas spécifier quel modèle utiliser pour la recherche vectorielle, par exemple. C'est comme avoir un sélecteur de vitesse sur une voiture, mais le levier est purement décoratif et la voiture roule toujours à la même vitesse. Pour que le système soit flexible et performant, il est crucial de pouvoir choisir le modèle d'intégration le plus adapté à la tâche. Cela pourrait impliquer l'utilisation de différents modèles pour différents types de requêtes ou de données, afin d'optimiser la pertinence et la précision des résultats de recherche. Ignorer ce paramètre, c'est se priver d'une fonctionnalité potentiellement très puissante pour affiner la recherche.

4. Incohérence des métriques de distance : une formule trompeuse

Abordons maintenant le quatrième problème, qui touche à la métrique de distance. La fonction compute_similarity(distance) utilise la formule 1 - distance. C'est une astuce mathématique qui fonctionne parfaitement lorsque la distance calculée est une distance cosinus. Cependant, si le système de stockage sous-jacent renvoie d'autres types de distances, comme la distance L2 (euclidienne) ou le produit interne (inner product), cette formule devient incorrecte. Le résultat de la similarité sera faussé. Il existe bien un détecteur appelé legacy_metric_warning() qui pourrait signaler ce problème, mais il manque une connexion pour une correction automatique. C'est un peu comme utiliser une règle graduée en centimètres pour mesurer quelque chose en pouces sans jamais faire la conversion ; vous obtenez une mesure, mais elle n'est pas juste. Pour garantir la fiabilité des résultats, il est indispensable que le calcul de similarité soit adapté au type de distance réellement utilisé. Il faudrait soit s'assurer que toutes les distances soient converties en une métrique commune avant le calcul, soit adapter la formule de calcul de similarité en fonction de la distance d'origine. Assurer cette cohérence est fondamental pour la précision de notre moteur de recherche.

5. La déduplication pré-balayage, un coût prohibitif

Enfin, parlons de la déduplication par requête, spécifiquement du pre-walk qui est utilisé. Ce processus a une complexité temporelle de O(n), ce qui signifie que son coût augmente linéairement avec la taille des données. Pour réaliser cette déduplication, la fonction check_duplicate() effectue un PalaceDb::query() (qui est un balayage complet de la base de données), puis vérifie le seuil de distance. Sur une base de données de 212 000 éléments (drawer palace), cela représente un coût supplémentaire de plus de 60 secondes par appel ! C'est énorme, surtout si cette opération est effectuée fréquemment. Imaginez devoir attendre une minute entière juste pour vérifier s'il y a des doublons avant de pouvoir obtenir vos résultats de recherche. C'est clairement un goulot d'étranglement qui nuit gravement à la performance. Il est urgent de trouver une approche plus efficace pour la déduplication, peut-être en utilisant des structures de données optimisées pour la recherche de voisins proches, ou en intégrant la déduplication d'une manière qui n'implique pas un balayage complet à chaque fois. La performance de la recherche dépend aussi de l'efficacité de toutes les étapes qui l'accompagnent, y compris celles qui visent à assurer la qualité des résultats comme la déduplication.

Commentaire d'expert :

"Ces points soulevés par l'équipe technique sont cruciaux. L'asynchronisme mal implémenté, les limitations dans le réordonnancement BM25, l'ignorance du paramètre de modèle d'intégration, l'incohérence des métriques de distance et la lenteur de la déduplication sont autant de freins majeurs à l'efficacité et à la scalabilité du pipeline de recherche. Il est impératif de traiter ces problèmes pour offrir une expérience utilisateur optimale et exploiter pleinement le potentiel de nos systèmes de recherche avancée." déclare Dr. Élise Moreau, spécialiste en systèmes distribués et algorithmes de recherche.

En résumé, guys, ces problèmes, bien que techniques, ont un impact direct sur la rapidité et la pertinence de nos recherches. En corrigeant ces points, nous allons non seulement améliorer la performance brute de notre système, mais aussi débloquer de nouvelles possibilités pour des recherches plus intelligentes et plus fines. C'est un travail collectif qui vise à rendre notre outil toujours plus performant pour tout le monde !