Noezis — Performances

01 Retrouver l'info

On retrouve la bonne réponse. Voici à quelle fréquence.

Retrouver la bonne info dans un vrai corpus n'est jamais parfait. Voici où on en est, sur des jeux de questions internes volontairement variés et durs.

73 %

La bonne réponse dans le top-3

Sur 15 questions de fond, la bonne réponse est dans les trois premières 3 fois sur 4. Carrément en tête (1ʳᵉ position) : 67 %.

precision@3 · dogfooding-eval (15 q)

~1,4

Rang moyen de la bonne réponse

En moyenne, la bonne réponse arrive en position 1 à 2 — quasiment toujours sous vos yeux, sans avoir à fouiller.

MRR 0,73 · dogfooding-eval

75 %

Questions à plusieurs sauts

Même quand la réponse demande de relier deux ou trois éléments, 3 réponses sur 4 sont exactes au top-3.

recherche hybride · corpus multi-hop réaliste

Tester la recherche en 5 min →

02 Contradictions

On signale ce qui se contredit — et on dit où ça s'arrête.

Exacte là où c'est structuré, honnêtement approximative sur le texte libre, et volontairement absente sur ce qui demanderait de deviner.

Exacte

Décisions (explicite)

Deux décisions opposées sur le même sujet : repérées par comparaison structurelle. Aucune vraie ratée — exact par construction.

recall 1.0 · contradiction-eval

1 sur 2

Documents (radar)

Sur la prose, une alerte sur deux est une vraie contradiction. Un radar à trier, pas un juge — du bruit à écarter, mais aucune vraie manquée.

precision 0,5 / recall 1.0 · contradiction-eval

Hors scope

Implicite (raisonnement)

Celles qui exigeraient de raisonner (« neutre en carbone » vs « flotte diesel ») : Noezis ne les déduit pas. Choix assumé — il ne spécule pas, donc zéro fausse alerte.

par choix · voir Documentation

Comment marche la détection →

03 Par construction

Et ça, c'est 100 % — par construction, pas par chance.

Quelques propriétés ne dépendent d'aucun échantillon : elles découlent du fonctionnement, pas d'une mesure.

100 %

Reproductible

Même question, même réponse — la recherche est calculée, pas devinée. Aucun aléa, testable et auditable.

déterministe · zéro LLM en recherche

Token de modèle par recherche

Chercher ne consomme aucun appel à un modèle facturé. Coût et latence prévisibles, aucune dépendance réseau.

par construction

~35 ms

Par recherche, en local

Quasi instantané. Pas d'aller-retour réseau, pas d'attente de modèle.

mesuré · recherche « à chaud »

Pourquoi zéro modèle en recherche →

Méthodo — reproductible, limites incluses

Chaque chiffre vient d'un script d'évaluation rejouable (scripts/*-eval.py), sur des jeux de test datés. Les évals de pertinence tournent sur nos corpus internes (petits échantillons, volontairement durs) — des ordres de grandeur, pas des garanties marketing. Les propriétés « par construction » (déterminisme, zéro LLM, comparaison exacte) ne dépendent, elles, d'aucun échantillon. On publie ce qu'on ne sait pas faire en même temps que le reste.

Commencer en local Voir les tarifs