Performances

Des chiffres, pas des promesses.

On ne vous demande pas de nous croire sur parole. Voici ce qui est mesuré, reproductible et vérifiable — et ce qu'on ne prétend pas.

01  Retrouver l'info

On retrouve la bonne réponse. Voici à quelle fréquence.

Retrouver la bonne info dans un vrai corpus n'est jamais parfait. Voici où on en est, sur des jeux de questions internes volontairement variés et durs.

73 %
La bonne réponse dans le top-3

Sur 15 questions de fond, la bonne réponse est dans les trois premières 3 fois sur 4. Carrément en tête (1ʳᵉ position) : 67 %.

precision@3 · dogfooding-eval (15 q)
~1,4
Rang moyen de la bonne réponse

En moyenne, la bonne réponse arrive en position 1 à 2 — quasiment toujours sous vos yeux, sans avoir à fouiller.

MRR 0,73 · dogfooding-eval
75 %
Questions à plusieurs sauts

Même quand la réponse demande de relier deux ou trois éléments, 3 réponses sur 4 sont exactes au top-3.

recherche hybride · corpus multi-hop réaliste

02  Contradictions

On signale ce qui se contredit — et on dit où ça s'arrête.

Exacte là où c'est structuré, honnêtement approximative sur le texte libre, et volontairement absente sur ce qui demanderait de deviner.

Exacte
Décisions (explicite)

Deux décisions opposées sur le même sujet : repérées par comparaison structurelle. Aucune vraie ratée — exact par construction.

recall 1.0 · contradiction-eval
1 sur 2
Documents (radar)

Sur la prose, une alerte sur deux est une vraie contradiction. Un radar à trier, pas un juge — du bruit à écarter, mais aucune vraie manquée.

precision 0,5 / recall 1.0 · contradiction-eval
Hors scope
Implicite (raisonnement)

Celles qui exigeraient de raisonner (« neutre en carbone » vs « flotte diesel ») : Noezis ne les déduit pas. Choix assumé — il ne spécule pas, donc zéro fausse alerte.

par choix · voir Documentation

03  Par construction

Et ça, c'est 100 % — par construction, pas par chance.

Quelques propriétés ne dépendent d'aucun échantillon : elles découlent du fonctionnement, pas d'une mesure.

100 %
Reproductible

Même question, même réponse — la recherche est calculée, pas devinée. Aucun aléa, testable et auditable.

déterministe · zéro LLM en recherche
0
Token de modèle par recherche

Chercher ne consomme aucun appel à un modèle facturé. Coût et latence prévisibles, aucune dépendance réseau.

par construction
~35 ms
Par recherche, en local

Quasi instantané. Pas d'aller-retour réseau, pas d'attente de modèle.

mesuré · recherche « à chaud »

Méthodo — reproductible, limites incluses

Chaque chiffre vient d'un script d'évaluation rejouable (scripts/*-eval.py), sur des jeux de test datés. Les évals de pertinence tournent sur nos corpus internes (petits échantillons, volontairement durs) — des ordres de grandeur, pas des garanties marketing. Les propriétés « par construction » (déterminisme, zéro LLM, comparaison exacte) ne dépendent, elles, d'aucun échantillon. On publie ce qu'on ne sait pas faire en même temps que le reste.