Skip to content

[Enhancement] Evaluate code-aware embedding models (bge-m3, jina-v3) #14

@ngmks

Description

@ngmks

🏷️ Priorité : BASSE | Type : Enhancement / Research

Contexte

Le fork utilise facebook/contriever comme modèle d'embedding par défaut (hérité de LEANN upstream). Contriever est entraîné sur Wikipedia/CC-News — pas optimisé pour du contenu conversationnel ni pour du code.

Pour des sessions Claude Code (mélange conversation + code + tool usage), un modèle code-aware serait significativement meilleur.

Modèles à évaluer

Modèle Dims Forces Source
BAAI/bge-m3 1024 Multilingue + code, bien benchmarké HuggingFace
jinaai/jina-embeddings-v3 1024 Code + conversation, très bon pour mixed content HuggingFace
nomic-embed-text-v2 768 Léger, rapide, bon rapport qualité/vitesse HuggingFace
Salesforce/SFR-Embedding-2_R 4096 SOTA code, mais lourd HuggingFace

Benchmark proposé

  1. Créer un jeu de test de 50 requêtes sur des sessions Claude Code réelles
  2. Indexer avec chaque modèle
  3. Mesurer : recall@5, recall@10, latence, RAM
  4. Comparer à Contriever comme baseline

Impact attendu

Amélioration de la pertinence des résultats de recherche sur les sessions Claude Code, surtout pour :

  • Requêtes mixtes code + texte
  • Recherche de patterns de code spécifiques
  • Recherche dans du contenu multilingue

Notes

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions