[Enhancement] Evaluate code-aware embedding models (bge-m3, jina-v3)

## 🏷️ Priorité : BASSE | Type : Enhancement / Research

## Contexte

Le fork utilise `facebook/contriever` comme modèle d'embedding par défaut (hérité de LEANN upstream). Contriever est entraîné sur Wikipedia/CC-News — **pas optimisé pour du contenu conversationnel ni pour du code**.

Pour des sessions Claude Code (mélange conversation + code + tool usage), un modèle code-aware serait significativement meilleur.

## Modèles à évaluer

| Modèle | Dims | Forces | Source |
|--------|------|--------|--------|
| `BAAI/bge-m3` | 1024 | Multilingue + code, bien benchmarké | HuggingFace |
| `jinaai/jina-embeddings-v3` | 1024 | Code + conversation, très bon pour mixed content | HuggingFace |
| `nomic-embed-text-v2` | 768 | Léger, rapide, bon rapport qualité/vitesse | HuggingFace |
| `Salesforce/SFR-Embedding-2_R` | 4096 | SOTA code, mais lourd | HuggingFace |

## Benchmark proposé

1. Créer un jeu de test de 50 requêtes sur des sessions Claude Code réelles
2. Indexer avec chaque modèle
3. Mesurer : recall@5, recall@10, latence, RAM
4. Comparer à Contriever comme baseline

## Impact attendu

Amélioration de la pertinence des résultats de recherche sur les sessions Claude Code, surtout pour :
- Requêtes mixtes code + texte
- Recherche de patterns de code spécifiques
- Recherche dans du contenu multilingue

## Notes

- Le modèle est configurable via `--embedding-model`, donc pas de changement breaking
- Juste mettre à jour le défaut dans `claude_code_rag.py` ligne 49
- Voir issue #4 pour la validation de cohérence embedding model

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Enhancement] Evaluate code-aware embedding models (bge-m3, jina-v3) #14

🏷️ Priorité : BASSE | Type : Enhancement / Research

Contexte

Modèles à évaluer

Benchmark proposé

Impact attendu

Notes

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Modèle	Dims	Forces	Source
`BAAI/bge-m3`	1024	Multilingue + code, bien benchmarké	HuggingFace
`jinaai/jina-embeddings-v3`	1024	Code + conversation, très bon pour mixed content	HuggingFace
`nomic-embed-text-v2`	768	Léger, rapide, bon rapport qualité/vitesse	HuggingFace
`Salesforce/SFR-Embedding-2_R`	4096	SOTA code, mais lourd	HuggingFace

[Enhancement] Evaluate code-aware embedding models (bge-m3, jina-v3) #14

Description

🏷️ Priorité : BASSE | Type : Enhancement / Research

Contexte

Modèles à évaluer

Benchmark proposé

Impact attendu

Notes

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions