You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Je propose d'ajouter une documentation pédagogique détaillée au projet, incluant des diagrammes explicatifs pour visualiser l'architecture et les flux de données. Cela permettrait aux nouveaux contributeurs et utilisateurs de mieux comprendre le fonctionnement interne d'un LLM construit from scratch.
📝 Proposition
J'ai créé un exemple de documentation comprenant :
Des diagrammes Mermaid pour visualiser l'architecture et les flux de données
Des explications détaillées de chaque composant (DatasetLoader, Dataset, BPETokenizer)
Un guide des étapes du traitement des données
Une explication détaillée de l'algorithme BPE
Des axes d'amélioration structurés
🌟 Bénéfices
Cette documentation :
Rendrait le projet plus accessible aux débutants
Fournirait une ressource pédagogique précieuse pour comprendre les LLM
Faciliterait l'onboarding de nouveaux contributeurs
Améliorerait la visibilité et l'adoption du projet
💻 Exemple
Voici un extrait de ce que je propose d'ajouter :
graph TD
A[DatasetLoader] -->|Télécharge & nettoie| B[Dataset brut]
B -->|Prétraitement| C[Dataset]
C -->|Entrainement| D[BPETokenizer]
D -->|Tokenization| E[Séquences de tokens]
E -->|Préparation| F[Données d'entraînement]
F -->|Entraînement| G[Modèle GPT]
G -->|Inférence| H[Génération de texte]
Documentation pédagogique avec diagrammes
🔍 Description
Je propose d'ajouter une documentation pédagogique détaillée au projet, incluant des diagrammes explicatifs pour visualiser l'architecture et les flux de données. Cela permettrait aux nouveaux contributeurs et utilisateurs de mieux comprendre le fonctionnement interne d'un LLM construit from scratch.
📝 Proposition
J'ai créé un exemple de documentation comprenant :
🌟 Bénéfices
Cette documentation :
💻 Exemple
Voici un extrait de ce que je propose d'ajouter :
graph TD A[DatasetLoader] -->|Télécharge & nettoie| B[Dataset brut] B -->|Prétraitement| C[Dataset] C -->|Entrainement| D[BPETokenizer] D -->|Tokenization| E[Séquences de tokens] E -->|Préparation| F[Données d'entraînement] F -->|Entraînement| G[Modèle GPT] G -->|Inférence| H[Génération de texte]