Un modèle de langage en français basé sur GPT-2, entraîné sur des articles Wikipédia.
- Modèle basé sur GPT-2 français (dbddv01/gpt2-french-small)
- Fine-tuning sur des articles Wikipédia en français
- Support des conversations et génération de texte
- Tokenizer optimisé pour le français
- Gestion automatique des données d'entraînement
# Cloner le projet
git clone https://github.com/votre-username/LLM-AI.git
cd LLM-AI
# Créer un environnement virtuel
python -m venv .venv
source .venv/bin/activate # Linux/Mac
# ou
.venv\Scripts\activate # Windows
# Installer les dépendances
pip install transformers torch datasets wikipediaapi tqdm accelerate
LLM-AI/
├── wiki-scrap.py # Extraction des données Wikipedia
├── tokenizer.py # Configuration du tokenizer
├── modele_base.py # Définition du modèle
├── train.py # Script d'entraînement
├── test.py # Script de test
└── trained_llm/ # Dossier du modèle entraîné
- Extraction des données :
python wiki-scrap.py
- Préparation des tokens :
python tokenizer.py
- Entraînement du modèle :
python train.py
- Test du modèle :
python test.py
from transformers import AutoTokenizer, AutoModelForCausalLM
# Charger le modèle et le tokenizer
tokenizer = AutoTokenizer.from_pretrained("trained_llm")
model = AutoModelForCausalLM.from_pretrained("trained_llm")
# Générer du texte
prompt = "Quelle est la capitale de la France ?"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
response = tokenizer.decode(outputs[0])
print(response)
- Taille du modèle : 124M paramètres
- Epochs : 10
- Batch size : 4
- Learning rate : 5e-5
- Warmup steps : 500
- Beam search : 5 beams
- Le modèle utilise GPT-2 comme architecture de base
- Les données d'entraînement sont extraites de Wikipédia
- Le tokenizer est optimisé pour le français
- Le modèle supporte les tokens spéciaux (BOS, EOS, PAD)
Les catégories d'articles Wikipédia utilisées :
- Base : Histoire, géographie et culture française
- Tech : IA, apprentissage automatique, deep learning
Les contributions sont les bienvenues ! N'hésitez pas à :
- Fork le projet
- Créer une branche (
git checkout -b feature/amelioration
) - Commit vos changements (
git commit -m 'Ajout d'une fonctionnalité'
) - Push sur la branche (
git push origin feature/amelioration
) - Ouvrir une Pull Request
Ce projet est sous licence MIT. Voir le fichier LICENSE
pour plus de détails.
- Le modèle est entraîné sur un nombre limité d'articles
- Les performances peuvent varier selon la complexité des requêtes
- L'utilisation de CPU peut ralentir significativement l'inférence