LLM-AI French Language Model

Un modèle de langage en français basé sur GPT-2, entraîné sur des articles Wikipédia.

🌟 Caractéristiques

Modèle basé sur GPT-2 français (dbddv01/gpt2-french-small)
Fine-tuning sur des articles Wikipédia en français
Support des conversations et génération de texte
Tokenizer optimisé pour le français
Gestion automatique des données d'entraînement

🚀 Installation

# Cloner le projet
git clone https://github.com/votre-username/LLM-AI.git
cd LLM-AI

# Créer un environnement virtuel
python -m venv .venv
source .venv/bin/activate  # Linux/Mac
# ou
.venv\Scripts\activate  # Windows

# Installer les dépendances
pip install transformers torch datasets wikipediaapi tqdm accelerate

📁 Structure du Projet

LLM-AI/
├── wiki-scrap.py        # Extraction des données Wikipedia
├── tokenizer.py         # Configuration du tokenizer
├── modele_base.py       # Définition du modèle
├── train.py            # Script d'entraînement
├── test.py             # Script de test
└── trained_llm/        # Dossier du modèle entraîné

🔧 Utilisation

Extraction des données :

python wiki-scrap.py

Préparation des tokens :

python tokenizer.py

Entraînement du modèle :

python train.py

Test du modèle :

python test.py

📊 Exemple d'utilisation

from transformers import AutoTokenizer, AutoModelForCausalLM

# Charger le modèle et le tokenizer
tokenizer = AutoTokenizer.from_pretrained("trained_llm")
model = AutoModelForCausalLM.from_pretrained("trained_llm")

# Générer du texte
prompt = "Quelle est la capitale de la France ?"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
response = tokenizer.decode(outputs[0])
print(response)

🎯 Paramètres d'entraînement

Taille du modèle : 124M paramètres
Epochs : 10
Batch size : 4
Learning rate : 5e-5
Warmup steps : 500
Beam search : 5 beams

📝 Notes

Le modèle utilise GPT-2 comme architecture de base
Les données d'entraînement sont extraites de Wikipédia
Le tokenizer est optimisé pour le français
Le modèle supporte les tokens spéciaux (BOS, EOS, PAD)

📚 Données

Les catégories d'articles Wikipédia utilisées :

Base : Histoire, géographie et culture française
Tech : IA, apprentissage automatique, deep learning

🤝 Contribution

Les contributions sont les bienvenues ! N'hésitez pas à :

Fork le projet
Créer une branche (git checkout -b feature/amelioration)
Commit vos changements (git commit -m 'Ajout d'une fonctionnalité')
Push sur la branche (git push origin feature/amelioration)
Ouvrir une Pull Request

📄 Licence

Ce projet est sous licence MIT. Voir le fichier LICENSE pour plus de détails.

⚠️ Limitations

Le modèle est entraîné sur un nombre limité d'articles
Les performances peuvent varier selon la complexité des requêtes
L'utilisation de CPU peut ralentir significativement l'inférence

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLM-AI French Language Model

🌟 Caractéristiques

🚀 Installation

📁 Structure du Projet

🔧 Utilisation

📊 Exemple d'utilisation

🎯 Paramètres d'entraînement

📝 Notes

📚 Données

🤝 Contribution

📄 Licence

⚠️ Limitations

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
.gitignore		.gitignore
LICENSE		LICENSE
modele_base.py		modele_base.py
readme.md		readme.md
requirements.txt		requirements.txt
test.py		test.py
tokenizer.py		tokenizer.py
train.py		train.py
wiki-scrap.py		wiki-scrap.py

License

shadowforce78/LLM-AI

Folders and files

Latest commit

History

Repository files navigation

LLM-AI French Language Model

🌟 Caractéristiques

🚀 Installation

📁 Structure du Projet

🔧 Utilisation

📊 Exemple d'utilisation

🎯 Paramètres d'entraînement

📝 Notes

📚 Données

🤝 Contribution

📄 Licence

⚠️ Limitations

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages