Dans le cadre de notre projet Big data du master SIAD, nous participons à la compétition Kaggle Tweet Disaster. Notre objectif est de définir si un tweet concerne réellement un événement ou non. Pour ce faire, nous avons utilisé les méthodes lié au domaine du NLP (Natural Language Process). Pour retraiter les tweet (lématisations ...). Puis la création de variable avec les mots les plus utilisés. Nous avons aussi utilisé des package comme Geotext qui utilise des modèles de machine learning pour définir si le lieux est une ville, pays ... Ces packages nous permettront ainsi d'enrichir notre jeu de donnée.
Notre projet est compsé de 4 membres :
Le projet est encadré par deux enseignant chercheur de l'université de Lille :
-
Maxime MORGE, CRIStAL/ULille
-
Virginie Deslart, Clerse/ULille
Pour utiliser ce projet, vous devez avoir Python 3 installé sur votre ordinateur. Vous pouvez télécharger Python 3 à partir du site web officiel de Python.
Clonez ce dépôt de code à l'aide de la commande git clone https://github.com/Francois-lenne/Big-data-SIAD.git dans votre terminal.
git clone https://github.com/Francois-lenne/Big-data-SIAD.git
Allez dans le répertoire (le chemin peut varier selon vos répertoires) du projet à l'aide de la commande :
cd ~/GitHub/Big-data-SIAD/api
Installez les dépendances python en utilisant la commande :
pip install -r requirements.txt
Une fois que vous avez installé les dépendances, vous pouvez utiliser ce projet Python en suivant les instructions suivantes :
Ouvrez votre terminal et accédez au répertoire du projet (le chemin peut varier selon vos répertoires).
cd ~/GitHub/Big-data-SIAD/api
Lancez l'entraînement du modèle avec la commande :
python prepare.py
Exécutez la commande suivante :
uvicorn --reload main:app
L'application est lancé, vous pouvez ouvrir dans un navigateur web le fichier app.html et soumettre vos tweets.
- 👨💻 Développements du front-end du site web
- 🧑
✈️ Gestion de projet (trello, répartition des tâches) - 📑 Rédaction du rapport
- 📈 Modélisations
- 👨💻 Développements du back end du site web
- 📑 Rédaction du rapport
- 📈 Modélisations
- 🌐 Déploiements du site web
- 👷 Feature engineering
- 📑 Rédaction du rapport
- 📈 Modélisations
- 🌐 Déploiements du site web
- 👷 Feature engineering
- 📑 Rédaction du rapport
- 📈 Modélisations
- 🚧 Test de plusieurs modélisations
- Pandas {Version 1.5.3}
- Numpy {Version 1.24.2}
- re {Version 3.11.2 }
- spacy {Version 3.5}
- sympi {Version 1.7.1}
- geotext {Version 0.4.0}
- Sklearn {Version 1.2.2}
- FastAPI {Version 0.89.1}
- joblib {Version 1.2.0}
- nltk {Version 3.8.1}
- pydantic {Version 1.10.4}
- unvicorn {Version 0.21.1}
Ce projet est sous licence MIT. Consultez le fichier LICENSE.txt pour plus d'informations.