Ce projet nécessite d'avoir assimilé l'ensemble des notions des deux premiers modules du cours de science des données biologiques 3. Il correspond au dépôt GitHub https://github.com/BioDataScience-Course/C02Ia_zoo.
Ce projet est individuel et cadré. Vous devez :
- Optimiser les attributs utilisés pour la classification d'un jeu de données
- Entraîner et optimiser trois classifieurs différents
- Comparer les classifieurs et choisir le meilleur d'entre eux
Dans le carnet de notes zooplankton_notebook.qmd
, vous allez créer le classifieur le plus performant pour classer du zooplancton sur base d'attributs obtenus par analyse d'image. Vous ne séparerez pas le jeu de données initial en set d'apprentissage et de test, mais vous utiliserez la validation croisée dix fois que vous venez d'apprendre dans le module 2 du cours pour évaluer les performances de vos classifieurs que vous entraînerez par ailleurs sur l'ensemble des données (réduites de celles qui contiennent éventuellement des valeurs manquantes).
Trois étapes sont importantes ici :
-
la sélection des attributs et le calcul éventuel de nouveaux attributs dérivés par "feature engineering"
-
l'entraînement de trois classifieurs avec les méthodes k plus proches voisins, partitionnement récursif et forêt aléatoire, ainsi que l'optimisation de chacun d'eux
-
le choix du meilleur classifieur pour classer automatiquement un échantillon de plancton et la justification de votre choix dans les conclusions (y compris la ou les métriques que vous avez utilisées et pourquoi)
Ces données ont été employées dans le cadre de la publication suivante :
L'article suivant détaille des explications sur l'identification d'organismes planctoniques grâce au ZOOSCAN :
Un guide pratique d'identification en français est à également à votre disposition : Guide d'identification des organismes mésozooplanctoniques de la Mer Ligurienne