Correction in C00La_refresh learnr

phgrosjean · phgrosjean · commit e950214a86e4 · 2023-10-07T05:37:07.000+02:00
diff --git a/DESCRIPTION b/DESCRIPTION
@@ -1,5 +1,5 @@
 Package: BioDataScience3
-Version: 2023.1.0
+Version: 2023.1.1
 Title: A Series of Learnr Documents for Biological Data Science 3
 Description: Interactive documents using learnr for studying biological data science (second course).
 Authors@R: c(
diff --git a/NEWS.md b/NEWS.md
@@ -1,8 +1,12 @@
+# BioDataScience3 2023.1.1
+
+-   Correction in **C00La_refresh** relative to the interpretation of the ACP.
+
 # BioDataScience3 2023.1.0
 
 -   Revision of datasets and documentation of datasets.
 
--   Revision of **C00La_refresh** for academic year 2023-2024.
+-   Revision of **C00La_refresh**, **C01La_confusion** et **C01Lb_ml1** for academic year 2023-2024.
 
 # BioDataScience3 2023.0.0
 
diff --git a/inst/tutorials/C00La_refresh/C00La_refresh.Rmd b/inst/tutorials/C00La_refresh/C00La_refresh.Rmd
@@ -276,7 +276,7 @@ chart(data = ___, ___ ~ ___ %___=% ___ ) |>
 crabs <- read("crabs", package = "MASS")
 # Graphique
 chart(data = crabs, length ~ ___ %fill=% ___ ) |>
-  gg$geom_box___
+  Sgg$geom_box___
 
  #### ATTENTION: Hint suivant = solution !####
 ```
@@ -733,8 +733,8 @@ grade_code("Vous avez correctement réalisé les trois graphiques demandés. Ré
 ```{r qu_acp}
 question("Sélectionnez les affirmations correctes (plusieurs choix possibles).",
   answer("L'ACP permet de séparer les deux espèces. Les rapports longueur/largeur sont plus importants pour les crabes oranges.", correct = TRUE),
-  answer("Le premier axe reprend 63.5% de la variance totale. Cet axe est corrélé avec les ratios longueur/largeur, profondeur/largeur et taille du lobe frontal/largeur.", correct = TRUE),
-  answer("Le second axe représente 27.7% de la variance totale. Cet axe est inversément correlé avec le ratio largueur à l'arrière/largeur.",correct = TRUE),
+  answer("Le premier axe reprend 63.5% de la variance totale. Cet axe est corrélé (directement ou inversément) avec les ratios longueur/largeur, profondeur/largeur et taille du lobe frontal/largeur.", correct = TRUE),
+  answer("Le second axe représente 27.7% de la variance totale. Cet axe est correlé (directement ou inversément) avec le ratio largueur à l'arrière/largeur.", correct = TRUE),
   answer("Les ratios longueur/largeur et épaisseur/largeur sont directement corrélés.", correct = TRUE),
   answer("Le ratio épaisseur/largeur est inversément corrélé avec le ratio largeur à l'arrière/largeur.", correct = FALSE),
   answer( "Le ratio largeur à l'arrière/largeur permet de distinguer la plupart des individus mâles des femelles et les crabes bleus on une carapace plus compacte (rapport longueur - largeur) que les crabes oranges.", correct = TRUE),
diff --git a/inst/tutorials/C01La_confusion/C01La_confusion.Rmd b/inst/tutorials/C01La_confusion/C01La_confusion.Rmd
@@ -29,12 +29,12 @@ BioDataScience3::learnr_server(input, output, session)
 
 ## Objectifs
 
-Il est possible de créer une multitude de classifieurs différents à partir d'un même jeu de données. Afin de déterminer le classifieur le plus adapté, nous avons besoin d'évaluer la qualité de chacun d'eux. Pour ce faire, nous utilisons des métriques comme le taux de reconnaissance globale, la précision, le rappel.... Ces métriques se calculent sur base d'une matrice de confusion.
+Il est possible de créer une multitude de classifieurs différents à partir d'un même jeu de données. Afin de déterminer le classifieur le plus adapté, nous avons besoin d'évaluer la qualité de chacun d'eux. Pour ce faire, nous utilisons des métriques comme le taux de reconnaissance globale, la précision, le rappel.... La plupart de ces métriques se calculent sur base d'une matrice de confusion.
 
 Ce tutoriel a pour objectifs :
 
--   Apprendre à choisir la bonne métrique
 -   Appréhender les matrices de confusion
+-   Apprendre à choisir la bonne métrique
 -   Calculer les principales métriques à partir d'une matrice de confusion 2 x 2
 
 ## Choix des métriques
@@ -275,7 +275,7 @@ grade_result(
 
 ## Conclusion
 
-Ces calculs de métriques à la main peuvent vous sembler simplistes. Ils vous ont permis de les comprendre un peu mieux. Ce sont des éléments cruciaux dans l'évaluation d'un classifieur. À chaque fois que vous devrez déterminer la qualité d'un classifieur, commencez par définir les métriques les plus pertinentes par rapport à vos objectifs.
+Ces calculs de métriques devraient vous avoir permis de les comprendre un peu mieux. Ce sont des éléments cruciaux dans l'évaluation d'un classifieur. À chaque fois que vous devrez déterminer la qualité d'un classifieur, commencez par définir les métriques les plus pertinentes par rapport à vos objectifs. Dans les exercices que vous ferez plus loin, vous utiliserez ces métriques pour évaluer les performances de vos classifieurs et vous vous rendrez compte de leur intérêt en pratique.
 
 ```{r comm_noscore, echo=FALSE}
 question_text(
diff --git a/inst/tutorials/C01Lb_ml1/C01Lb_ml1.Rmd b/inst/tutorials/C01Lb_ml1/C01Lb_ml1.Rmd
@@ -14,24 +14,23 @@ runtime: shiny_prerendered
 
 ```{r setup, include=FALSE}
 BioDataScience3::learnr_setup()
-SciViews::R("ml", "explore")
+SciViews::R("ml", "explore", lang = "fr")
 
-# exercice preparation --------
 read("biometry", package = "BioDataScience") %>.%
-  select(., gender, weight, height, wrist) %>.%
-  drop_na(.) %->%
+  sselect(., gender, weight, height, wrist) %>.%
+  sdrop_na(.) ->
   bio
 
-## Prepare train and test sets
+# Prepare train and test sets
 set.seed(164)
 bio_split <- initial_split(bio, prop = 2/3)
 bio_train <- training(bio_split)
 bio_test <- testing(bio_split)
 
-## Create an LDA model
+# Create an LDA model
 bio_lda <- mlLda(data = bio_train, gender ~ .)
 
-## Confusion 
+# Confusion 
 bio_conf <- confusion(predict(bio_lda, bio_test), bio_test$gender)
 bio_conf_tab <- summary(bio_conf)
 ```
@@ -63,6 +62,7 @@ L'élaboration d'un classifieur requiert de suivre une série d'étapes :
 -   Préparer le set d'apprentissage et le set de test
 -   Entraîner un classifieur (choisir l'algorithme, l'ajuster sur le set d'apprentissage...)
 -   Évaluer la qualité du classifieur à l'aide des métriques pertinentes
+-   Optimiser le classifieur en ajustant ses paramètres
 -   Déployer le classifieur afin de prédire les classes dans un gros jeu de données non encore classé manuellement.
 
 L'objectif de ce tutoriel est de vous permettre de découvrir l'analyse discriminante linéaire. Vous devez être bien conscient de toutes les étapes ci-dessus et vous devrez les mettre en œuvre dans le cadre de vos projets plus tard. Cependant, pour rendre cette première approche de la classification supervisée plus abordable, nous ne détaillerons pas toutes ces étapes, mais seulement les quelques unes qui mènent à un classifieur ADL fonctionnel.
@@ -78,11 +78,11 @@ Le calcul de l'indice de masse corporelle (IMC) a déjà fait l'objet de plusieu
 Vous avez à votre disposition le tableau de données suivant que l'on réduit à quatre variables :
 
 -   le genre `gender`, que l'on cherchera à prédire, une variable `factor` à deux niveaux `M` pour homme et `W` pour femme, et
--   trois variables quantitatives rencontrées dans les diverses formules d'IMC, soit la masse `weight` en kg, la taille `height`, et le tour de poignet `wrist` en mm.
+-   trois variables quantitatives rencontrées dans les diverses formules d'IMC, soit la masse `weight` en kg, la taille `height` en cm, et le tour de poignet `wrist` en mm.
 
 ```{r, echo=TRUE}
 read("biometry", package = "BioDataScience",lang = "fr") %>.%
-  sselect(., gender, weight, height, wrist) %->%
+  sselect(., gender, weight, height, wrist) ->
   bio
 ```
 
@@ -106,14 +106,14 @@ combine_charts(list(a, b))
 
 ```{r qu_explo}
 question("Sélectionnez les éléments pertinents de l'analyse exploratoire réalisée ci-dessus.",
-  answer("Le tableau de données comprend quatre variables numériques et une variable facteur ordonnée."),
+  answer("Le tableau de données contient quatre variables numériques et une variable facteur ordonnée."),
   answer("La répartition entre les hommes (M) et les femmes (W) est proche de 50/50", correct = TRUE),
-  answer("On observe la présence de valeurs manquantes pour la variable de la circomférence du poignets.", correct = TRUE),
-  answer("Toutes les variables sont complètes. Il n'y a pas de valeurs manquantes dans ce tableau."),
+  answer("On observe la présence de valeurs manquantes pour la variable tour de poignet.", correct = TRUE),
+  answer("Toutes les variables sont complètes. Il n'y a pas de valeurs manquantes dans ce jeu de données."),
   answer("L'ACP permet de séparer en grande partie les hommes des femmes. Les hommes ont tendance à être plus grands et plus lourds.", correct = TRUE),
   allow_retry = TRUE, random_answer_order = TRUE,
   correct = "Vous avez sélectionné les éléments corrects.",
-  incorrect = "Attention, Ce n'est pas complet. Intéressez-vous avec plus d'attention à la description du tableau et à l'ACP.",
+  incorrect = "Attention, Ce n'est pas complet. Intéressez-vous avec plus d'attention à la description du jeu de données et à l'ACP.",
   submit_button = "Soumettre une réponse",
   try_again_button = "Resoumettre une réponse")
 ```
@@ -123,7 +123,8 @@ question("Sélectionnez les éléments pertinents de l'analyse exploratoire réa
 Suite à la phase exploratoire de l'analyse, il en est ressorti que des valeurs manquantes devaient être filtrées.
 
 ```{r, echo=TRUE}
-bio <- sdrop_na(bio, wrist) # Filtrer les valeurs manquantes en spécifiant la colonne concernée
+# Filtrer les valeurs manquantes en spécifiant la colonne concernée
+bio <- sdrop_na(bio, wrist) 
 ```
 
 Utilisez les fonctions `initial_split()`, `training()` et `testing()` pour définir votre set d'apprentissage et votre set de test. Votre set d'apprentissage va se nommer `bio_train` et votre set de test sera `bio_test`. Il vous est demandé de réaliser un set d'apprentissage contenant 3/4 des observations et en conservant les mêmes proportions qu'au départ pour le genre.
@@ -185,7 +186,7 @@ summary(bio_lda)
 ```
 
 ```{r lda1_h2-check}
-grade_code("Voici donc votre premier classifieur ADL. Voyons maintenant quoi en faire...", "Avez-vous bien écrit la formule sous sa forme condensée ?")
+grade_code("Voici donc votre premier classifieur ADL. Voyons quoi en faire...", "Avez-vous bien écrit la formule sous sa forme condensée ?")
 ```
 
 ## Performances du classifieur