Partie 1 : Questions de Cours en R (12 points)
Note : Une réponse non justifiée n’est pas prise en compte.
1. En fonction de votre poids (en kilogramme) et de votre taille (en mètre), quel est votre IMC ?
2. Utilisez des variables pour calculer votre IMC avec votre poids et votre taille.
3. Si votre budget est de 300 FCFA, et que le total de vos achats est 350 FCFA, pouvez-vous réaliser l’achat ?
4. Si vous achetez deux articles coûtant 260 FCFA et 30 FCFA, pouvez-vous les acheter avec un budget de 300 FCFA ?
5. Si une réduction de 30% est appliquée sur vos articles (260 FCFA, 30 FCFA, 60 FCFA), quel sera le montant de votre réduction et la dépense totale en période de soldes ?
6. Combien vous restera-t-il après avoir fait cet achat ?
7. Donnez les notes au contrôle continu et à l'examen des étudiants ccont <- c(11, 13, 15.5, 12, 8, 9, 13, 16) > exam <- c(8.5, 14, 15, 10, 12, 13, 14, 17)).
8. Nous allons continuer à travailler sur les vecteurs de données. Il faut pondérer les notes au contrôle continu par 0.4 (compte pour 40 % de la note finale) et celles de l’examen par 0.6 (compte pour 60 % de la note finale). Calculez la note finale pondérée en tenant compte de 40% pour le contrôle continu et 60% pour l'examen.
9. Quelle est la note au contrôle continu, à l’examen et la note finale pour le 6ème étudiant ?
10. Calculez la moyenne des notes au contrôle continu, à l'examen, et la note finale. Quelle est la note la plus élevée et la plus basse à l'UE ?
11. Dans une grande population, on a déterminé le sexe de 100 individus et trouvé 40 mâles et 60 femelles. La valeur 0.5 appartient-elle à l'intervalle de confiance de la fréquence des mâles au seuil de 90% ?
12. Vrai ou Faux ? Quel que soit le résultat expérimental, le test ne sera pas significatif au seuil de 5% ?
13. Donne la commande qui permet de créer un vecteur contenant les nombres 1, 2, 3, 4, et 5.
14. Que fait cette commande : mean(c(10, 20, 30, 40))
?
15. Donne la commande pour lire un fichier CSV nommé "data.csv" dans un dataframe en R.
16. Que fait cette commande : plot(x = 1:10, y = 10:1)
?
17. Donne la commande qui permet de calculer la somme des éléments d'un vecteur nommé monVecteur
.
Partie 2 : Complétez le texte (8 points)
Exercice : Analyse de données avec R
Vous disposez d'un fichier CSV nommé "ventes.csv" contenant les données suivantes :
Produit |
Prix (FCFA) |
Quantité vendue |
Catégorie |
Ordinateur |
350000 |
10 |
Électronique |
Téléphone |
150000 |
20 |
Électronique |
Chaise |
25000 |
15 |
Mobilier |
Table |
50000 |
8 |
Mobilier |
Livre |
10000 |
50 |
Divers |
1. Donne la commande pour lire le fichier "ventes.csv" dans un dataframe appelé ventes
.
2. Donne la commande pour afficher les 3 premières lignes du dataframe ventes
.
3. Ajoute une nouvelle colonne nommée Revenu
qui calcule le revenu total par produit (Prix * Quantité vendue). Quelle est la commande pour cela ?
4. Donne la commande pour filtrer le dataframe afin d'afficher uniquement les produits de la catégorie "Électronique".
5. Quelle est la commande pour calculer la somme totale des revenus générés par tous les produits ?
6. Utilise la fonction barplot()
pour créer un graphique des revenus par produit. Quelle est la commande pour cela ?
Partie 3 : Problème de Data Science en R (10 points)
Dans le cadre de la comparaison de deux échantillons issus de populations normales avec la même moyenne et la même variance, la puissance d’un test statistique est influencée par l’écart entre ces populations. Lorsque cet écart est nul (autrement dit, lorsque l’hypothèse nulle H0 : μ1 = μ2 est vérifiée), le test ne devrait normalement pas détecter de différence significative. Cependant, en raison des imperfections inhérentes aux tests, des erreurs de type I peuvent survenir, conduisant à la déclaration incorrecte d'une différence significative dans une proportion de cas égale à α (le seuil de signification).
Il est clair que, dans les situations où on souhaite tester si deux échantillons proviennent de deux populations normales de même moyenne et de même variance, la puissance du test de détection dépendra de l'écart entre les deux populations. Si l'écart est nul (c'est-à-dire, si l'hypothèse nulle H0: μ1=μ2 est vraie), le test ne devrait idéalement détecter aucune différence. Malheureusement, les tests n'étant pas parfaits, le test commettra des erreurs de type I, et donc déclarera erronnément la différence observée entre les échantillons comme étant significative dans une proportion de cas approximativement égale à α. Si, par contre, l'écart entre les deux moyennes des distributions n'est pas nul (μ1 ≠ μ2), le test déclarera à juste titre qu'il y a une différence entre les distributions dans une proportion de cas qui correspond à la puissance et qui vaut P=1-β. Bien entendu, plus l'écart sera important et plus la puissance augmentera. Attention que l'écart entre les moyennes est un écart relatif: un même écart pourrait être significatif si les données varient beaucoup (σ >>), et ne pas l'être si elles varient peu (σ <<). Pour cette raison, on exprimera l'écart en "nombre d de déviations standards", ce qui revient à écrire que: d = |μ1-μ2|/σ. Ces précisions étant apportées, voici l'énoncé du problème de l'examen de septembre 2012:
Les tests de comparaisons de deux groupes ont une puissance qui dépend d'une part de l'effectif des groupes (n1, n2), et d'autre part de la différence moyenne standardisée entre les groupes (d = |μ1-μ2|/σ). Afin de mettre en évidence la relation entre puissance (au seuil α = 0.05) et différence moyenne standardisée, nous allons effectuer la simulation suivante en gardant les effectifs constants (par exemple, n1=n2=10). On va faire varier d de 0.0 à 2.0 par pas de 0.1 (remarque : μ2 = μ1 + σ*d), et, pour chaque situation, simuler 1000 fois les 2 échantillons, calculer la statistique correspondant au test de l'hypothèse nulle H0: μ1=μ2, et comptabiliser la proportion de situations où le test détecte une différence.