Exercice en R : Analyse des Performances des Joueurs de Tennis
Contexte :
Vous êtes analyste de données formé en R sur le site Pandacodeur.com, et vous devez analyser les performances de joueurs de tennis. Vous avez des données simulées sur les résultats des matchs, les points marqués et d'autres statistiques. Votre tâche est de manipuler ces données pour obtenir des insights sur les performances des joueurs.
Données :
# Données simulées
joueurs <- c("Alice", "Bob", "Charlie", "Diana", "Evan")
matches_joues <- c(30, 25, 28, 35, 22) # Nombre de matchs joués
points_marques <- c(1200, 1150, 1300, 1250, 1100) # Points marqués
sets_gagnes <- c(18, 14, 20, 22, 16) # Sets gagnés
pourcentage_services <- c(75, 68, 80, 85, 70) # Pourcentage de premiers services réussis
# Création du DataFrame
df_performance <- data.frame(joueurs, matches_joues, points_marques, sets_gagnes, pourcentage_services)
print(df_performance)
Questions :
1. Calcul du Total des Points Marqués
Question : Calculez le nombre total de points marqués par tous les joueurs.
Indice : Utilisez la fonction sum()
sur le vecteur points_marques
.
2. Trouver le Joueur avec le Plus Grand Pourcentage de Services Réussis
Question : Déterminez le joueur avec le pourcentage de premiers services réussis le plus élevé.
Indice : Utilisez la fonction which.max()
sur le vecteur pourcentage_services
pour trouver l'index du joueur, puis accédez à ce joueur avec joueurs[<index>]
.
3. Calcul de la Moyenne des Sets Gagnés
Question : Calculez la moyenne des sets gagnés par les joueurs.
Indice : Utilisez la fonction mean()
sur le vecteur sets_gagnes
.
4. Filtrage des Joueurs avec Plus de 25 Matchs Joués
Question : Filtrez les joueurs qui ont joué plus de 25 matchs.
Indice : Utilisez la fonction filter()
du package dplyr
. Assurez-vous de charger le package avec library(dplyr)
.
5. Sélection des Colonnes Relevantes avec dplyr
Question : Sélectionnez uniquement les colonnes joueurs
et points_marques
dans le DataFrame.
Indice : Utilisez la fonction select()
du package dplyr
.
6. Création d’une Nouvelle Colonne de Performance
Question : Créez une nouvelle colonne performance_index
qui est le ratio entre les points marqués et les matchs joués.
Indice : Utilisez la fonction mutate()
du package dplyr
pour ajouter cette colonne.
7. Résumé des Données avec dplyr
Question : Obtenez un résumé de la moyenne et de l’écart-type des pourcentages de premiers services réussis.
Indice : Utilisez les fonctions summarise()
et sd()
du package dplyr
.
8. Visualisation des Performances
Question : Créez un graphique en barres du nombre de points marqués par chaque joueur.
Indice : Utilisez la fonction barplot()
pour visualiser les points marqués.
9. Visualisation de la Relation entre Points Marqués et Sets Gagnés
Question : Créez un nuage de points pour visualiser la relation entre les points marqués et les sets gagnés.
Indice : Utilisez la fonction plot()
pour créer un nuage de points.
10. Calcul du Ratio de Sets Gagnés par Match Joué
Question : Calculez le ratio des sets gagnés par match joué pour chaque joueur.
Indice : Utilisez une opération élément par élément sur les vecteurs sets_gagnes
et matches_joues
.
À la fin de cet exercice, vous devriez être capable de :
- Manipuler des vecteurs et des matrices en R pour des analyses statistiques.
- Utiliser les fonctions de base comme
sum()
, mean()
, et which.max()
pour obtenir des insights.
- Manipuler des données avec le package
dplyr
, y compris le filtrage, la sélection de colonnes, et la création de nouvelles colonnes.
- Visualiser des données avec des graphiques en barres et des nuages de points.
Cet exercice vous aidera à développer vos compétences en analyse de données en utilisant R dans un contexte lié aux performances sportives.