Exercice en R : Analyse des Performances des Joueurs de Tennis

Contexte :

Vous êtes analyste de données formé en R sur le site Pandacodeur.com, et vous devez analyser les performances de joueurs de tennis. Vous avez des données simulées sur les résultats des matchs, les points marqués et d'autres statistiques. Votre tâche est de manipuler ces données pour obtenir des insights sur les performances des joueurs.

Données :


# Données simulées
joueurs <- c("Alice", "Bob", "Charlie", "Diana", "Evan")
matches_joues <- c(30, 25, 28, 35, 22)  # Nombre de matchs joués
points_marques <- c(1200, 1150, 1300, 1250, 1100)  # Points marqués
sets_gagnes <- c(18, 14, 20, 22, 16)  # Sets gagnés
pourcentage_services <- c(75, 68, 80, 85, 70)  # Pourcentage de premiers services réussis

# Création du DataFrame
df_performance <- data.frame(joueurs, matches_joues, points_marques, sets_gagnes, pourcentage_services)
print(df_performance)
    

Questions :

1. Calcul du Total des Points Marqués

Question : Calculez le nombre total de points marqués par tous les joueurs.

Indice : Utilisez la fonction sum() sur le vecteur points_marques.

2. Trouver le Joueur avec le Plus Grand Pourcentage de Services Réussis

Question : Déterminez le joueur avec le pourcentage de premiers services réussis le plus élevé.

Indice : Utilisez la fonction which.max() sur le vecteur pourcentage_services pour trouver l'index du joueur, puis accédez à ce joueur avec joueurs[<index>].

3. Calcul de la Moyenne des Sets Gagnés

Question : Calculez la moyenne des sets gagnés par les joueurs.

Indice : Utilisez la fonction mean() sur le vecteur sets_gagnes.

4. Filtrage des Joueurs avec Plus de 25 Matchs Joués

Question : Filtrez les joueurs qui ont joué plus de 25 matchs.

Indice : Utilisez la fonction filter() du package dplyr. Assurez-vous de charger le package avec library(dplyr).

5. Sélection des Colonnes Relevantes avec dplyr

Question : Sélectionnez uniquement les colonnes joueurs et points_marques dans le DataFrame.

Indice : Utilisez la fonction select() du package dplyr.

6. Création d’une Nouvelle Colonne de Performance

Question : Créez une nouvelle colonne performance_index qui est le ratio entre les points marqués et les matchs joués.

Indice : Utilisez la fonction mutate() du package dplyr pour ajouter cette colonne.

7. Résumé des Données avec dplyr

Question : Obtenez un résumé de la moyenne et de l’écart-type des pourcentages de premiers services réussis.

Indice : Utilisez les fonctions summarise() et sd() du package dplyr.

8. Visualisation des Performances

Question : Créez un graphique en barres du nombre de points marqués par chaque joueur.

Indice : Utilisez la fonction barplot() pour visualiser les points marqués.

9. Visualisation de la Relation entre Points Marqués et Sets Gagnés

Question : Créez un nuage de points pour visualiser la relation entre les points marqués et les sets gagnés.

Indice : Utilisez la fonction plot() pour créer un nuage de points.

10. Calcul du Ratio de Sets Gagnés par Match Joué

Question : Calculez le ratio des sets gagnés par match joué pour chaque joueur.

Indice : Utilisez une opération élément par élément sur les vecteurs sets_gagnes et matches_joues.

À la fin de cet exercice, vous devriez être capable de :

  • Manipuler des vecteurs et des matrices en R pour des analyses statistiques.
  • Utiliser les fonctions de base comme sum(), mean(), et which.max() pour obtenir des insights.
  • Manipuler des données avec le package dplyr, y compris le filtrage, la sélection de colonnes, et la création de nouvelles colonnes.
  • Visualiser des données avec des graphiques en barres et des nuages de points.

Cet exercice vous aidera à développer vos compétences en analyse de données en utilisant R dans un contexte lié aux performances sportives.

Aucune note. Soyez le premier à attribuer une note !

Ajouter un commentaire

Anti-spam