Examen Fouille de donnée Sujet 3
examen data mining
Exercice 1 : CLASSIFICATION PAR ARBRE DE décision 07pts
Une société immobilière dispose des informations sur se clients :
Num |
Emplacement |
Type de maison |
Revenu |
client anterieur ? |
Resultat |
1 |
Banlieue |
Unifamiliale |
Élevé |
Non |
Insatisfait |
2 |
Banlieue |
Unifamiliale |
Élevé |
Oui |
Insatisfait |
3 |
Rural |
Unifamiliale |
Élevé |
Non |
Satisfait |
4 |
Ville |
Jumelée |
Élevé |
Non |
Satisfait |
5 |
Ville |
Jumelée |
Bas |
Non |
Satisfait |
6 |
Ville |
Jumelée |
Bas |
Oui |
Insatisfait |
7 |
Rural |
Jumelée |
Bas |
Oui |
Satisfait |
8 |
Banlieue |
Rangée |
Élevé |
Non |
Insatisfait |
9 |
Banlieue |
Jumelée |
Bas |
Non |
Satisfait |
10 |
Ville |
Rangée |
Bas |
Non |
Satisfait |
- Définir le terme entropie et calculer celle de cette population.
- Définir entropie résiduelle pour attribut A et calculer l'entropie résiduelle pour chaque attribut : Emplacement, Type de maison, Revenu, client antérieur.
- Pour la contruction de l'arbre de décision, utilisez-vous l'attributrevenu ? Pourqoui ?
- Lors de la contruction de l'arbre de décision. quel est l'attribut à tester à la racine de l'arbre.
- Construire l'arbre de décision complet et élaguez le.
- Quelle est le taux d'erreur de cet arbre estimé sur l'ensemble des clients 1 à 10.
- Donner un intervalle de valeurs pour l'erreur réelle en utilisant une confiance de 90 %.
On se donne les 4 clients suivants :
Num |
Emplacement |
Type de maison |
Revenu |
client anterieur ? |
Resultat |
11 |
Banlieue |
Rangée |
Bas |
Oui |
Satisfait |
12 |
Rural |
Rangée |
Élevé |
Oui |
Satisfait |
13 |
Rural |
Unifamiliale |
Bas |
Non |
Satisfait |
14 |
Ville |
Rangée |
Élevé |
Non |
Insatisfait |
8. Comment chacun de ces clients est-il classé avec l'arbre de décision que vous avez proposé dans l'item 5 ?
9. Pour ces 4 clients, on apprend par ailleurs que les clients 11 et 12 sont des clients réguliers, et que les clients 13 et 14 ne le sont pas. Quel est le taux d'erreur estimé sur les clients 11, 12, 13 et 14 ? Combien y a-t-il de faux positifs et de faux négatifs ?
Exercice 2 : reseau de neurones 05pts
1. Définir des termes suivants : (a) Neurone, (b) Perceptron, (c) Fonction cout, (d) descente de gradient, (e) Convolution, (f) Couches, (g) Fonction d'activation ;
2. Faire le schéma annoté d’un perceptron a 3 couches ;
3. Faire un schéma annoté d’un perceptron simple recevant des entrées x1, x2 et x3 d'un biais b et retournant une sortie y. Vous pourrez pondérer les synapses par des poids w
4. Pour ce perceptron de la question précédente, donnez l'équation de a fonction d'agrégation z(x1, x2, x3).
Exercice 3 : Generation de règles d'association 08pts
Soit X la base de transactions contenant un ensemble de transactions décrivant des achats de produits dans le super marché FreeMarket.
Liste |
Produits |
L1 |
M |
O |
N |
K |
E |
Y |
L2 |
D |
O |
N |
K |
E |
Y |
L3 |
M |
A |
K |
E |
|
|
L4 |
M |
U |
C |
K |
Y |
|
L5 |
C |
O |
O |
K |
I |
E |
1. Montrer que l'union de deux itemsets fréquents n'est pas toujours fréquent ;
2. A l'aide de l'algorithme Apriori, générer les règles d'association avec minConf = 1 pour les données de la base X ;
3. En considérant seulement l'ensemble de produits {M, O, N}, trouver l'ensemble de règles qui permettent de prédire l'achat de deux produits tout en améliorant la prédiction par rapport à la mesure statistique induite par la base de données ;
4. Répéter la même question pour trouver l'ensemble de règles qui permettent de prédire l'achat d'un produit.
5. Utilisez l'algorithme fp-growth pour générer la liste des itemsets fréquent de la base X avec minsup=3.
6. La réponse à la question 5 aurait été plus rapide (simple) en utilisant l'algorithme Apriori ? justifiez-vous.