1. Chargez le fichier « naissances_regions.xls » dans un dataframe nommé « naissances »
2. Affichez les premières lignes. Combien y’a-t-il de variables ? d’individus ?

Le dataframe comporte 13 individus et 7 variables

3.
4. Créez un objet « X » qui va contenir les données du dataframe naissances, avec les variables « naissances » , « prematures » et « moinsde25 » (qui désigne le nombre de naissances à moins de 2,5 kg).
5. Créez un objet « regions » qui va contenir la variable « region » transformée en liste
6. Chargez le module correspondant, instanciez puis appliquez une ACP sur les données X. On mettra les projections des individus dans une variable« components ».
7. En utilisant le script suivant, affichez la projection des observations sur le plan factoriel.

Il semble y avoir des groupes qui se forment: à confirmer

8. Nous allons à présent réaliser la classification ascendante hiérarchique. Calculez la matrice des liens, et mettez-là dans un objet « Z » comme ci-dessous.
9. En exploitant la matrice des liens Z, affichez le dendrogramme
10. Combien de groupes peut-on retenir si on se fie à la coloration du dendrogramme ?

Si on se fie à la coloration du dendrogramme, on devrait retenir deux groupes

11.Faites la classification en trois groupes. Affichez les groupes
12.Refaites le clustering en 3 classes avec un Kmeans, puis affichez les groupes.
13. En utilisant l’indice de Rand ajusté, comparez les deux clustering proposés.
14. Modifiez le graphique de la question 8 à la 3è ligne de la façon suivante, de sorte à colorer selon les groupes trouvés par la CAH
15.Faites de même en coloriant selon les groupes trouvés par le kmeans. Quel clustering vous parait-il le plus approprié (visuellement) ?