Upload New File

d9f172db · SUR Frederic · 806096c6 · d9f172db
Commit d9f172db authored 3 years ago by SUR Frederic
--- a/TP1/TP1_ex2_sujet.ipynb
+++ b/TP1/TP1_ex2_sujet.ipynb
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Introduction à l'apprentissage automatique: TP1 - Exercice 2\n",
+    "\n",
+    "<br>\n",
+    "\n",
+    "L'objectif de cet exercice est de construire un modèle de régression linéaire.\n",
+    "\n",
+    "__Remarque__: il ne s'agit que d'une étude préliminaire; il faudrait également tester les modèles non-linéaires que l'on verra dans la suite du cours.\n",
+    "\n",
+    "<br>\n",
+    "\n",
+    "On cherche à prédire l'influence de dix indicateurs $x_1,x_2,\\dots,x_{10}$ (âge, sexe, et diverses mesures physiologiques) sur un indicateur $y$ de la progression du diabète, à l'aide d'un modèle linéaire. Une étude complète nécessiterait de justifier ce modèle par des graphes, les coefficients de corrélation linéaire, etc., comme vous l'avez fait en cours d'Analyse de données. Nous ne le ferons pas faute de temps.\n",
+    "\n",
+    "On se base sur un jeu de données intégré à scikit-learn et [décrit ici](https://scikit-learn.org/stable/datasets/index.html#diabetes-dataset)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# import des bibliothèques Python utiles:\n",
+    "import numpy as np\n",
+    "from sklearn import datasets, linear_model, metrics, model_selection\n",
+    "\n",
+    "import matplotlib.pyplot as plt\n",
+    "\n",
+    "# on ignore les avertissements \"future warning\" (au cas où sklearn 1.0 est utilisé)\n",
+    "from warnings import simplefilter\n",
+    "simplefilter(action='ignore', category=FutureWarning)\n",
+    "\n",
+    "# \"magic function\" Jupyter pour l'affichage des graphiques dans le carnet:\n",
+    "%matplotlib notebook"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# chargement des données\n",
+    "diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)\n",
+    "\n",
+    "# affichage des 5 premières observations \n",
+    "print(diabetes_X[:5,:])  # rappel: les observations ont été préalablement normalisées\n",
+    "print(diabetes_y[:5])  # les labels y ne sont pas normalisés\n",
+    "\n",
+    "# nombre d'observations:\n",
+    "print(\"\\nnombre d'observations dans la base de données: %d\" %len(diabetes_X))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Les observations (les 10 indicateurs) forment les colonnes de `diabetes_X` et l'indicateur à prédire est stocké dans `diabetes_y`.\n",
+    "\n",
+    "On commence par séparer la base de données entre ensemble d'apprentissage et ensemble de test (20% des observations pour ce dernier ensemble). La répartition est faite de manière aléatoire par la cellule suivante. \n",
+    "\n",
+    "__Remarque__: dans la cellule suivante, `random_state=42` (nombre arbitraire) permet de fixer la graine du générateur aléatoire de manière à ce que nous ayons tous la même répartition aléatoire, ce qui facilitera la discussion."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "X_train, X_test, y_train, y_test = model_selection.train_test_split(diabetes_X, diabetes_y, \\\n",
+    "    test_size=0.2, random_state=42)\n",
+    "print(X_train.shape)\n",
+    "print(X_test.shape)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "__Question 1__. Que font les trois cellules suivantes? Commentez en particulier le comportement des graphes. Pourquoi la MSE est-elle calculée sur la base test?"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "lr = linear_model.LinearRegression()\n",
+    "lr.fit(X_train, y_train)\n",
+    "\n",
+    "MSE_lr = np.mean((lr.predict(X_test) - y_test) ** 2)\n",
+    "\n",
+    "print(MSE_lr)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "n_alphas = 100\n",
+    "alphas = np.logspace(-4, 4, n_alphas)\n",
+    "coefs=np.zeros((0,10))\n",
+    "MSE_ridge=[]\n",
+    "for a in alphas:\n",
+    "    ridge = linear_model.Ridge(alpha=a)\n",
+    "    ridge.fit(X_train, y_train)\n",
+    "    coefs=np.vstack((coefs,ridge.coef_))\n",
+    "    MSE_ridge.append([MSE_lr, np.mean((ridge.predict(X_test) - y_test) ** 2)])\n",
+    "\n",
+    "plt.figure(figsize=(8,6))\n",
+    "plt.semilogx(alphas, coefs)\n",
+    "plt.xlabel('alpha')\n",
+    "plt.ylabel('coefs')\n",
+    "plt.title('Coefficients de la régression ridge en fonction de alpha')\n",
+    "plt.axis('tight')\n",
+    "plt.legend(['w1','w2','w3','w4','w5','w6','w7','w8','w9','w10'])\n",
+    "plt.grid()\n",
+    "plt.show()\n",
+    "\n",
+    "plt.figure(figsize=(8,6))\n",
+    "plt.semilogx(alphas, MSE_ridge)\n",
+    "plt.xlabel('alpha')\n",
+    "plt.ylabel('MSE')\n",
+    "plt.title('MSE régression linéaire et ridge vs. alpha ')\n",
+    "plt.axis([1e-4,1e4,2750,3050])\n",
+    "plt.legend(['MSE lr','MSE ridge'])\n",
+    "plt.grid()\n",
+    "plt.show();"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "n_alphas = 100\n",
+    "alphas = np.logspace(-4, 4, n_alphas)\n",
+    "coefs=np.zeros((0,10))\n",
+    "MSE_lasso=[]\n",
+    "for a in alphas:\n",
+    "    lasso = linear_model.Lasso(alpha=a)\n",
+    "    lasso.fit(X_train, y_train)\n",
+    "    coefs=np.vstack((coefs,lasso.coef_))\n",
+    "    MSE_lasso.append([MSE_lr, np.mean((lasso.predict(X_test) - y_test) ** 2)])\n",
+    "\n",
+    "#print(coefs)\n",
+    "    \n",
+    "plt.figure(figsize=(8,6))\n",
+    "plt.semilogx(alphas, coefs)\n",
+    "plt.xlabel('alpha')\n",
+    "plt.ylabel('coefs')\n",
+    "plt.title('Coefficients du Lasso en fonction de alpha')\n",
+    "plt.legend(['w1','w2','w3','w4','w5','w6','w7','w8','w9','w10'])\n",
+    "plt.axis('tight')\n",
+    "plt.grid()\n",
+    "plt.show();\n",
+    "\n",
+    "plt.figure(figsize=(8,6))\n",
+    "plt.semilogx(alphas, MSE_lasso)\n",
+    "plt.xlabel('alpha')\n",
+    "plt.ylabel('MSE')\n",
+    "plt.axis([1e-4,1e4,2750,3050])\n",
+    "plt.title('MSE régression linéaire et lasso vs. alpha ')\n",
+    "plt.legend(['MSE lr','MSE lasso'])\n",
+    "plt.grid()\n",
+    "plt.show()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "__Question 2__. Proposez des modèles de régression multivariée pour prédire $y$ en fonction des 10 indicateurs dans $X$. Vous testerez régression linéaire, ridge, lasso et fixerez l'hyperparamètre de ces deux dernières méthodes par validation croisée sur la _base d'apprentissage_ , conformément à la démarche vue dans l'exercice 1.\n",
+    "\n",
+    "<br>\n",
+    "\n",
+    "Quel est finalement le meilleur modèle ? \n",
+    "\n",
+    "_Indication_ : calculez la valeur de MSE sur la _base de test_ .\n",
+    "\n",
+    "<br>\n",
+    "\n",
+    "Quelles variables semblent les plus pertinentes dans l'étude?\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# votre code ici (il faut pour l'essentiel faire des copier/coller depuis l'énoncé de l'exercice 1)\n",
+    "\n",
+    "\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.3"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
+%% Cell type:markdown id: tags:
+
+# Introduction à l'apprentissage automatique: TP1 - Exercice 2
+
+<br>
+
+L'objectif de cet exercice est de construire un modèle de régression linéaire.
+
+__Remarque__: il ne s'agit que d'une étude préliminaire; il faudrait également tester les modèles non-linéaires que l'on verra dans la suite du cours.
+
+<br>
+
+On cherche à prédire l'influence de dix indicateurs $x_1,x_2,\dots,x_{10}$ (âge, sexe, et diverses mesures physiologiques) sur un indicateur $y$ de la progression du diabète, à l'aide d'un modèle linéaire. Une étude complète nécessiterait de justifier ce modèle par des graphes, les coefficients de corrélation linéaire, etc., comme vous l'avez fait en cours d'Analyse de données. Nous ne le ferons pas faute de temps.
+
+On se base sur un jeu de données intégré à scikit-learn et [décrit ici](https://scikit-learn.org/stable/datasets/index.html#diabetes-dataset).
+
+%% Cell type:code id: tags:
+
+``` python
+# import des bibliothèques Python utiles:
+import numpy as np
+from sklearn import datasets, linear_model, metrics, model_selection
+
+import matplotlib.pyplot as plt
+
+# on ignore les avertissements "future warning" (au cas où sklearn 1.0 est utilisé)
+from warnings import simplefilter
+simplefilter(action='ignore', category=FutureWarning)
+
+# "magic function" Jupyter pour l'affichage des graphiques dans le carnet:
+%matplotlib notebook
+```
+
+%% Cell type:code id: tags:
+
+``` python
+# chargement des données
+diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)
+
+# affichage des 5 premières observations
+print(diabetes_X[:5,:])  # rappel: les observations ont été préalablement normalisées
+print(diabetes_y[:5])  # les labels y ne sont pas normalisés
+
+# nombre d'observations:
+print("\nnombre d'observations dans la base de données: %d" %len(diabetes_X))
+```
+
+%% Cell type:markdown id: tags:
+
+Les observations (les 10 indicateurs) forment les colonnes de `diabetes_X` et l'indicateur à prédire est stocké dans `diabetes_y`.
+
+On commence par séparer la base de données entre ensemble d'apprentissage et ensemble de test (20% des observations pour ce dernier ensemble). La répartition est faite de manière aléatoire par la cellule suivante.
+
+__Remarque__: dans la cellule suivante, `random_state=42` (nombre arbitraire) permet de fixer la graine du générateur aléatoire de manière à ce que nous ayons tous la même répartition aléatoire, ce qui facilitera la discussion.
+
+%% Cell type:code id: tags:
+
+``` python
+X_train, X_test, y_train, y_test = model_selection.train_test_split(diabetes_X, diabetes_y, \
+    test_size=0.2, random_state=42)
+print(X_train.shape)
+print(X_test.shape)
+```
+
+%% Cell type:markdown id: tags:
+
+__Question 1__. Que font les trois cellules suivantes? Commentez en particulier le comportement des graphes. Pourquoi la MSE est-elle calculée sur la base test?
+
+%% Cell type:code id: tags:
+
+``` python
+lr = linear_model.LinearRegression()
+lr.fit(X_train, y_train)
+
+MSE_lr = np.mean((lr.predict(X_test) - y_test) ** 2)
+
+print(MSE_lr)
+```
+
+%% Cell type:code id: tags:
+
+``` python
+n_alphas = 100
+alphas = np.logspace(-4, 4, n_alphas)
+coefs=np.zeros((0,10))
+MSE_ridge=[]
+for a in alphas:
+    ridge = linear_model.Ridge(alpha=a)
+    ridge.fit(X_train, y_train)
+    coefs=np.vstack((coefs,ridge.coef_))
+    MSE_ridge.append([MSE_lr, np.mean((ridge.predict(X_test) - y_test) ** 2)])
+
+plt.figure(figsize=(8,6))
+plt.semilogx(alphas, coefs)
+plt.xlabel('alpha')
+plt.ylabel('coefs')
+plt.title('Coefficients de la régression ridge en fonction de alpha')
+plt.axis('tight')
+plt.legend(['w1','w2','w3','w4','w5','w6','w7','w8','w9','w10'])
+plt.grid()
+plt.show()
+
+plt.figure(figsize=(8,6))
+plt.semilogx(alphas, MSE_ridge)
+plt.xlabel('alpha')
+plt.ylabel('MSE')
+plt.title('MSE régression linéaire et ridge vs. alpha ')
+plt.axis([1e-4,1e4,2750,3050])
+plt.legend(['MSE lr','MSE ridge'])
+plt.grid()
+plt.show();
+```
+
+%% Cell type:code id: tags:
+
+``` python
+n_alphas = 100
+alphas = np.logspace(-4, 4, n_alphas)
+coefs=np.zeros((0,10))
+MSE_lasso=[]
+for a in alphas:
+    lasso = linear_model.Lasso(alpha=a)
+    lasso.fit(X_train, y_train)
+    coefs=np.vstack((coefs,lasso.coef_))
+    MSE_lasso.append([MSE_lr, np.mean((lasso.predict(X_test) - y_test) ** 2)])
+
+#print(coefs)
+
+plt.figure(figsize=(8,6))
+plt.semilogx(alphas, coefs)
+plt.xlabel('alpha')
+plt.ylabel('coefs')
+plt.title('Coefficients du Lasso en fonction de alpha')
+plt.legend(['w1','w2','w3','w4','w5','w6','w7','w8','w9','w10'])
+plt.axis('tight')
+plt.grid()
+plt.show();
+
+plt.figure(figsize=(8,6))
+plt.semilogx(alphas, MSE_lasso)
+plt.xlabel('alpha')
+plt.ylabel('MSE')
+plt.axis([1e-4,1e4,2750,3050])
+plt.title('MSE régression linéaire et lasso vs. alpha ')
+plt.legend(['MSE lr','MSE lasso'])
+plt.grid()
+plt.show()
+```
+
+%% Cell type:markdown id: tags:
+
+__Question 2__. Proposez des modèles de régression multivariée pour prédire $y$ en fonction des 10 indicateurs dans $X$. Vous testerez régression linéaire, ridge, lasso et fixerez l'hyperparamètre de ces deux dernières méthodes par validation croisée sur la _base d'apprentissage_ , conformément à la démarche vue dans l'exercice 1.
+
+<br>
+
+Quel est finalement le meilleur modèle ?
+
+_Indication_ : calculez la valeur de MSE sur la _base de test_ .
+
+<br>
+
+Quelles variables semblent les plus pertinentes dans l'étude?
+
+%% Cell type:code id: tags:
+
+``` python
+# votre code ici (il faut pour l'essentiel faire des copier/coller depuis l'énoncé de l'exercice 1)
+
+
+```
+
+%% Cell type:code id: tags:
+
+``` python
+```