407 lines
102 KiB
Plaintext
407 lines
102 KiB
Plaintext
{
|
|
"cells": [
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"# Maschinelles Lernen (ML) - Übung 4\n",
|
|
"# Support Vector Machines\n",
|
|
"#### Institute Industrial IT\n",
|
|
"#### AG Diskrete Systeme\n",
|
|
"#### Anton Pfeifer, Christoph-Alexander Holst"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 2,
|
|
"metadata": {},
|
|
"outputs": [],
|
|
"source": [
|
|
"import sklearn\n",
|
|
"from sklearn.svm import SVC\n",
|
|
"from sklearn.datasets import make_blobs\n",
|
|
"from sklearn.datasets import make_moons\n",
|
|
"from sklearn.model_selection import train_test_split\n",
|
|
"import numpy as np\n",
|
|
"\n",
|
|
"# To plot pretty figures\n",
|
|
"%matplotlib inline\n",
|
|
"import matplotlib as mpl\n",
|
|
"import matplotlib.pyplot as plt\n",
|
|
"mpl.rc('axes', labelsize=14)\n",
|
|
"mpl.rc('xtick', labelsize=12)\n",
|
|
"mpl.rc('ytick', labelsize=12)\n",
|
|
"\n",
|
|
"# Hilfs-Funktionen\n",
|
|
"from utils import *\n",
|
|
"\n",
|
|
"# To make this notebook's output stable across runs\n",
|
|
"np.random.seed(42)"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"## Das Beispiel aus dem Arbeitsblatt\n",
|
|
"In dieser Übung wird die *Support Vector Machine* (SVM) eingeführt. Das zugrunde liegende Prinzip lässt sich sehr gut anhand der folgenden Codezelle darstellen. Diese generiert zwei Cluster, die sich sehr leicht mit einer Geraden voneinander trennen lassen (*linear separierbar*).\n",
|
|
"\n",
|
|
"Die Abbildung auf der linken Seite zeigt verschiedene Entscheidungsgrenzen von drei linearen Klassifikatoren. Die grün gestrichelte Linie trennt die beiden Cluster in zwei Klassen. Die rote und die blaue Linie befinden sich sehr nah an den Datenpunkten. Diese Modelle werden auf Testdaten vermutlich schlechter abschneiden.\n",
|
|
"\n",
|
|
"Die Abbildung auf der rechten Seite zeigt die Entscheidungsgrenze eines SVM-Klassifikators. Hierbei trennt die Linie die beiden Klassen mit dem größtmöglichen Abstand zu den nächstgelegenen Trainingsdatenpunkten (gestrichelte Linie). Der Abstand zu den nächstgelegenen Punkten wird auch als *margin* bezeichnet. \n",
|
|
"\n",
|
|
"Die SVM gehört im maschinellen Lernen zu den beliebtesten Modellen und wird im Rahmen dieser Übung als Werkzeug eingeführt. Die SVM eignet sich sowohl als linearer Klassifikator als auch nichtlinearer Klassifikator sowie für unterschiedliche Regressionsaufgaben."
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 3,
|
|
"metadata": {},
|
|
"outputs": [
|
|
{
|
|
"data": {
|
|
"image/png": "\n",
|
|
"text/plain": [
|
|
"<Figure size 1008x288 with 2 Axes>"
|
|
]
|
|
},
|
|
"metadata": {
|
|
"needs_background": "light"
|
|
},
|
|
"output_type": "display_data"
|
|
}
|
|
],
|
|
"source": [
|
|
"# Make two cluster\n",
|
|
"blob_centers = np.array(\n",
|
|
" [[ 0.0, 0.0],\n",
|
|
" [ 2.0 , 2.0]\n",
|
|
" ])\n",
|
|
"blob_std = np.array([0.3, 0.5])\n",
|
|
"\n",
|
|
"X, y = make_blobs(n_samples=1000, centers=blob_centers,\n",
|
|
" cluster_std=blob_std, random_state=42)\n",
|
|
"\n",
|
|
"cluster_x1 = (y == 0)\n",
|
|
"cluster_x2 = (y == 1)\n",
|
|
"\n",
|
|
"X1 = X[cluster_x1]\n",
|
|
"X2 = X[cluster_x2]\n",
|
|
"\n",
|
|
"# Plot two cluster\n",
|
|
"def plot_clusters(X1, X2, y=None):\n",
|
|
" plt.scatter(X1[:, 0], X1[:, 1], s=15)\n",
|
|
" plt.scatter(X2[:, 0], X2[:, 1], s=15)\n",
|
|
" plt.xlabel(\"$x_1$\", fontsize=14)\n",
|
|
" plt.ylabel(\"$x_2$\", fontsize=14, rotation=0)\n",
|
|
"\n",
|
|
"# Bad linear models\n",
|
|
"x0 = np.linspace(0.0, 1.6, 200)\n",
|
|
"pred_1 = -2.2 * x0 + 2.8\n",
|
|
"x1 = np.linspace(-.2, 1.8, 200)\n",
|
|
"pred_2 = -.8 * x1 + 1.4\n",
|
|
"x2 = np.linspace(0.2, 1.2, 200)\n",
|
|
"pred_3 = -4 * x2 + 4.2\n",
|
|
" \n",
|
|
"# Linear SVM Classifier model\n",
|
|
"svm_clf = SVC(kernel=\"linear\", C=float(\"inf\"))\n",
|
|
"svm_clf.fit(X, y)\n",
|
|
" \n",
|
|
"fig, axes = plt.subplots(ncols=2, figsize=(14,4))\n",
|
|
"\n",
|
|
"plt.sca(axes[0])\n",
|
|
"plot_clusters(X1, X2)\n",
|
|
"plt.plot(x0, pred_1, \"g--\", linewidth=2)\n",
|
|
"plt.plot(x1, pred_2, \"m-\", linewidth=2)\n",
|
|
"plt.plot(x2, pred_3, \"r-\", linewidth=2)\n",
|
|
"\n",
|
|
"plt.sca(axes[1])\n",
|
|
"plot_clusters(X1, X2)\n",
|
|
"plot_svc_decision_boundary(svm_clf, 0, 1.7)\n",
|
|
"plt.show()"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"**Aufgabe 4.1:**\n",
|
|
"In dieser Übung experimentieren wir mit realen und künstlich generierten Datensätzen. Hierfür stehen einige frei verfügbare Datensätze aus unterschiedlichen Fachgebieten zur Verfügung. Passende Datensätze lassen sich unter den folgenden Quellen finden: \n",
|
|
"- [UC Irvine Machine Learning Repository](http://archive.ics.uci.edu/ml/)\n",
|
|
"- [Kaggle](https://www.kaggle.com/datasets)\n",
|
|
"- [Amazon AWS](http://aws.amazon.com/fr/datasets/)\n",
|
|
"\n",
|
|
"Laden Sie die im Notebook bereitgestellten Datensätze und bereiten Sie jeweils einen Trainings- und einen Testdatensatz vor. Verwenden Sie hierfür die Scikit-Learn Methode `train_test_split` und wählen Sie einen geeignete Aufteilung der Datenpunkte. \n",
|
|
"\n",
|
|
"Für dieses Lab verwenden wir die folgenden Datensätze: "
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"- **Iris:** Bei dem Iris-Datensatz handelt es sich um einen bekannten Datensatz, der die Länge und Breite der Kelchblätter (engl. sepal) und Kronblätter (petal) von 150 Iris-Blüten enthält und sich aus drei Unterarten zusammensetzt: Iris-Setosa, Iris-Versicolor und Iris-Virginica. Der Datensatz kann über das `sklearn`-Modul geladen werden."
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 4,
|
|
"metadata": {},
|
|
"outputs": [],
|
|
"source": [
|
|
"from sklearn.datasets import load_iris\n",
|
|
"\n",
|
|
"iris_dataset = load_iris()\n",
|
|
"X_iris = iris_dataset[\"data\"][:, (2, 3)] # petal length, petal width\n",
|
|
"y_iris = iris_dataset[\"target\"]"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"- **MNIST:** Der MNIST-Datensatz ist eine Sammlung von 70000 handschriftlichen Ziffern. Jedes Bild ist mit der dargestellten Ziffer gelabelt."
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 5,
|
|
"metadata": {},
|
|
"outputs": [],
|
|
"source": [
|
|
"from sklearn.datasets import fetch_openml\n",
|
|
"mnist = fetch_openml('mnist_784', version=1, cache=True)\n",
|
|
"\n",
|
|
"X_mnist = mnist[\"data\"]\n",
|
|
"y_mnist = mnist[\"target\"].astype(np.uint8)"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"- **Künstlich generierten Datensätze:** Die Datensätze werden mit Hilfe der Methoden `make_blobs` und `make_moon` generiert. "
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 6,
|
|
"metadata": {},
|
|
"outputs": [
|
|
{
|
|
"data": {
|
|
"image/png": "\n",
|
|
"text/plain": [
|
|
"<Figure size 432x288 with 1 Axes>"
|
|
]
|
|
},
|
|
"metadata": {
|
|
"needs_background": "light"
|
|
},
|
|
"output_type": "display_data"
|
|
}
|
|
],
|
|
"source": [
|
|
"from sklearn.datasets import make_blobs\n",
|
|
"\n",
|
|
"# XOR Blobs\n",
|
|
"blob_centers = np.array(\n",
|
|
" [[ 0.0, 0.0],\n",
|
|
" [ 1.0 , 0.0],\n",
|
|
" [ 0.0, 1.0],\n",
|
|
" [ 1.0, 1.0]\n",
|
|
" ])\n",
|
|
"blob_std = np.array([0.1, 0.1, 0.1, 0.1])\n",
|
|
"\n",
|
|
"X, y = make_blobs(n_samples=4000, centers=blob_centers,\n",
|
|
" cluster_std=blob_std, random_state=42)\n",
|
|
"\n",
|
|
"\n",
|
|
"cluster_x0 = (y == 0)\n",
|
|
"cluster_x1 = (y == 1)\n",
|
|
"cluster_x2 = (y == 2)\n",
|
|
"cluster_x3 = (y == 3)\n",
|
|
"\n",
|
|
"X1 = X[cluster_x0 | cluster_x3]\n",
|
|
"X2 = X[cluster_x1 | cluster_x2]\n",
|
|
"\n",
|
|
"# Plot two cluster\n",
|
|
"def plot_clusters(X1, X2, y=None):\n",
|
|
" plt.scatter(X1[:, 0], X1[:, 1], s=10)\n",
|
|
" plt.scatter(X2[:, 0], X2[:, 1], s=10)\n",
|
|
" plt.xlabel(\"$x_1$\", fontsize=14)\n",
|
|
" plt.ylabel(\"$x_2$\", fontsize=14, rotation=0)\n",
|
|
" \n",
|
|
"plot_clusters(X1, X2)\n",
|
|
"plt.show()\n",
|
|
"\n",
|
|
"y[(y == 0)] = 0\n",
|
|
"y[(y == 3)] = 0\n",
|
|
"y[(y == 1)] = 1\n",
|
|
"y[(y == 2)] = 1\n",
|
|
"\n",
|
|
"X_xor, y_xor = X, y"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"**Aufgabe 4.4:** In dieser Übung wird eine einfache lineare SVM trainiert und als linearer Klassifikator eingesetzt. Laden Sie hierfür einen geeigneten Datensatz und beantworten Sie anschließend mit Hilfe des Notebooks die folgenden Fragen. \n",
|
|
"\n",
|
|
"Für die SVM wird die von scikit-learn bereitgestellte Klasse SVC verwendet."
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"- **Aufgabe 4.4.1:** Setzen Sie die Klasse SVC auf verschiedene zweidimensionale, linear separierbare Datensätze Ihrer Wahl ein.\n",
|
|
"\n",
|
|
"Schauen Sie in das Beispiel am Anfang des Notebooks, wie die Klasse SVC einzusetzen ist, oder schauen Sie in die offizielle Dokumentation der Klasse."
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"metadata": {},
|
|
"outputs": [],
|
|
"source": []
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"- **Aufgabe 4.4.2:** Wie wirkt sich das Hinzufügen neuer Trainingsdaten abseits der Margin auf die Entscheidungsgrenze aus?"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"metadata": {},
|
|
"outputs": [],
|
|
"source": [
|
|
"# Code"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"- **Aufgabe 4.4.3:** In der scikit-learn SVM-Klasse können Sie das Verhalten über einen Hyperparameter $C$ steuern, der eine $l2$-Regularisierung hinzufügt.\n",
|
|
"Trainieren Sie den Datensatz Blob mit den Trainingsdaten, variieren Sie die $l2$-Regularisierung ($C$) und evaluieren Sie den Klassifikator anschließend. \n",
|
|
"Verwenden Sie zur Bewertung in Übung $2$ besprochene Metriken. "
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"metadata": {},
|
|
"outputs": [],
|
|
"source": [
|
|
"# Code"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"**Aufgabe 4.5:** Neben dem linearen SVM-Klassifikator, kann eine SVM auch auf nicht-linear separierbaren Datensätzen angewendet werden. \n",
|
|
"Dafür werden die vorhandenen Merkmale bzw. Daten in einen höherdimensionalen Merkmalsraum transformiert. Dies geschieht z.B. durch eine polynomielle Transformation."
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"- **Aufgabe 4.5.1:** Wählen Sie einen zweidimensionalen Datensatz, der nur nichtlinear separierbar ist (wie z.B. das XOR-Problem). Schreiben Sie eine Funktion für eine polynomielle Transformation 2. Ordnung.\tTransformieren Sie Ihre Daten mit dieser Funktion und trainieren Sie anschließend einen linearen SVM-Klassifikator (kernel=linear) auf den transformierten Daten. \n",
|
|
"Die folgende Gleichung zeigt die umzusetzende polynomielle Zuordnungsfunktion:\n",
|
|
"\\begin{equation*} \n",
|
|
" \\phi(\\mathbf{x}) = \n",
|
|
" \\phi\n",
|
|
"\t\\left(\n",
|
|
"\t\t\\begin{pmatrix}\n",
|
|
"\t\t\tx_1 \\\\\n",
|
|
"\t\t\tx_2 \n",
|
|
"\t\t\\end{pmatrix} \n",
|
|
"\t\\right)\n",
|
|
"\t =\n",
|
|
" \\begin{pmatrix}\n",
|
|
"\t\t x_1^2 \\\\\n",
|
|
"\t\t \\sqrt{2} \\cdot x_1 x_2 \\\\\n",
|
|
"\t\t x_2^2\n",
|
|
"\t \\end{pmatrix} \n",
|
|
"\\end{equation*}"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"metadata": {},
|
|
"outputs": [],
|
|
"source": [
|
|
"# Code"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"- **Aufgabe 4.5.2:** Die Klasse SVC bietet natürlich die Transformationen intern an. Dazu muss der Klasse der entsprechende Kernel (z.B. kernel=poly) auf das Moons Problem an und vergleichen Sie die Ergebnisse hinsichtlich der verwendeten Kernel (Polynomieller Kernel, Gaußsche RBF-Kernel). Versuchen Sie das Ergebnis durch Verändern von Hyperparametern zu optimieren. "
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"metadata": {},
|
|
"outputs": [],
|
|
"source": [
|
|
"# Code"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"- **Aufgabe 4.5.3:** Trainieren Sie einen SVM-Klassifikator auf dem MNIST-Datensatz. \n",
|
|
"Der MNIST-Datensatz beinhaltet multiple Klassen (verschiedene Ziffern). Prinzipiell eignet sich eine SVM nur als binärer Klassifikator. Um nun einen Mehrklassenklassifikator (multiclass) zu realisieren, gibt es verschiedene Strategien. \n",
|
|
"Zwei populäre Verfahren sind die *one-vs-all* und die *one-vs-one* Strategie, in der mehrere SVMs gleichzeitig trainiert werden. \n",
|
|
"\n",
|
|
"- Recherchieren Sie die Vorgehensweisen dieser beiden Strategien. Wie funktionieren diese? Gibt es Vor- und Nachteile?\n",
|
|
"- Implementieren Sie eine SVM mit der *one-vs-all* Strategie auf dem MNIST-Datensatz. \n",
|
|
"Was für eine Genauigkeit erreichen Sie?"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"metadata": {},
|
|
"outputs": [],
|
|
"source": [
|
|
"# Code"
|
|
]
|
|
}
|
|
],
|
|
"metadata": {
|
|
"kernelspec": {
|
|
"display_name": "Python 3",
|
|
"language": "python",
|
|
"name": "python3"
|
|
},
|
|
"language_info": {
|
|
"codemirror_mode": {
|
|
"name": "ipython",
|
|
"version": 3
|
|
},
|
|
"file_extension": ".py",
|
|
"mimetype": "text/x-python",
|
|
"name": "python",
|
|
"nbconvert_exporter": "python",
|
|
"pygments_lexer": "ipython3",
|
|
"version": "3.7.4"
|
|
}
|
|
},
|
|
"nbformat": 4,
|
|
"nbformat_minor": 2
|
|
}
|