Der Begriff "Maschinelles Lernen" ist in aller Munde!
Was ist auch dieses "Maschinelle Lernen (ML)"?
Lassen Sie uns ein praktisches Beispiel betrachten. Wenn Sie sich die Wahrscheinlichkeit des Ergebnisses einer Aufgabe vorstellen könnten, die Sie zum ersten Mal erledigen - sagen wir, es geht darum, Autofahren zu lernen. Das heißt, wie würden Sie sich selbst ein Feedback geben? Mit Unsicherheit?
Wie würden Sie sich andererseits für dieselbe Aufgabe nach ein paar Jahren der Übung selbst loben? Wahrscheinlich sollten Sie Ihre Denkweise von dem Parameter der Ungewissheit auf einen sichereren Parameter umstellen. Woher haben Sie auch Ihre Erfahrung mit dieser Aufgabe?
Höchstwahrscheinlich haben Sie Erfahrung gesammelt, indem Sie einige Parameter verändert haben, und Ihre Leistung hat sich verbessert. Richtig? Das ist maschinelles Lernen
Man sagt, ein Computerprogramm lernt aus der Erfahrung (E) mit bestimmten Aufgaben (T), um das beste Ergebnis (P) zu erzielen.
Genauso lernen Maschinen mit Hilfe einiger komplexer mathematischer Konzepte, und alle Daten haben für sie die Form von 0 und 1. Daher kodieren wir die Logik für unser Programm nicht, sondern wir wollen, dass die Maschine die Logik aus den Daten selbst herausfindet
Wenn Sie außerdem die Beziehung zwischen Erfahrung, Joblevel, seltenen Fähigkeiten und Gehalt herausfinden wollen, müssen Sie Algorithmen für maschinelles Lernen unterrichten

Gemäß dieser Fallstudie müssen Sie die Merkmale optimieren, um die Etiketten zu erhalten. Aber Sie codieren nicht den Algorithmus, sondern konzentrieren sich auf die Daten
Das Konzept lautet auch: Daten-Algorithmus = Einblicke. Zweitens sind die Algorithmen bereits für uns entwickelt worden, und wir müssen wissen, welchen Algorithmus wir zur Lösung unserer Probleme verwenden sollen. Werfen wir einen Blick auf das Regressionsproblem und den besten Weg, einen Algorithmus zu wählen
Der Überblick über maschinelles Lernen
Laut Andreybu, einem deutschen Wissenschaftler mit mehr als 5 Jahren Erfahrung im maschinellen Lernen, "ist die Wahl des richtigen Algorithmus ein Kinderspiel, wenn man versteht, ob es sich bei der Aufgabe des maschinellen Lernens um ein Regressions- oder ein Klassifikationsproblem handelt."

Der Hauptunterschied zwischen ihnen besteht darin, dass die Ausgangsvariable bei der Regression numerisch (oder kontinuierlich) ist, während sie bei der Klassifizierung kategorisch (oder diskret) ist.
Regression beim maschinellen Lernen
Zunächst einmal versuchen die Regressionsalgorithmen, die Abbildungsfunktion (f) von den Eingabevariablen (x) auf numerische oder kontinuierliche Ausgabevariablen (y) zu schätzen. Die Ausgangsvariable kann ein reeller Wert sein, der eine ganze Zahl oder ein Fließkommawert sein kann. Daher handelt es sich bei den Regressionsvorhersageproblemen in der Regel um Mengen oder Größen
Wenn Sie zum Beispiel einen Datensatz über Häuser erhalten und deren Preise vorhersagen sollen, handelt es sich um eine Regressionsaufgabe, da der Preis eine kontinuierliche Ausgabe ist.
Beispiele für gängige Regressionsalgorithmen sind lineare Regression, Support-Vektor-Regression (SVR) und Regressionsbäume
Klassifizierung beim maschinellen Lernen
Im Gegensatz dazu ist y bei Klassifizierungsalgorithmen eine Kategorie, die die Mapping-Funktion vorhersagt. Genauer gesagt, versucht ein Klassifizierungsmodell bei einer oder mehreren Eingabevariablen, den Wert einer oder mehrerer Schlussfolgerungen vorherzusagen.
Wenn Sie zum Beispiel einen Datensatz über Häuser erhalten, kann ein Klassifizierungsalgorithmus vorherzusagen versuchen, ob die Preise für die Häuser "mehr oder weniger als der empfohlene Verkaufspreis verkaufen" Hier die beiden diskreten Kategorien: über oder unter dem genannten Preis
Beispiele für gängige Klassifizierungsalgorithmen sind logistische Regression, Naïve Bayes, Entscheidungsbäume und K Nearest Neighbors
Die Auswahl der richtigen Algorithmen

Verstehen Sie Ihre Daten
- Werfen Sie einen Blick auf die zusammenfassenden Statistiken
- Verwenden Sie den Parameter 'Perzentil', um die Bereiche der Daten zu identifizieren.
- Durchschnittswerte und Mediane beschreiben die zentrale Tendenz
- Korrelationen können auf starke Beziehungen hinweisen
Visualisieren Sie die Daten
- Boxplots können auf Ausnahmen hinweisen.
- Dichte-Diagramme und Histogramme zeigen die Verteilung der Daten
- Streudiagramme können Mengenbeziehungen beschreiben
Bereinigen Sie die Daten

- Umgang mit einem fehlenden Wert. Das Ergebnis muss in diesem Fall empfindliche Ergebnisse liefern (fehlende Daten für bestimmte Variablen können zu ungenauen Vorhersagen führen)
- Obwohl Baummodelle weniger empfindlich auf das Vorhandensein von Ausreißern reagieren, sind regressive Modelle oder andere Modelle, die Gleichungen verwenden, empfindlicher gegenüber Ausreißern
- Grundsätzlich können Ausreißer das Ergebnis einer schlechten Datenerfassung sein, oder es kann sich um legitime Extremwerte handeln
Kuratieren Sie die Daten
Bei der Umwandlung der Rohdaten in aufbereitete Daten, die den Modellen entsprechen, müssen Sie außerdem auf Folgendes achten
- Machen Sie die Daten einfacher zu interpretieren.
- Erfassen Sie komplexere Daten.
- Konzentrieren Sie sich darauf, die Redundanz und Dimensionalität der Daten zu reduzieren.
- Normalisieren Sie die Variablenwerte.
Kategorisieren Sie das Problem durch die Eingabevariable
- Sie haben beschriftete Daten; es handelt sich um ein Problem des überwachten Lernens.
- Wenn Sie unmarkierte Daten haben und eine Struktur finden wollen, handelt es sich um ein Problem des unüberwachten Lernens.
- Wenn Sie eine Zielfunktion durch Interaktion mit einer Umgebung optimieren wollen, handelt es sich um ein Problem des Verstärktes Lernen.
Kategorisieren Sie das Problem durch die Output-Variable
- Die Ausgabe Ihres Modells ist eine Zahl; es handelt sich um ein Regressionsproblem.
- Wenn die Ausgabe Ihres Modells eine Klasse ist, dann handelt es sich um ein Klassifizierungsproblem.
- Die Ausgabe Ihres Modells ist ein Satz von Eingabegruppen; es handelt sich um ein Clustering-Problem.
Der Einschränkungsfaktor
- Achten Sie auf die Speicherkapazität, die bei verschiedenen Modellen unterschiedlich ist.
- Muss die Vorhersage schnell sein? In Echtzeitszenarien wie der Klassifizierung von Straßenschildern sollte sie so schnell wie möglich sein, um Unfälle zu vermeiden.
Zum Schluss: Finden Sie den Algorithmus

Jetzt, da Sie ein klares Bild von Ihren Daten haben, können Sie die richtigen Werkzeuge einsetzen, um den richtigen Algorithmus zu wählen
Damit Sie eine bessere Entscheidung treffen können, haben wir hier eine Checkliste der Faktoren für Sie zusammengestellt
- Prüfen Sie, ob das Modell mit Ihrem Geschäftsziel übereinstimmt
- Wie viel Vorverarbeitung das Modell benötigt
- Prüfen Sie die Genauigkeit des Modells
- Wie aussagekräftig das Modell ist
- Wie schnell das Modell ist: Wie lange dauert es, ein Modell zu erstellen, und wie lange braucht das Modell, um Vorhersagen zu treffen
- Die Skalierbarkeit des Modells
Außerdem muss man bei der Auswahl auf die Komplexität des Algorithmus achten
Im Allgemeinen können Sie die Komplexität des Modells anhand der Parameter messen
- Wenn es zwei oder mehr als zehn Merkmale benötigt, um das Ziel zu lernen und vorherzusagen
- Wenn es auf einer komplexeren Merkmalstechnik beruht (z.B. Verwendung von polynomialen Termen, Interaktionen oder Hauptkomponenten)
- Wenn das Szenario einen höheren Rechenaufwand erfordert (z.B. ein einzelner Entscheidungsbaum im Vergleich zu einem Zufallsbaum mit 100 Bäumen)
Außerdem kann derselbe Algorithmus auch manuell komplexer gestaltet werden. Das hängt allein von der Anzahl der Parameter und dem betrachteten Szenario ab. Sie könnten zum Beispiel ein Regressionsmodell mit mehr Merkmalen oder polynomialen Termen und Interaktionstermini entwerfen. Oder Sie könnten einen Entscheidungsbaum mit weniger Tiefe entwerfen
Die gängigen Algorithmen für maschinelles Lernen
Lineare Regression
Dies sind wahrscheinlich die einfachsten Algorithmen
Einige Beispiele, bei denen die lineare Regression verwendet wird, sind
- Erstens, wenn es Zeit ist, von einem Ort zum anderen zu gehen
- Vorhersage der Verkaufszahlen eines bestimmten Produkts im nächsten Monat
- Auswirkung des Blutalkoholgehalts auf die Koordination
- Vorhersage der monatlichen Geschenkkartenverkäufe und Verbesserung der jährlichen Umsatzprognosen
Logistische Regression
Offensichtlich bietet dieser Algorithmus viele Vorteile - Integration weiterer Funktionen mit einer schönen Interpretationsmöglichkeit, einfache Aktualisierungsmöglichkeit zur Aufnahme neuer Daten
Anders ausgedrückt, Sie könnten ihn für Folgendes verwenden
- Vorhersage der Kundenabwanderung.
- Der besondere Fall der Kreditwürdigkeitsprüfung oder Betrugserkennung.
- Messung der Wirksamkeit von Marketingkampagnen.
Entscheidungsbäume
Offensichtlich werden einzelne Bäume nur selten verwendet, aber in Kombination mit vielen anderen bilden sie effiziente Algorithmen wie den Random Forest oder Gradient Tree Boosting. Einer der Nachteile ist jedoch, dass sie kein Online-Lernen unterstützen, so dass Sie Ihren Baum neu aufbauen müssen, wenn neue Beispiele hinzukommen
Bäume sind hervorragend geeignet für
- Investitionsentscheidungen
- Schuldner von Bankkrediten
- Qualifizierung von Vertriebsleads
Naive Bayes
Naive Bayes ist vor allem dann die richtige Wahl, wenn CPU- und Speicherressourcen ein begrenzender Faktor sind. Sein größter Nachteil ist jedoch, dass es keine Wechselwirkungen zwischen den Merkmalen lernen kann
Es kann verwendet werden für
- Erkennung von Gesichtern
- Um eine E-Mail als Spam zu markieren oder nicht.
- Sentiment-Analyse und Textklassifizierung.
Fazit
In einem Echtzeit-Szenario ist es auch im Allgemeinen etwas schwierig, den richtigen Algorithmus für maschinelles Lernen zu finden. Sie können jedoch diese Checkliste verwenden, um einige Algorithmen in die engere Wahl zu nehmen
Außerdem erfordert die Wahl der richtigen Lösung für ein reales Problem neben dem richtigen Algorithmus auch ein fundiertes Geschäftsverständnis. Bringen Sie auch Ihre Daten den richtigen Algorithmen bei, lassen Sie sie alle entweder parallel oder seriell laufen und bewerten Sie am Ende die Leistung der Algorithmen, um die besten auszuwählen.
Wenn Sie sich auf Deep Learning spezialisieren möchten, dann sollten Sie sich diesen Kurs über Deep Learning ansehen.