Es gibt überall diese Begeisterung - Maschinelles Lernen!
Also, was ist das "Maschinelles Lernen (ML)"?
Betrachten wir ein praktisches Beispiel. Wenn Sie sich vorstellen können, wie wahrscheinlich es ist, dass eine Aufgabe zum ersten Mal erledigt wird - Nehmen wir an, es geht darum, das Autofahren zu lernen. Das heißt, wie würden Sie sich selbst Feedback geben? Mit Unsicherheit?
Auf der anderen Seite, wie möchten Sie sich nach ein paar Jahren Übung für dieselbe Aufgabe tätscheln? Wahrscheinlich hätten Sie Ihre Denkweise vom Unsicherheitsparameter oder einem sichereren Parameter geändert. Wie haben Sie dieses Fachwissen für diese Aufgabe erhalten?
Höchstwahrscheinlich haben Sie Erfahrung mit der Optimierung einiger Parameter gesammelt und Ihre Leistung verbessert. Richtig? Das ist Maschinelles lernen.
Ein Computerprogramm soll aus der Erfahrung (E) bei einigen Aufgaben (T) lernen, um das Ergebnis mit der besten Leistung (P) zu erzielen.
Ebenso lernen Maschinen durch einige komplexe mathematische Konzepte, und alle Daten für sie haben die Form 0 und 1. Daher codieren wir die Logik für unser Programm nicht. Stattdessen möchten wir, dass eine Maschine die Logik aus den Daten selbst herausfindet.
Wenn Sie außerdem den Zusammenhang zwischen Erfahrung, Berufsniveau, seltenen Fähigkeiten und Gehalt ermitteln möchten, müssen Sie Algorithmen für maschinelles Lernen unterrichten.

Gemäß dieser Fallstudie müssen Sie die Funktionen optimieren, um die Beschriftungen zu erhalten. Sie codieren den Algorithmus jedoch nicht und sollten sich auf die Daten konzentrieren.
Daher ist das Konzept Daten + Algorithmus = Einblicke. Zweitens sind bereits Algorithmen für uns entwickelt worden, und wir müssen wissen, welchen Algorithmus wir zur Lösung unserer Probleme verwenden sollen. Werfen wir einen Blick auf das Regressionsproblem und den besten Weg, einen Algorithmus auszuwählen.
The Machine Learning Overview
Laut Andrejbu, ein deutscher Wissenschaftler mit mehr als 5 Jahren Erfahrung im maschinellen Lernen: „Wenn Sie verstehen, ob es sich bei der maschinellen Lernaufgabe um ein Regressions- oder Klassifizierungsproblem handelt, ist die Auswahl des richtigen Algorithmus ein Kinderspiel.“

Der Hauptunterschied zwischen ihnen besteht darin, dass die Ausgabevariable in der Regression numerisch (oder kontinuierlich) ist, während die für die Klassifizierung kategorisch (oder diskret) ist.
Regression beim maschinellen Lernen
Zunächst versuchen die Regressionsalgorithmen, die Abbildungsfunktion (f) von den Eingangsvariablen (x) auf numerische oder kontinuierliche Ausgangsvariablen (y) zu schätzen. Die Ausgabevariable kann nun ein reeller Wert sein, der eine Ganzzahl oder ein Gleitkommawert sein kann. Daher sind die Regressionsvorhersageprobleme normalerweise Größen oder Größen.
Wenn Sie beispielsweise einen Datensatz über Häuser erhalten und aufgefordert werden, deren Preise vorherzusagen, ist dies eine Regressionsaufgabe, da der Preis eine kontinuierliche Ausgabe ist.
Beispiele für die gängigen Regressionsalgorithmen umfassen die lineare Regression, Unterstützungsvektorregression (SVR)und Regressionsbäume.
Klassifizierung im maschinellen Lernen
Im Gegensatz dazu ist y im Fall von Klassifizierungsalgorithmen eine Kategorie, die die Abbildungsfunktion vorhersagt. Um für einzelne oder mehrere Eingabevariablen zu arbeiten, versucht ein Klassifizierungsmodell, den Wert einer einzelnen oder mehrerer Schlussfolgerungen vorherzusagen.
Wenn Sie beispielsweise einen Datensatz über Häuser erhalten, kann ein Klassifizierungsalgorithmus versuchen, vorherzusagen, ob die Preise für die Häuser „mehr oder weniger als den empfohlenen Einzelhandelspreis verkaufen“. Hier die beiden diskreten Kategorien: über oder unter dem genannten Preis.
Beispiele für die gängigen Klassifizierungsalgorithmen sind logistische Regression, Naive Bayes, Entscheidungsbäume und K Nearest Neighbors.
Choosing the Right Algorithms

Verstehen Sie Ihre Daten
- Schauen Sie sich die zusammenfassende Statistik an
- Verwenden Sie den Parameter 'Percentile', um die Bereiche der Daten zu identifizieren
- Mittelwerte und Mediane beschreiben die zentrale Tendenz
- Korrelationen können auf starke Beziehungen hinweisen
Visualisieren Sie die Daten
- Box-Plots können Ausnahmen anzeigen.
- Dichtediagramme und Histogramme zeigen die Datenverteilung
- Streudiagramme können Mengenverhältnisse beschreiben
Bereinigen Sie die Daten

- Beschäftige dich mit einem fehlenden Wert. Das Ergebnis wird in diesem Fall zu sensiblen Ergebnissen geführt (fehlende Daten für bestimmte Variablen können zu ungenauen Vorhersagen führen).
- Obwohl Baummodelle weniger empfindlich auf Ausreißer reagieren, reagieren regressive Modelle oder andere Modelle, die Gleichungen verwenden, empfindlicher auf Ausnahmen
- Grundsätzlich können Ausreißer das Ergebnis einer schlechten Datenerfassung sein oder legitime Extremwerte
Kuratieren Sie die Daten
Darüber hinaus muss beim Konvertieren der Rohdaten in polierte Daten, die den Modellen entsprechen, Folgendes beachtet werden:
- Erleichtern Sie die Interpretation der Daten.
- Erfassen Sie komplexere Daten.
- Konzentrieren Sie sich auf die Reduzierung von Datenredundanz und Dimensionalität.
- Normalisieren Sie die Variablenwerte.
Kategorisieren Sie das Problem anhand der Eingabevariablen
- Sie haben Daten gekennzeichnet. Es ist ein überwachtes Lernproblem.
- Wenn Sie unbeschriftete Daten haben und eine Struktur finden möchten, handelt es sich um ein unbeaufsichtigtes Lernproblem.
- Falls Sie eine objektive Funktion durch Interaktion mit einer Umgebung optimieren möchten, ist es a Verstärkung lernen Problem.
Kategorisieren Sie das Problem anhand der Ausgabevariablen
- Die Ausgabe Ihres Modells ist eine Zahl. Es ist ein Regressionsproblem.
- Wenn die Ausgabe Ihres Modells eine Klasse ist, liegt ein Klassifizierungsproblem vor.
- Die Ausgabe Ihres Modells besteht aus einer Reihe von Eingabegruppen. Es ist ein Clustering-Problem.
Der Einschränkungsfaktor
- Beachten Sie die Speicherkapazität, da diese für verschiedene Modelle unterschiedlich ist.
- Muss die Vorhersage schnell sein? Zum Beispiel in Echtzeitszenarien wie der Klassifizierung von Verkehrszeichen so schnell wie möglich sein, um Unfälle zu vermeiden.
Schließlich finden Sie den Algorithmus

Nachdem Sie ein klares Bild Ihrer Daten haben, können Sie geeignete Tools implementieren, um den richtigen Algorithmus auszuwählen.
In der Zwischenzeit finden Sie zur besseren Entscheidung eine Checkliste der Faktoren für Sie:
- Überprüfen Sie, ob das Modell Ihrem Geschäftsziel entspricht
- Wie viel Vorverarbeitung das Modell erfordert
- Überprüfen Sie die Genauigkeit des Modells
- Wie erklärbar das Modell ist
- Wie schnell das Modell ist: Wie lange dauert es, ein Modell zu erstellen, und wie lange dauert es, bis das Modell Vorhersagen trifft
- Die Skalierbarkeit des Modells
Um dies zu ergänzen, muss man bei der Auswahl auf die Komplexität des Algorithmus achten.
Im Allgemeinen können Sie die Komplexität des Modells anhand der folgenden Parameter messen:
- Wenn zwei oder mehr als zehn Funktionen erforderlich sind, um das Ziel zu lernen und vorherzusagen
- Es basiert auf komplexerem Feature-Engineering (z. B. unter Verwendung von Polynomausdrücken, Interaktionen oder Hauptkomponenten).
- Wenn das Szenario mehr Rechenaufwand hat (z. B. ein einzelner Entscheidungsbaum im Vergleich zu einer zufälligen Gesamtstruktur von 100 Bäumen)
Außerdem kann der gleiche Algorithmus manuell komplexer gemacht werden. Dies hängt ausschließlich von der Anzahl der Parameter und dem betrachteten Szenario ab. Sie können beispielsweise ein Regressionsmodell mit mehr Features oder Polynom- und Interaktionstermen entwerfen. Oder Sie können einen Entscheidungsbaum mit geringerer Tiefe entwerfen.
The Common Machine Learning Algorithms
Lineare Regression
Dies sind wahrscheinlich die einfachsten.
Einige der Beispiele, bei denen lineare Regression verwendet wird, sind:
- Erstens, wenn es Zeit ist, von einem Ort zum anderen zu gehen
- Vorhersage des Umsatzes eines bestimmten Produkts im nächsten Monat
- Einfluss des Blutalkoholgehalts auf die Koordination
- Prognostizieren Sie monatliche Geschenkkartenverkäufe und verbessern Sie die jährlichen Umsatzprognosen
Logistische Regression
Anscheinend bietet dieser Algorithmus viele Vorteile: Integration weiterer Funktionen mit einer netten Interpretationsfunktion, einfache Aktualisierungsfunktion zum Anhängen neuer Daten.
Anders ausgedrückt, Sie können dies verwenden für:
- Vorhersage der Kundenabwanderung.
- Der besondere Fall der Kreditbewertung oder Betrugserkennung.
- Messung der Wirksamkeit von Marketingkampagnen.
Entscheidungsbäume
Anscheinend werden einzelne Bäume selten verwendet, aber in der Zusammensetzung bilden sie zusammen mit vielen anderen effiziente Algorithmen wie Random Forest oder Gradient Tree Boosting. Einer der Nachteile ist jedoch, dass sie das Online-Lernen nicht unterstützen. Sie müssen Ihren Baum also neu erstellen, wenn neue Beispiele auftauchen.
Bäume eignen sich hervorragend für:
- Investitionsentscheidungen
- Bankkreditausfälle
- Sales Lead Qualifikationen
Naive Bayes
Vor allem ist Naive Bayes die richtige Wahl, wenn CPU- und Speicherressourcen ein begrenzender Faktor sind. Der Hauptnachteil besteht jedoch darin, dass es keine Interaktionen zwischen Features lernen kann.
Es kann verwendet werden für:
- Gesichtserkennung
- Um eine E-Mail als Spam zu markieren oder nicht.
- Stimmungsanalyse und Textklassifizierung.
Conclusion
Daher ist es in einem Echtzeitszenario im Allgemeinen etwas schwierig, den richtigen Algorithmus für maschinelles Lernen für diesen Zweck zu finden. Sie können diese Checkliste jedoch verwenden, um nach Belieben einige Algorithmen in die engere Wahl zu ziehen.
Darüber hinaus erfordert die Entscheidung für die richtige Lösung eines realen Problems ein fachkundiges Geschäftsverständnis sowie den richtigen Algorithmus. Bringen Sie Ihren Daten die richtigen Algorithmen bei, führen Sie sie entweder parallel oder seriell aus und bewerten Sie am Ende die Leistung der Algorithmen, um die besten auszuwählen.
Wenn Sie sich auf Deep Learning spezialisieren möchten, können Sie dies ausprobieren Dieser Kurs durch tiefes Lernen.