Geekflare wird von unserem Publikum unterstützt. Wir können Affiliate-Provisionen durch den Kauf von Links auf dieser Website verdienen.
Teilen:

Wie wähle ich ML-Algorithmen für Regressionsprobleme?

Maschinelles Lernen
Invicti Web Application Security Scanner – die einzige Lösung, die eine automatische Verifizierung von Schwachstellen mit Proof-Based Scanning™ bietet.

Es gibt überall diese Begeisterung - Maschinelles Lernen!

Also, was ist das "Maschinelles Lernen (ML)"?

Betrachten wir ein praktisches Beispiel. Wenn Sie sich vorstellen können, wie wahrscheinlich es ist, dass eine Aufgabe zum ersten Mal erledigt wird - Nehmen wir an, es geht darum, das Autofahren zu lernen. Das heißt, wie würden Sie sich selbst Feedback geben? Mit Unsicherheit?

Auf der anderen Seite, wie möchten Sie sich nach ein paar Jahren Übung für dieselbe Aufgabe tätscheln? Wahrscheinlich hätten Sie Ihre Denkweise vom Unsicherheitsparameter oder einem sichereren Parameter geändert. Wie haben Sie dieses Fachwissen für diese Aufgabe erhalten?

Höchstwahrscheinlich haben Sie Erfahrung mit der Optimierung einiger Parameter gesammelt und Ihre Leistung verbessert. Richtig? Das ist Maschinelles lernen.

Ein Computerprogramm soll aus der Erfahrung (E) bei einigen Aufgaben (T) lernen, um das Ergebnis mit der besten Leistung (P) zu erzielen.

Ebenso lernen Maschinen durch einige komplexe mathematische Konzepte, und alle Daten für sie haben die Form 0 und 1. Daher codieren wir die Logik für unser Programm nicht. Stattdessen möchten wir, dass eine Maschine die Logik aus den Daten selbst herausfindet.

Wenn Sie außerdem den Zusammenhang zwischen Erfahrung, Berufsniveau, seltenen Fähigkeiten und Gehalt ermitteln möchten, müssen Sie Algorithmen für maschinelles Lernen unterrichten.

Komplexer Datensatz mit mehr Funktionen
Komplexer Datensatz mit mehr Funktionen

Gemäß dieser Fallstudie müssen Sie die Funktionen optimieren, um die Beschriftungen zu erhalten. Sie codieren den Algorithmus jedoch nicht und sollten sich auf die Daten konzentrieren.

Daher ist das Konzept Daten + Algorithmus = Einblicke. Zweitens sind bereits Algorithmen für uns entwickelt worden, und wir müssen wissen, welchen Algorithmus wir zur Lösung unserer Probleme verwenden sollen. Werfen wir einen Blick auf das Regressionsproblem und den besten Weg, einen Algorithmus auszuwählen.

The Machine Learning Overview

Laut Andrejbu, ein deutscher Wissenschaftler mit mehr als 5 Jahren Erfahrung im maschinellen Lernen: „Wenn Sie verstehen, ob es sich bei der maschinellen Lernaufgabe um ein Regressions- oder Klassifizierungsproblem handelt, ist die Auswahl des richtigen Algorithmus ein Kinderspiel.“

die verschiedenen Gruppierungen des maschinellen Lernens
Die verschiedenen Gruppierungen des maschinellen Lernens

Der Hauptunterschied zwischen ihnen besteht darin, dass die Ausgabevariable in der Regression numerisch (oder kontinuierlich) ist, während die für die Klassifizierung kategorisch (oder diskret) ist.

Regression beim maschinellen Lernen

Zunächst versuchen die Regressionsalgorithmen, die Abbildungsfunktion (f) von den Eingangsvariablen (x) auf numerische oder kontinuierliche Ausgangsvariablen (y) zu schätzen. Die Ausgabevariable kann nun ein reeller Wert sein, der eine Ganzzahl oder ein Gleitkommawert sein kann. Daher sind die Regressionsvorhersageprobleme normalerweise Größen oder Größen.

Wenn Sie beispielsweise einen Datensatz über Häuser erhalten und aufgefordert werden, deren Preise vorherzusagen, ist dies eine Regressionsaufgabe, da der Preis eine kontinuierliche Ausgabe ist.

Beispiele für die gängigen Regressionsalgorithmen umfassen die lineare Regression, Unterstützungsvektorregression (SVR)und Regressionsbäume.

Klassifizierung im maschinellen Lernen

Im Gegensatz dazu ist y im Fall von Klassifizierungsalgorithmen eine Kategorie, die die Abbildungsfunktion vorhersagt. Um für einzelne oder mehrere Eingabevariablen zu arbeiten, versucht ein Klassifizierungsmodell, den Wert einer einzelnen oder mehrerer Schlussfolgerungen vorherzusagen.

Wenn Sie beispielsweise einen Datensatz über Häuser erhalten, kann ein Klassifizierungsalgorithmus versuchen, vorherzusagen, ob die Preise für die Häuser „mehr oder weniger als den empfohlenen Einzelhandelspreis verkaufen“. Hier die beiden diskreten Kategorien: über oder unter dem genannten Preis.

Beispiele für die gängigen Klassifizierungsalgorithmen sind logistische Regression, Naive Bayes, Entscheidungsbäume und K Nearest Neighbors.

Choosing the Right Algorithms

Richtige ML-Bewertung
Das akribische Data Digging für die richtige ML-Auswertung

Verstehen Sie Ihre Daten

  • Schauen Sie sich die zusammenfassende Statistik an
  • Verwenden Sie den Parameter 'Percentile', um die Bereiche der Daten zu identifizieren
  • Mittelwerte und Mediane beschreiben die zentrale Tendenz
  • Korrelationen können auf starke Beziehungen hinweisen

Visualisieren Sie die Daten

  • Box-Plots können Ausnahmen anzeigen.
  • Dichtediagramme und Histogramme zeigen die Datenverteilung
  • Streudiagramme können Mengenverhältnisse beschreiben

Bereinigen Sie die Daten

Die fehlenden Teile herausfinden
Herausfinden der fehlenden Teile - Priorität auf der To-Do-Liste, um den richtigen ML-Algorithmus zu finden
  • Beschäftige dich mit einem fehlenden Wert. Das Ergebnis wird in diesem Fall zu sensiblen Ergebnissen geführt (fehlende Daten für bestimmte Variablen können zu ungenauen Vorhersagen führen).
  • Obwohl Baummodelle weniger empfindlich auf Ausreißer reagieren, reagieren regressive Modelle oder andere Modelle, die Gleichungen verwenden, empfindlicher auf Ausnahmen
  • Grundsätzlich können Ausreißer das Ergebnis einer schlechten Datenerfassung sein oder legitime Extremwerte

Kuratieren Sie die Daten

Darüber hinaus muss beim Konvertieren der Rohdaten in polierte Daten, die den Modellen entsprechen, Folgendes beachtet werden:

  • Erleichtern Sie die Interpretation der Daten.
  • Erfassen Sie komplexere Daten.
  • Konzentrieren Sie sich auf die Reduzierung von Datenredundanz und Dimensionalität.
  • Normalisieren Sie die Variablenwerte.

Kategorisieren Sie das Problem anhand der Eingabevariablen

  • Sie haben Daten gekennzeichnet. Es ist ein überwachtes Lernproblem.
  • Wenn Sie unbeschriftete Daten haben und eine Struktur finden möchten, handelt es sich um ein unbeaufsichtigtes Lernproblem.
  • Falls Sie eine objektive Funktion durch Interaktion mit einer Umgebung optimieren möchten, ist es a Verstärkung lernen Problem.

Kategorisieren Sie das Problem anhand der Ausgabevariablen

  • Die Ausgabe Ihres Modells ist eine Zahl. Es ist ein Regressionsproblem.
  • Wenn die Ausgabe Ihres Modells eine Klasse ist, liegt ein Klassifizierungsproblem vor.
  • Die Ausgabe Ihres Modells besteht aus einer Reihe von Eingabegruppen. Es ist ein Clustering-Problem.

Der Einschränkungsfaktor

  • Beachten Sie die Speicherkapazität, da diese für verschiedene Modelle unterschiedlich ist.
  • Muss die Vorhersage schnell sein? Zum Beispiel in Echtzeitszenarien wie der Klassifizierung von Verkehrszeichen so schnell wie möglich sein, um Unfälle zu vermeiden.

Schließlich finden Sie den Algorithmus

Die logische Methode
Die logische Methode: Befolgen Sie die Anweisungen

Nachdem Sie ein klares Bild Ihrer Daten haben, können Sie geeignete Tools implementieren, um den richtigen Algorithmus auszuwählen.

In der Zwischenzeit finden Sie zur besseren Entscheidung eine Checkliste der Faktoren für Sie:

  • Überprüfen Sie, ob das Modell Ihrem Geschäftsziel entspricht
  • Wie viel Vorverarbeitung das Modell erfordert
  • Überprüfen Sie die Genauigkeit des Modells
  • Wie erklärbar das Modell ist
  • Wie schnell das Modell ist: Wie lange dauert es, ein Modell zu erstellen, und wie lange dauert es, bis das Modell Vorhersagen trifft
  • Die Skalierbarkeit des Modells

Um dies zu ergänzen, muss man bei der Auswahl auf die Komplexität des Algorithmus achten.

Im Allgemeinen können Sie die Komplexität des Modells anhand der folgenden Parameter messen:

  • Wenn zwei oder mehr als zehn Funktionen erforderlich sind, um das Ziel zu lernen und vorherzusagen
  • Es basiert auf komplexerem Feature-Engineering (z. B. unter Verwendung von Polynomausdrücken, Interaktionen oder Hauptkomponenten).
  • Wenn das Szenario mehr Rechenaufwand hat (z. B. ein einzelner Entscheidungsbaum im Vergleich zu einer zufälligen Gesamtstruktur von 100 Bäumen)

Außerdem kann der gleiche Algorithmus manuell komplexer gemacht werden. Dies hängt ausschließlich von der Anzahl der Parameter und dem betrachteten Szenario ab. Sie können beispielsweise ein Regressionsmodell mit mehr Features oder Polynom- und Interaktionstermen entwerfen. Oder Sie können einen Entscheidungsbaum mit geringerer Tiefe entwerfen.

The Common Machine Learning Algorithms

Lineare Regression

Dies sind wahrscheinlich die einfachsten.
Einige der Beispiele, bei denen lineare Regression verwendet wird, sind:

  • Erstens, wenn es Zeit ist, von einem Ort zum anderen zu gehen
  • Vorhersage des Umsatzes eines bestimmten Produkts im nächsten Monat
  • Einfluss des Blutalkoholgehalts auf die Koordination
  • Prognostizieren Sie monatliche Geschenkkartenverkäufe und verbessern Sie die jährlichen Umsatzprognosen

Logistische Regression

Anscheinend bietet dieser Algorithmus viele Vorteile: Integration weiterer Funktionen mit einer netten Interpretationsfunktion, einfache Aktualisierungsfunktion zum Anhängen neuer Daten.

Anders ausgedrückt, Sie können dies verwenden für:

  • Vorhersage der Kundenabwanderung.
  • Der besondere Fall der Kreditbewertung oder Betrugserkennung.
  • Messung der Wirksamkeit von Marketingkampagnen.

Entscheidungsbäume

Anscheinend werden einzelne Bäume selten verwendet, aber in der Zusammensetzung bilden sie zusammen mit vielen anderen effiziente Algorithmen wie Random Forest oder Gradient Tree Boosting. Einer der Nachteile ist jedoch, dass sie das Online-Lernen nicht unterstützen. Sie müssen Ihren Baum also neu erstellen, wenn neue Beispiele auftauchen.

Bäume eignen sich hervorragend für:

  • Investitionsentscheidungen
  • Bankkreditausfälle
  • Sales Lead Qualifikationen

Naive Bayes

Vor allem ist Naive Bayes die richtige Wahl, wenn CPU- und Speicherressourcen ein begrenzender Faktor sind. Der Hauptnachteil besteht jedoch darin, dass es keine Interaktionen zwischen Features lernen kann.

Es kann verwendet werden für:

  • Gesichtserkennung
  • Um eine E-Mail als Spam zu markieren oder nicht.
  • Stimmungsanalyse und Textklassifizierung.

Conclusion

Daher ist es in einem Echtzeitszenario im Allgemeinen etwas schwierig, den richtigen Algorithmus für maschinelles Lernen für diesen Zweck zu finden. Sie können diese Checkliste jedoch verwenden, um nach Belieben einige Algorithmen in die engere Wahl zu ziehen.

Darüber hinaus erfordert die Entscheidung für die richtige Lösung eines realen Problems ein fachkundiges Geschäftsverständnis sowie den richtigen Algorithmus. Bringen Sie Ihren Daten die richtigen Algorithmen bei, führen Sie sie entweder parallel oder seriell aus und bewerten Sie am Ende die Leistung der Algorithmen, um die besten auszuwählen.

Wenn Sie sich auf Deep Learning spezialisieren möchten, können Sie dies ausprobieren Dieser Kurs durch tiefes Lernen.

Danke an unsere Sponsoren
Weitere großartige Lektüre zu KI
Treiben Sie Ihr Geschäft an
Einige der Tools und Dienste, die Ihr Unternehmen beim Wachstum unterstützen.
  • Invicti verwendet das Proof-Based Scanning™, um die identifizierten Schwachstellen automatisch zu verifizieren und innerhalb weniger Stunden umsetzbare Ergebnisse zu generieren.
    Versuchen Sie es mit Invicti
  • Web-Scraping, Wohn-Proxy, Proxy-Manager, Web-Unlocker, Suchmaschinen-Crawler und alles, was Sie zum Sammeln von Webdaten benötigen.
    Versuchen Sie es mit Brightdata
  • Semrush ist eine All-in-One-Lösung für digitales Marketing mit mehr als 50 Tools in den Bereichen SEO, Social Media und Content-Marketing.
    Versuchen Sie es mit Semrush
  • Intruder ist ein Online-Schwachstellenscanner, der Cyber-Sicherheitslücken in Ihrer Infrastruktur findet, um kostspielige Datenschutzverletzungen zu vermeiden.
    MIT DER INTELLIGENTEN SCHADENKALKULATION VON Intruder