Geekflare wird von unserem Publikum unterstützt. Es kann sein, dass wir durch den Kauf von Links auf dieser Seite Affiliate-Provisionen verdienen.
Unter AI Zuletzt aktualisiert: September 24, 2023
Weitergeben:
Invicti Web Application Security Scanner - die einzige Lösung, die eine automatische Überprüfung von Schwachstellen mit Proof-Based Scanning™ ermöglicht.

Der Begriff "Maschinelles Lernen" ist in aller Munde!

Was ist auch dieses "Maschinelle Lernen (ML)"?

Lassen Sie uns ein praktisches Beispiel betrachten. Wenn Sie sich die Wahrscheinlichkeit des Ergebnisses einer Aufgabe vorstellen könnten, die Sie zum ersten Mal erledigen - sagen wir, es geht darum, Autofahren zu lernen. Das heißt, wie würden Sie sich selbst ein Feedback geben? Mit Unsicherheit?

Wie würden Sie sich andererseits für dieselbe Aufgabe nach ein paar Jahren der Übung selbst loben? Wahrscheinlich sollten Sie Ihre Denkweise von dem Parameter der Ungewissheit auf einen sichereren Parameter umstellen. Woher haben Sie auch Ihre Erfahrung mit dieser Aufgabe?

Höchstwahrscheinlich haben Sie Erfahrung gesammelt, indem Sie einige Parameter verändert haben, und Ihre Leistung hat sich verbessert. Richtig? Das ist maschinelles Lernen

Man sagt, ein Computerprogramm lernt aus der Erfahrung (E) mit bestimmten Aufgaben (T), um das beste Ergebnis (P) zu erzielen.

Genauso lernen Maschinen mit Hilfe einiger komplexer mathematischer Konzepte, und alle Daten haben für sie die Form von 0 und 1. Daher kodieren wir die Logik für unser Programm nicht, sondern wir wollen, dass die Maschine die Logik aus den Daten selbst herausfindet

Wenn Sie außerdem die Beziehung zwischen Erfahrung, Joblevel, seltenen Fähigkeiten und Gehalt herausfinden wollen, müssen Sie Algorithmen für maschinelles Lernen unterrichten

Komplexer Datensatz mit mehr Merkmalen
Komplexer Datensatz mit mehr Merkmalen

Gemäß dieser Fallstudie müssen Sie die Merkmale optimieren, um die Etiketten zu erhalten. Aber Sie codieren nicht den Algorithmus, sondern konzentrieren sich auf die Daten

Das Konzept lautet auch: Daten-Algorithmus = Einblicke. Zweitens sind die Algorithmen bereits für uns entwickelt worden, und wir müssen wissen, welchen Algorithmus wir zur Lösung unserer Probleme verwenden sollen. Werfen wir einen Blick auf das Regressionsproblem und den besten Weg, einen Algorithmus zu wählen

Der Überblick über maschinelles Lernen

Laut Andreybu, einem deutschen Wissenschaftler mit mehr als 5 Jahren Erfahrung im maschinellen Lernen, "ist die Wahl des richtigen Algorithmus ein Kinderspiel, wenn man versteht, ob es sich bei der Aufgabe des maschinellen Lernens um ein Regressions- oder ein Klassifikationsproblem handelt."

die verschiedenen Gruppierungen des maschinellen Lernens
Die verschiedenen Gruppierungen des maschinellen Lernens

Der Hauptunterschied zwischen ihnen besteht darin, dass die Ausgangsvariable bei der Regression numerisch (oder kontinuierlich) ist, während sie bei der Klassifizierung kategorisch (oder diskret) ist.

Regression beim maschinellen Lernen

Zunächst einmal versuchen die Regressionsalgorithmen, die Abbildungsfunktion (f) von den Eingabevariablen (x) auf numerische oder kontinuierliche Ausgabevariablen (y) zu schätzen. Die Ausgangsvariable kann ein reeller Wert sein, der eine ganze Zahl oder ein Fließkommawert sein kann. Daher handelt es sich bei den Regressionsvorhersageproblemen in der Regel um Mengen oder Größen

Wenn Sie zum Beispiel einen Datensatz über Häuser erhalten und deren Preise vorhersagen sollen, handelt es sich um eine Regressionsaufgabe, da der Preis eine kontinuierliche Ausgabe ist.

Beispiele für gängige Regressionsalgorithmen sind lineare Regression, Support-Vektor-Regression (SVR) und Regressionsbäume

Klassifizierung beim maschinellen Lernen

Im Gegensatz dazu ist y bei Klassifizierungsalgorithmen eine Kategorie, die die Mapping-Funktion vorhersagt. Genauer gesagt, versucht ein Klassifizierungsmodell bei einer oder mehreren Eingabevariablen, den Wert einer oder mehrerer Schlussfolgerungen vorherzusagen.

Wenn Sie zum Beispiel einen Datensatz über Häuser erhalten, kann ein Klassifizierungsalgorithmus vorherzusagen versuchen, ob die Preise für die Häuser "mehr oder weniger als der empfohlene Verkaufspreis verkaufen" Hier die beiden diskreten Kategorien: über oder unter dem genannten Preis

Beispiele für gängige Klassifizierungsalgorithmen sind logistische Regression, Naïve Bayes, Entscheidungsbäume und K Nearest Neighbors

Die Auswahl der richtigen Algorithmen

Richtige ML-Bewertung
Die akribische Datenrecherche für die richtige ML-Bewertung

Verstehen Sie Ihre Daten

  • Werfen Sie einen Blick auf die zusammenfassenden Statistiken
  • Verwenden Sie den Parameter 'Perzentil', um die Bereiche der Daten zu identifizieren.
  • Durchschnittswerte und Mediane beschreiben die zentrale Tendenz
  • Korrelationen können auf starke Beziehungen hinweisen

Visualisieren Sie die Daten

  • Boxplots können auf Ausnahmen hinweisen.
  • Dichte-Diagramme und Histogramme zeigen die Verteilung der Daten
  • Streudiagramme können Mengenbeziehungen beschreiben

Bereinigen Sie die Daten

Die fehlenden Teile herausfinden
Herausfinden der fehlenden Teile -Priorität auf der To-Do-Liste für die Suche nach dem richtigen ML-Algorithmus
  • Umgang mit einem fehlenden Wert. Das Ergebnis muss in diesem Fall empfindliche Ergebnisse liefern (fehlende Daten für bestimmte Variablen können zu ungenauen Vorhersagen führen)
  • Obwohl Baummodelle weniger empfindlich auf das Vorhandensein von Ausreißern reagieren, sind regressive Modelle oder andere Modelle, die Gleichungen verwenden, empfindlicher gegenüber Ausreißern
  • Grundsätzlich können Ausreißer das Ergebnis einer schlechten Datenerfassung sein, oder es kann sich um legitime Extremwerte handeln

Kuratieren Sie die Daten

Bei der Umwandlung der Rohdaten in aufbereitete Daten, die den Modellen entsprechen, müssen Sie außerdem auf Folgendes achten

  • Machen Sie die Daten einfacher zu interpretieren.
  • Erfassen Sie komplexere Daten.
  • Konzentrieren Sie sich darauf, die Redundanz und Dimensionalität der Daten zu reduzieren.
  • Normalisieren Sie die Variablenwerte.

Kategorisieren Sie das Problem durch die Eingabevariable

  • Sie haben beschriftete Daten; es handelt sich um ein Problem des überwachten Lernens.
  • Wenn Sie unmarkierte Daten haben und eine Struktur finden wollen, handelt es sich um ein Problem des unüberwachten Lernens.
  • Wenn Sie eine Zielfunktion durch Interaktion mit einer Umgebung optimieren wollen, handelt es sich um ein Problem des Verstärktes Lernen.

Kategorisieren Sie das Problem durch die Output-Variable

  • Die Ausgabe Ihres Modells ist eine Zahl; es handelt sich um ein Regressionsproblem.
  • Wenn die Ausgabe Ihres Modells eine Klasse ist, dann handelt es sich um ein Klassifizierungsproblem.
  • Die Ausgabe Ihres Modells ist ein Satz von Eingabegruppen; es handelt sich um ein Clustering-Problem.

Der Einschränkungsfaktor

  • Achten Sie auf die Speicherkapazität, die bei verschiedenen Modellen unterschiedlich ist.
  • Muss die Vorhersage schnell sein? In Echtzeitszenarien wie der Klassifizierung von Straßenschildern sollte sie so schnell wie möglich sein, um Unfälle zu vermeiden.

Zum Schluss: Finden Sie den Algorithmus

Die logische Methode
Die logische Methode: Folgen Sie dem Verfahren

Jetzt, da Sie ein klares Bild von Ihren Daten haben, können Sie die richtigen Werkzeuge einsetzen, um den richtigen Algorithmus zu wählen

Damit Sie eine bessere Entscheidung treffen können, haben wir hier eine Checkliste der Faktoren für Sie zusammengestellt

  • Prüfen Sie, ob das Modell mit Ihrem Geschäftsziel übereinstimmt
  • Wie viel Vorverarbeitung das Modell benötigt
  • Prüfen Sie die Genauigkeit des Modells
  • Wie aussagekräftig das Modell ist
  • Wie schnell das Modell ist: Wie lange dauert es, ein Modell zu erstellen, und wie lange braucht das Modell, um Vorhersagen zu treffen
  • Die Skalierbarkeit des Modells

Außerdem muss man bei der Auswahl auf die Komplexität des Algorithmus achten

Im Allgemeinen können Sie die Komplexität des Modells anhand der Parameter messen

  • Wenn es zwei oder mehr als zehn Merkmale benötigt, um das Ziel zu lernen und vorherzusagen
  • Wenn es auf einer komplexeren Merkmalstechnik beruht (z.B. Verwendung von polynomialen Termen, Interaktionen oder Hauptkomponenten)
  • Wenn das Szenario einen höheren Rechenaufwand erfordert (z.B. ein einzelner Entscheidungsbaum im Vergleich zu einem Zufallsbaum mit 100 Bäumen)

Außerdem kann derselbe Algorithmus auch manuell komplexer gestaltet werden. Das hängt allein von der Anzahl der Parameter und dem betrachteten Szenario ab. Sie könnten zum Beispiel ein Regressionsmodell mit mehr Merkmalen oder polynomialen Termen und Interaktionstermini entwerfen. Oder Sie könnten einen Entscheidungsbaum mit weniger Tiefe entwerfen

Die gängigen Algorithmen für maschinelles Lernen

Lineare Regression

Dies sind wahrscheinlich die einfachsten Algorithmen
Einige Beispiele, bei denen die lineare Regression verwendet wird, sind

  • Erstens, wenn es Zeit ist, von einem Ort zum anderen zu gehen
  • Vorhersage der Verkaufszahlen eines bestimmten Produkts im nächsten Monat
  • Auswirkung des Blutalkoholgehalts auf die Koordination
  • Vorhersage der monatlichen Geschenkkartenverkäufe und Verbesserung der jährlichen Umsatzprognosen

Logistische Regression

Offensichtlich bietet dieser Algorithmus viele Vorteile - Integration weiterer Funktionen mit einer schönen Interpretationsmöglichkeit, einfache Aktualisierungsmöglichkeit zur Aufnahme neuer Daten

Anders ausgedrückt, Sie könnten ihn für Folgendes verwenden

  • Vorhersage der Kundenabwanderung.
  • Der besondere Fall der Kreditwürdigkeitsprüfung oder Betrugserkennung.
  • Messung der Wirksamkeit von Marketingkampagnen.

Entscheidungsbäume

Offensichtlich werden einzelne Bäume nur selten verwendet, aber in Kombination mit vielen anderen bilden sie effiziente Algorithmen wie den Random Forest oder Gradient Tree Boosting. Einer der Nachteile ist jedoch, dass sie kein Online-Lernen unterstützen, so dass Sie Ihren Baum neu aufbauen müssen, wenn neue Beispiele hinzukommen

Bäume sind hervorragend geeignet für

  • Investitionsentscheidungen
  • Schuldner von Bankkrediten
  • Qualifizierung von Vertriebsleads

Naive Bayes

Naive Bayes ist vor allem dann die richtige Wahl, wenn CPU- und Speicherressourcen ein begrenzender Faktor sind. Sein größter Nachteil ist jedoch, dass es keine Wechselwirkungen zwischen den Merkmalen lernen kann

Es kann verwendet werden für

  • Erkennung von Gesichtern
  • Um eine E-Mail als Spam zu markieren oder nicht.
  • Sentiment-Analyse und Textklassifizierung.

Fazit

In einem Echtzeit-Szenario ist es auch im Allgemeinen etwas schwierig, den richtigen Algorithmus für maschinelles Lernen zu finden. Sie können jedoch diese Checkliste verwenden, um einige Algorithmen in die engere Wahl zu nehmen

Außerdem erfordert die Wahl der richtigen Lösung für ein reales Problem neben dem richtigen Algorithmus auch ein fundiertes Geschäftsverständnis. Bringen Sie auch Ihre Daten den richtigen Algorithmen bei, lassen Sie sie alle entweder parallel oder seriell laufen und bewerten Sie am Ende die Leistung der Algorithmen, um die besten auszuwählen.

Wenn Sie sich auf Deep Learning spezialisieren möchten, dann sollten Sie sich diesen Kurs über Deep Learning ansehen.

  • Pallavi Priyadarshini
    Autor
Dank an unsere Sponsoren
Weitere gute Lektüre zum Thema AI
Energie für Ihr Unternehmen
Einige der Tools und Dienste, die Ihr Unternehmen beim Wachstum unterstützen.
  • Invicti nutzt das Proof-Based Scanning™, um die identifizierten Schwachstellen automatisch zu überprüfen und innerhalb weniger Stunden verwertbare Ergebnisse zu erzielen.
    Versuchen Sie Invicti
  • Web Scraping, Residential Proxy, Proxy Manager, Web Unlocker, Search Engine Crawler und alles, was Sie zum Sammeln von Webdaten benötigen.
    Versuchen Sie Brightdata
  • Monday.com ist ein All-in-One-Betriebssystem, mit dem Sie Projekte, Aufgaben, Arbeit, Vertrieb, CRM, Arbeitsabläufe und vieles mehr verwalten können.
    Versuch Montag
  • Intruder ist ein Online-Schwachstellen-Scanner, der Schwachstellen in Ihrer Infrastruktur aufspürt, um kostspielige Datenschutzverletzungen zu vermeiden.
    Versuchen Sie Intruder