Die Suche nach den richtigen Datensätzen kann entmutigend sein, vor allem, wenn Sie diese für maschinelles Lernen (ML) und Data Science-Projekte benötigen. Wir erleichtern Ihnen die Suche, indem wir Ihnen die ultimative Liste kostenloser Datensätze zur Verfügung stellen.

Datensätze sind einfach Sammlungen von Daten. Dabei kann es sich um Finanzdaten, Gesundheitsdaten, Börsendaten, Bankdaten, geografische Daten, Forschungsdaten aus der Partikelwissenschaft, Bewertungen von Produkten auf einer E-Commerce-Website usw. handeln.

Datensätze enthalten Daten, die durch einen wissenschaftlichen Erhebungsstandard gesammelt wurden und für die weitere Visualisierung, Extraktion, Vorhersage usw. wichtig sind. Da Daten das Äquivalent von Rohöl im digitalen Universum sind, werden Datensätze immer kommerzieller und knapper.

Lesen Sie weiter und erfahren Sie mehr über die Grundlagen von Datensätzen. Sie werden auch einige Open-Source-Datensätze entdecken, die für Ihre maschinellen Lern- (ML) oder Data-Science-Projekte wirklich kostenlos sind.

Was sind Datensätze?

Datensätze sind die Sammlung von Daten in einem strukturierten und organisierten Container. In der Regel assoziieren die Erheber die Datensätze mit einer eindeutigen Stelle, z. B. World Bank Open Data.

Die Datensammler wiederum halten die Datensätze für ein bestimmtes Thema bereit, wie z.B. die vom United States Census Bureau veröffentlichten Daten der Volkszählung 2020 der Vereinigten Staaten von Amerika.

Sie werden viele Datensätze zu globalen und lokalen Themen finden. Die meisten Datensätze enthalten miteinander verknüpfte Datenpunkte. Zum Beispiel die Bevölkerung eines Landes und wie sich Fettleibigkeit auf verschiedene Klassen dieser Bevölkerung auswirkt.

Die Datenwissenschaftler müssen solche Datensätze unter Verwendung von Big Data-Tools bereinigen, umstrukturieren und verarbeiten, um zu wertvollen Schlussfolgerungen zu gelangen, z. B. zur Verringerung des Plastikmülls durch die Analyse von Daten zum Plastikverbrauch, zur Behebung von Problemen im Bereich der Arbeitskräfte durch die Analyse von Lohndaten, zum Trainieren von künstlicher Intelligenz (KI) und so weiter.

Arten von Datensätzen

Je nach Quelle der Datensätze können diese öffentlich oder privat sein. Öffentliche Datensätze sind für alle zugänglich und tragen viel zu Forschung und Entwicklung bei.

Je nach den darin enthaltenen Informationen kann es sich um die folgenden Arten von Datensätzen handeln:

  • Multivariat: Solche Daten enthalten mehrere Variablen.
  • Kategorisch : Sie bilden viele Kategorien von Personen ab.
  • Numerisch: Solche Datensätze messen Daten in Zahlen wie Alter, Größe usw.
  • Korrelation: Bei diesem Typ sind die Datenpunkte miteinander verknüpft.
  • Dateibasiert: Hier werden die Datensätze in Dateien gespeichert.
  • Bivariat: Ein Datensatz mit zwei Variablen und einer Beziehung zwischen ihnen.
  • Web-Datensatz: Daten, die von einem oder vielen ähnlichen Internetportalen gesammelt wurden.
  • Datenbank: Solche Datensätze speichern Daten in Tabellen, Spalten und Zeilen.

Open-Source-Datensätze für datenwissenschaftliche Projekte

Freie Datensätze sind der Treibstoff für Ihre Leidenschaft für eine Data Science-Karriere. Denn wenn Sie sich in den Anfängen Ihrer Data Science-Karriere befinden, möchten Sie vielleicht persönliche und nicht-kommerzielle Projekte in Angriff nehmen, um Ihr Selbstvertrauen zu stärken oder Ihr Portfolio aufzubauen.

Erstens können Sie Ihre neu erlernten Fähigkeiten leicht testen, indem Sie Tools und Techniken auf reale Datenprobleme anwenden.

Es gibt zum Beispiel frei verfügbare Krebsforschungsdaten, Covid-19-Daten, FBI-Strafregisterdaten, Teilchenanalysedaten vom CERN usw. Sie können solche Daten verwenden und ein Data Science-Modell erstellen, um wichtige soziale, finanzielle und gesundheitliche Fragen zu beantworten.

Zweitens können solche Projekte Ihr Portfolio für Ihre Karriere aufbessern. Wenn Sie ein erfolgreiches Datenanalysemodell erstellen können, das verwertbare Erkenntnisse bietet, können Sie diese Modelle online präsentieren, indem Sie Portfolio-Websites erstellen. Arbeitgeber bevorzugen Projekte gegenüber Absichtserklärungen.

Kostenlose Datensätze für Machine Learning-Projekte

Wie ein Datenwissenschaftler muss auch ein ML-Profi an selbstverwalteten Projekten arbeiten, um seine Fähigkeiten zu testen. Wenn das Projekt erfolgreich ist, wird es auch zu einem idealen Bestandteil Ihres Online- oder Offline-Portfolios von ML-Projekten.

Sie können also jetzt verstehen, dass das Wachstum von Data Science und ML von strukturierten Datensätzen abhängt. Würden solche Datensätze zu sehr kommerzialisiert, würde die Forschung und Entwicklung im Bereich der Datenwissenschaft völlig unternehmenszentriert werden.

Um die datenwissenschaftliche ML-Forschung für alle offen zu halten, bieten die folgenden Behörden, Institutionen und Plattformen kostenlose Datensätze an:

Data.gov

Auf Data. gov finden Sie alle offenen Daten, die von der US-Regierung gesammelt und verarbeitet werden. Die Plattform bietet auch Ressourcen und Tools zur Durchführung von Forschungsarbeiten, zur Gestaltung von Datenvisualisierungen, zur Entwicklung von Mobil-/Web-Apps usw.

Zu den bemerkenswerten Datensätzen gehören Daten zur nachhaltigen Landnutzung, Daten zum ländlichen Wohnungsbau, elektronische Binnenschifffahrtskarten usw.

Offene Datensätze: Kaggle

Kaggle bietet einen Ozean von öffentlichen Daten und Computercodes für Data Science-Projekte. Sie können Datasets für Rohdaten und Code für Programmiercodes auswählen. Zu den aktuellen Datensätzen auf Kaggle gehören AMEX-Daten, Simpsons-Zuschauerzahlen, Chatbot-Trainingsdaten, usw.

Segment Datensätze: YouTube 8-M

DieSegmentdatensätze von YouTube 8-M bieten Ihnen von menschlichen Prüfern verifizierte Segmentannotationen. Über dasselbe Portal können Sie auch auf den YouTube-8M-Datensatz zugreifen. Der Datensatz enthält 6,1 Millionen Video-IDs, 350.000 Stunden Video, 2,6 Milliarden audio-visuelle Merkmale, 3863 Klassen von Videos und durchschnittlich 3,0 Labels pro Video.

Registry of Open Data auf AWS

ROD on AWS hilft Datenwissenschaftlern, Datensätze, die auf AWS-Ressourcen gehostet werden, gemeinsam zu nutzen und zu entdecken. Einige interessante Datensätze, die Sie hier finden können, sind The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl, usw.

Repository für maschinelles Lernen: UCI

DasUCI Machine Learning Repository verwaltet derzeit 622 Datensätze, die sich für Datenwissenschaftler und ML-Ingenieure eignen, um ihre KI-Modelle zu trainieren. Außerdem gibt es eine durchsuchbare Schnittstelle zur Recherche in den Datenbanken. Beliebte Attraktionen sind der Accelerometer-Datensatz, der Synchronous Machine-Datensatz, Wikipedia Math Essentials, der Türkische Schlagzeilen-Datensatz, usw.

Öffentliche BigQuery-Datensätze: Google Cloud

Viele öffentliche Datensätze sind auf BigQuery gespeichert. Google macht die Datensätze über das Google Cloud Public Dataset Program kostenlos zugänglich. Die kostenlose Abfrage hat jedoch ein Limit von 1 TB pro Monat. Sie können Standard-SQL- und Legacy-SQL-Abfragen durchführen.

Tolle öffentliche Datensätze: GitHub

AwesomePublic Datasets ist ein Open-Source-Datensatz, der themenbezogene öffentliche Daten enthält. Gesammelt und sortiert aus verschiedenen Blogs, Antworten und Benutzerfeedback, kombiniert es kostenlose und kostenpflichtige Datensätze zu Physik, Sport, Software, natürlicher Sprache und maschinellem Lernen.

Weltbank-Daten

World Bank Data

World Bank Open Data ist die Plattform, auf der Sie kostenlosen Zugang zu globalen Entwicklungsdaten erhalten. Sie bietet auch andere wertvolle Ressourcen wie vorformatierte Tabellen und Berichte. Sie können ganz einfach nach Ländern oder Indikatoren suchen, um den gewünschten Datensatz zu erhalten.

FiveThirtyEight: Daten

FiveThirtyEight ist eine amerikanische Website, die sich mit der Analyse von Meinungsumfragen, Politik, Wirtschaft und Sport beschäftigt. Sie können auf diese Umfragen und Prognosen über Datensätze auf der Plattform zugreifen. Sie können die Datensätze mit einem Klick herunterladen.

ImageNet

ImageNet ist eine Bilddatenbank, aus der Forscher weltweit Open-Source-Datensätze für ihre nicht-kommerziellen Projekte beziehen können. Hier werden die Bilder auf der Grundlage der WordNet-Hierarchie organisiert. Das Projekt spielt eine wichtige Rolle in der Deep-Learning-Forschung auf hohem Niveau.

Datensätze Archiv: UNICEF DATA

Über die Datasets Archives können Sie auf Datensätze zugreifen, die von UNICEF auf der ganzen Welt gesammelt wurden. Daten zu Migration, Vertreibung, Ernährung, Konnektivität, Bildung, Gesundheit, Lernen, Sterblichkeit, Gewalt, kindlicher Entwicklung, Kinderheirat, Kinderarbeit und verschiedenen Statistiken sind hier verfügbar.

Offene Daten finden: Regierung von Großbritannien

Wenn Ihr Projekt Daten benötigt, die von lokalen Behörden und der Zentralregierung des Vereinigten Königreichs veröffentlicht werden, ist Find Open Data das Portal, das Sie sich ansehen sollten. Es deckt Staatsausgaben, Wirtschaft, Gesundheit, Bildung, Verteidigung und weitere Datensätze ab.

Daten: United States Census Bureau

Benötigen Sie US-Volkszählungsdaten für ein relevantes Projekt? Dann können Sie die Hilfe von USCB Data in Anspruch nehmen. Hier können Sie die Daten der Volkszählung 2020, Tabellen, Karten und Datenprofile erkunden, während Sie die Daten visualisieren und Datentools verwenden.

Daten und Statistiken: CDC

Die Bundesbehörde der Vereinigten Staaten, die Centers for Disease Control and Prevention, stellt der Öffentlichkeit ebenfalls kostenlose Datensätze zur Verfügung, um Daten und Statistiken von diesem Portal abzurufen. Die Themen der Datensätze sind Umweltgesundheit, Chronische Krankheiten, Geburten & Natalität, Todesfälle & Sterblichkeit, Lebenserwartung, Verletzungen & Gewalt, Reproduktive Gesundheit, Nationale meldepflichtige Krankheiten, usw.

Datenkatalog der Weltbank

World Bank Data Catalog

Der Datenkatalog sammelt kostenlose Datensätze, die die entwicklungsbezogenen Daten der Weltbank leicht zugänglich machen. Die Verwendung des Katalogs in verschiedenen Projekten ist ein Kinderspiel, da Sie die gewünschten Informationen mühelos finden und herunterladen können. Er enthält über 5000 Datensätze zu den Bereichen Mikrodaten, Finanzen und Energie der Weltbank.

NASA Weltraumwissenschaftliche Daten

Die NASA bietet auf Space Science Data Coordinated Archive Zugang zu ihren Archivdaten. Diese Plattform ist eine große Hilfe für die Allgemeinheit, insbesondere für Menschen, die in der Bildung und der Weltraumforschung arbeiten. Es umfasst 400 TB digitaler Daten mit Informationen über 550 Weltraumwissenschaften.

Holen Sie sich die Daten: Das Innere von Airbnb

Get the Data Inside Airbnb

Airbnb ist ein weltweit bekannter Online-Marktplatz für Ferienwohnungen und Ferienunterkünfte. Er bietet auch eine Datensammlung über verschiedene Städte weltweit von Get the Data an. Sie können die Stadt durchsuchen, um die Daten schnell zu erhalten. Außerdem können Sie auf diesem Portal Ihre gewünschten Daten anfordern und Datenannahmen lesen.

Web-Daten: Amazon-Rezensionen

Wer sich für Marktforschung und Produktbewertungen interessiert, sollte die von Snap Web Data bereitgestellten Datensätze nutzen. Er enthält mehr als 34 Millionen Nutzerbewertungen auf Amazon, von Juni 1995 bis März 2013. Der Datensatz enthält einfachen Text, Produktinformationen, Benutzernamen, Bewertungen und eine Rezension.

IWF-Daten

IMF data

Das IWF-Datenportal ist wertvoll für alle Arten von Wirtschafts- und Finanzdaten. Egal, ob Sie nach IWF-Finanzdaten, Statistiken zum externen Sektor, Flaggschiff-Publikationen oder mikroökonomischen Daten suchen, hier werden Sie fündig. Außerdem können Sie einen Filter verwenden, um länderspezifische Daten zu erhalten.

Marktdaten: Die Financial Times

Markets Data: The Financial Times

Wenn Sie auf der Suche nach zuverlässigen und genauen globalen und regionalen Aktienmarktdaten sind, ist Markets Data von The Financial Times genau das Richtige für Sie. Es ermöglicht Ihnen die Arbeit mit Marktdaten aus Amerika, Asien-Pazifik, Europa, Afrika und dem globalen Markt.

Earthdata: NASA

Die NASA bietet über das Earthdata-Programm vollständigen und offenen Zugang zu ihren wissenschaftlichen Daten, die Ihnen helfen, unseren Heimatplaneten zu verstehen und mit ihm Projekte durchzuführen. Sie können kostenlose Datensätze zu den Themen Atmosphäre, Biosphäre, Kryosphäre, menschliche Dimensionen, Landoberfläche, Ozean, feste Erde, Wechselwirkung zwischen Sonne und Erde und terrestrische Hydrosphäre finden.

Datensatz-Suche: Google

Wenn Sie als Student, Forscher oder Datenwissenschaftler auf der Suche nach Datensätzen für Ihr Projekt sind, können Sie das Portal Dataset Search zu Hilfe nehmen. Man kann es als Suchmaschine für Datensätze bezeichnen, denn es ermöglicht Ihnen, über eine Stichwortsuche Datensätze zu entdecken, die in verschiedenen Berichten im Internet gehostet werden.

Offene Daten: CERN

Die europäische Forschungsorganisation CERN verfügt über ein Open Data-Portal, über das Sie auf die von der Forschung erzeugten Daten am CERN zugreifen können. Dieses Datenportal enthält zwei Petabytes an Daten zur Teilchenphysik. Außerdem enthält es Anwendungen und Dokumentationen, die für die Datenanalyse benötigt werden.

Verbrechensdaten-Explorer: FBI

Crime Data Explorer FBI

Der Crime Data Explorer (CDE) ist ein Open-Source-Datensatz des FBI, der den Zugang zu kriminellen, nicht-kriminellen und Strafverfolgungsdaten erleichtern soll. Diese Plattform ermöglicht es Ihnen nicht nur, die benötigten Daten durch Visualisierung und Kategoriefilterung zu entdecken, sondern Sie können auch Daten im CSV-Format herunterladen.

Letzte Worte

Bis jetzt haben Sie eine wirklich erschöpfende Liste hochwertiger Datensätze durchgesehen. In diesem Artikel werden Daten aus verschiedenen Nischen vorgestellt, z. B. aus der Physik, der Medizin, der Weltraumforschung, dem Strafrecht, der Produktbewertung usw.

Je nachdem, welches Projekt im Bereich der Datenwissenschaft oder des maschinellen Lernens Sie vorhaben, können Sie eine Auswahl treffen. Zu fast allen Datensätzen gibt es auch entsprechende Anleitungen, die Ihnen bei Ihrem Projekt helfen.

Vielleicht interessieren Sie sich auch für diese Ressourcen, um Data Science und ML zu lernen.