Geekflare wird von unserem Publikum unterstützt. Wir können Affiliate-Provisionen durch den Kauf von Links auf dieser Website verdienen.
Teilen:

25 Offene Datensätze für Ihre Data Science/ML-Projekte

Was sind Datensätze
Invicti Web Application Security Scanner – die einzige Lösung, die eine automatische Verifizierung von Schwachstellen mit Proof-Based Scanning™ bietet.

Die Suche nach den richtigen Datensätzen kann entmutigend sein, insbesondere wenn Sie sie für maschinelles Lernen (ML) und Data-Science-Projekte benötigen. Wir reduzieren Ihren Rechercheaufwand, indem wir Ihnen die ultimative Liste kostenloser Datensätze zur Verfügung stellen.

Datensätze sind einfach Sammlungen von Daten. Dabei kann es sich um Finanz-, Gemeindegesundheits-, Börsendaten, Bankdaten, geografische Daten, partikelwissenschaftliche Forschungsdaten, Bewertungen von Produkten auf einer E-Commerce-Website usw. handeln.

Datensätze enthalten Daten, die durch einen wissenschaftlichen Erhebungsstandard erhoben wurden und für die weitere Verwendung wichtig sind Visualisierung, Gewinnung, Vorhersage usw. Da Daten im digitalen Universum das Äquivalent von Rohöl sind, werden Datensätze kommerziell und knapp.

Lesen Sie weiter, um mehr über die Grundlagen von Datensätzen zu erfahren. Sie werden auch einige Open-Source-Datensätze entdecken, die für Sie wirklich kostenlos sind Maschinelles Lernen (ML) oder Data-Science-Projekte.    

Was sind Datensätze?

Datensätze sind die Sammlung von Daten in einem strukturierten und organisierten Container. Normalerweise verknüpfen Vermesser Datensätze mit einem eindeutigen Körper, z. B. Offene Daten der Weltbank.

Auch hier bewahren die Datensammler die Datensätze speziell für ein Thema auf, wie die vom United States Census Bureau veröffentlichten Daten der Volkszählung 2020 der Vereinigten Staaten von Amerika.

Sie finden viele Datensätze zu globalen und lokalen Themen. Die meisten Datensätze enthalten miteinander verbundene Datenpunkte. Zum Beispiel die Bevölkerung eines Landes und wie Adipositas mit verschiedenen Klassen dieser Bevölkerung zusammenhängt.    

Die Datenwissenschaftler müssen solche Datensätze möglicherweise mithilfe von Big-Data-Tools bereinigen, umstrukturieren und verarbeiten, um zu wertvollen Schlussfolgerungen zu gelangen, z künstliche Intelligenz (KI) und so weiter. 

Arten von Datensätzen

Je nach Quelle der Datensätze können diese öffentlich oder privat sein. Öffentliche Datensätze stehen allen offen und tragen viel zu Forschung und Entwicklung bei. 

Auch hier können Datensätze abhängig von den darin enthaltenen Informationen von den folgenden Typen sein:

  • Multivariat: Solche Daten enthalten mehrere Variablen.
  • Kategorisch: Es porträtiert viele Kategorien von Menschen.
  • Numerisch: Solche Datensätze messen Daten in Zahlen wie Alter, Größe usw.
  • Korrelation: Bei diesem Typ sind Datenpunkte miteinander verknüpft. 
  • Dateibasiert: Hier werden Datensätze in Dateien gespeichert.
  • Bivariat: Ein Datensatz mit zwei Variablen und einer Beziehung zwischen ihnen. 
  • Web-Datensatz: Daten, die von einem oder vielen ähnlichen Internetportalen gesammelt wurden.  
  • Datenbank: Solche Datasets speichern Daten in Tabellen, Spalten und Zeilen. 

Open-Source-Datensätze für Data-Science-Projekte

Kostenlose Datensätze sind der Treibstoff für Ihre Leidenschaft für a Datenwissenschaft Werdegang. Denn wenn Sie in der Anfangsphase Ihrer Data-Science-Karriere stehen, möchten Sie vielleicht persönliche und nicht-kommerzielle Projekte zum Selbstvertrauen oder zum Portfolioaufbau übernehmen. 

Erstens können Sie Ihre neu erlernten Fähigkeiten leicht testen, indem Sie Tools und Techniken auf reale Datensatzprobleme anwenden.

Zum Beispiel gibt es frei verfügbare Krebsforschungsdaten, Covid-19-Daten, FBI-Strafregisterdaten, Partikelanalysedaten von CERNusw. Sie können solche Daten verwenden und ein datenwissenschaftliches Modell erstellen, um wichtige soziale, finanzielle und gesundheitliche Probleme zu beantworten.   

Zweitens wirken solche Projekte als Portfolio-Enhancer für Ihre Karriere. Wenn Sie ein erfolgreiches Datenanalysemodell erstellen können, das umsetzbare Erkenntnisse bietet, können Sie diese Modelle online präsentieren, indem Sie erstellen Portfolio-Websites. Arbeitgeber bevorzugen Projekte gegenüber Absichtserklärungen.

Kostenlose Datensätze für Machine-Learning-Projekte

Wie ein Data-Science-Experte muss auch ein ML-Experte an selbstverwalteten Projekten arbeiten, um seine Fähigkeiten zu überprüfen. Wenn das Projekt erfolgreich wird, wird es auch zu einem idealen Bestandteil für Ihr Online- oder Offline-Portfolio von ML-Projekten.

Daher können Sie jetzt verstehen, dass Data Science und ML-Wachstum von strukturierten Datensätzen abhängen. Wenn solche Datensätze zu kommerzialisiert würden, würden Forschung und Entwicklung im Bereich Data Science vollständig unternehmenszentriert werden.

Um die datenwissenschaftliche ML-Forschung für alle offen zu halten, wurden die folgenden Agenturen, Institutionen und Plattformen bieten kostenlose Datensätze an:   

Data.gov

Sie finden alle offenen Daten, die von der US-Regierung gesammelt und verarbeitet werden. in Data.gov. Die Plattform bietet auch Ressourcen und Tools, um Recherchen durchzuführen, Datenvisualisierungen zu entwerfen, mobile/Web-Apps zu entwickeln usw.

Zu den bemerkenswerten Datensätzen gehören Daten zur nachhaltigen Landnutzung, Daten zum ländlichen Wohnungsbau, elektronische Binnenschifffahrtskarten usw.  

Open Datasets: Kaggle

Kaggle bietet einen Ozean öffentlicher Daten und Computercodes für Data-Science-Projekte. Sie können Datensätze für Rohdaten und Code für Programmiercodes auswählen. Trenddatensätze auf Kaggle sind AMEX-Daten, Simpsons Viewership, Chatbot Trainingsdaten usw.  

Segment Datasets: YouTube 8-M

Datensätze segmentieren von YouTube 8-M bieten Ihnen von menschlichen Prüfern verifizierte Segmentanmerkungen. Über dasselbe Portal können Sie auch auf den YouTube-8M-Datensatz zugreifen. Der Datensatz enthält 6.1 Millionen Video-IDs, 350,000 Stunden Video, 2.6 Milliarden audiovisuelle Merkmale, 3863 Videoklassen und durchschnittlich 3.0 Labels pro Video.

Registry of Open Data on AWS

ROD auf AWS hilft Datenwissenschaftlern, Datensätze zu teilen und zu entdecken, die auf AWS-Ressourcen gehostet werden. Einige interessante Datensätze, die Sie hier finden können, sind The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl usw.  

Machine Learning Repository: UCI

UCI-Repository für maschinelles Lernen verwaltet derzeit 622 Datensätze, die für Data Scientists und ML-Ingenieure geeignet sind, um ihre KI-Modelle zu trainieren. Außerdem gibt es eine durchsuchbare Schnittstelle, um die Datenbanken zu durchsuchen. Beliebte Attraktionen sind der Accelerometer-Datensatz, der Synchronous Machine-Datensatz, Wikipedia Math Essentials, der Turkish Headlines-Datensatz usw.   

BigQuery Public Datasets: Google Cloud

Viele öffentliche Datensätze werden auf gespeichert BigQuery. Google macht den Datensatz über das Google Cloud Public Dataset Program kostenlos zugänglich. Die kostenlose Abfrage ist jedoch auf 1 TB pro Monat begrenzt. Sie können Standard-SQL- und Legacy-SQL-Abfragen ausführen.  

Awesome Public Datasets: GitHub

Fantastische öffentliche Datensätze ist ein Open-Source-Datensatz, der themenzentrierte öffentliche Daten enthält. Gesammelt und sortiert aus verschiedenen Blogs, Antworten und Nutzer-Feedback, kombiniert es kostenlose und kostenpflichtige Datensätze zu Physik, Sport, Software, natürlicher Sprache und maschinellem Lernen.

World Bank Data

Daten der Weltbank

Offene Daten der Weltbank ist die Plattform, auf der Sie kostenlosen Zugriff auf globale Entwicklungsdaten erhalten. Es bietet auch andere wertvolle Ressourcen wie vorformatierte Tabellen und Berichte. Sie können ganz einfach nach Land oder Indikator suchen, um den gewünschten Datensatz zu erhalten. 

FiveThirtyEight: Data

FiveThirtyEight ist eine amerikanische Website, die sich mit Meinungsumfragen, Politik, Wirtschaft und Sport befasst. Sie können auf diese Umfragen und Prognosen über Datensätze von seiner Plattform zugreifen. Sie können die Datensätze mit einem Klick herunterladen.

ImageNet

IMAGEnet ist eine Bilddatenbank, aus der Forscher weltweit Open-Source-Datensätze für ihre nicht-kommerziellen Projekte beziehen können. Hier werden die Bilder basierend auf der WordNet-Hierarchie organisiert. Das Projekt spielt eine wichtige Rolle in der fortgeschrittenen Deep-Learning-Forschung. 

Datasets Archives: UNICEF DATA

Verwendung der Datensätze Archive, können Sie auf Datensätze zugreifen, die von UNICEF auf der ganzen Welt gesammelt wurden. Daten zu Migration, Vertreibung, Ernährung, Konnektivität, Bildung, Gesundheit, Lernen, Sterblichkeit, Gewalt, Kindheitsentwicklung, Kinderheirat, Kinderarbeit und verschiedene Statistiken sind hier verfügbar. 

Find Open Data: Govt. of UK

Wenn Ihr Projekt Daten benötigt, die von lokalen Stellen und der Zentralregierung des Vereinigten Königreichs veröffentlicht wurden, Offene Daten finden ist das Portal, das Sie sich ansehen sollten. Es umfasst Staatsausgaben, Unternehmen, Gesundheit, Bildung, Verteidigung und weitere Datensätze.

Data: United States Census Bureau

Benötigen Sie US-Volkszählungsdaten für ein relevantes Projekt? Sie können Hilfe in Anspruch nehmen USCB-Daten. Hier können Sie Daten, Tabellen, Karten und Datenprofile der Volkszählung 2020 erkunden, während Sie Daten visualisieren und Datentools verwenden.

Data and Statistics: CDC

Die Bundesbehörde der Vereinigten Staaten Centers for Disease Control and Prevention stellt der Öffentlichkeit auch kostenlose Datensätze für den Zugriff auf Daten und Statistiken von diesem Portal zur Verfügung. Die Themen des Datensatzes sind Umweltgesundheit, chronische Krankheiten, Geburten und Geburten, Todesfälle und Sterblichkeit, Lebenserwartung, Verletzungen und Gewalt, reproduktive Gesundheit, nationale meldepflichtige Krankheiten usw.

World Bank Data Catalog

Datenkatalog der Weltbank

Das Datenkatalog sammelt kostenlose Datensätze, die die entwicklungsbezogenen Daten der Weltbank leicht zugänglich machen. Die Verwendung in verschiedenen Projekten ist ein Kinderspiel, da Sie Ihre bevorzugten Informationen mühelos finden und herunterladen können. Es enthält über 5000 Datensätze, die die Mikrodaten-, Finanz- und Energieplattformen der Weltbank abdecken.

NASA Space Science Data

Die NASA bietet Zugriff auf ihre Archivdaten an Weltraumwissenschaftliche Daten Koordiniertes Archiv. Diese Plattform ist eine große Hilfe für die breite Öffentlichkeit, insbesondere für Personen, die in Bildung und Weltraumforschung tätig sind. Es verfügt über 400 TB an digitalen Daten, die Informationen über 550 Weltraumwissenschaften enthalten. 

Get the Data: Inside Airbnb

Holen Sie sich die Daten von Airbnb

Airbnb ist ein weltweit renommierter Online-Marktplatz für Gastfamilien und Ferienwohnungen. Es bietet auch eine Datenerfassung zu verschiedenen Städten weltweit an Holen Sie sich die Daten. Sie können durch die Stadt stöbern, um schnell an die Daten zu kommen. Darüber hinaus können Sie auf diesem Portal Ihre benötigten Daten anfordern und Datenannahmen einsehen. 

Web Data: Amazon Reviews

Wer sich für Marktforschung und Produktbewertungen interessiert, sollte die von bereitgestellten Datensätze verwenden Snap-Webdaten. Es enthält mehr als 34 Millionen Nutzerbewertungen auf Amazon von Juni 1995 bis März 2013. Der Datensatz enthält Klartext, Produktinformationen, Benutzernamen, Bewertungen und eine Rezension.

IMF Data

IWF-Daten

Das IWF-Daten Portal ist wertvoll für alle Arten von Wirtschafts- und Finanzdaten. Ob Sie nach Finanzdaten des IWF, Statistiken zum Außensektor, führenden Veröffentlichungen oder Daten zur Mikroökonomie suchen, hier finden Sie sie. Darüber hinaus können Sie einen Filter verwenden, um länderbezogene Daten zu erhalten.

Google Books Ngrams

Wenn Sie an Wortarten und Sprache arbeiten, Google Books-Ngrams kann dir erheblich weiterhelfen. Dieser Open-Source-Datensatz gibt Ihnen eine Vorstellung davon, wie Sie ein bestimmtes Wort und einen bestimmten Ausdruck im Laufe der Geschichte oder in einem bestimmten Zeitraum verwenden können. Quelle dieses Datensatzes sind die von Google indexierten digitalen Dokumente.

Markets Data: The Financial Times

Marktdaten: The Financial Times

Wenn Sie zuverlässige und genaue globale und regionale Aktienmarktdaten erhalten möchten, Marktdaten von The Financial Times ist hier, um Ihnen zu helfen. Es ermöglicht Ihnen, mit Marktdaten aus Amerika, Asien-Pazifik, Europa, Afrika und dem globalen Markt zu arbeiten.

Earthdata: NASA

Die NASA bietet vollen und offenen Zugang zu ihren wissenschaftlichen Daten über die Erddaten Programm, das Ihnen hilft, unseren Heimatplaneten zu verstehen und Projekte damit durchzuführen. Sie finden kostenlose Datensätze zu Atmosphäre, Biosphäre, Kryosphäre, menschlichen Dimensionen, Landoberfläche, Ozean, fester Erde, Sonne-Erde-Wechselwirkung und terrestrischer Hydrosphäre.

Dataset Search: Google

Wenn Sie Student, Forscher oder Datenwissenschaftler sind und nach Datensätzen suchen, um Ihr Projekt zu unterstützen, können Sie Unterstützung vom erhalten Datensatzsuche Portal. Sie können es eine Suchmaschine für Datensätze nennen, da Sie Datensätze finden können, die in verschiedenen Berichten im Internet durch Stichwortsuche gehostet werden. 

Open Data: CERN

Die europäische Forschungsorganisation CERN hat eine Open Data Portal, über das Sie auf die Forschungsdaten des CERN zugreifen können. Dieses Datensatzportal enthält zwei Petabyte an Daten zur Teilchenphysik. Darüber hinaus enthält es Anwendungen und Dokumentationen, die für die Datenanalyse benötigt werden.

Crime Data Explorer: FBI

Crime Data Explorer FBI

Das Kriminalitätsdaten-Explorer (CDE) ist der Open-Source-Datensatz des FBI, der darauf abzielt, einen einfacheren Zugriff auf den Austausch von kriminellen, nicht kriminellen und Strafverfolgungsdaten zu ermöglichen. Auf dieser Plattform können Sie nicht nur die erforderlichen Daten durch Visualisierung und Kategoriefilterung ermitteln, sondern auch Daten im CSV-Format herunterladen.

Zusammenfassung

Bisher haben Sie eine wirklich erschöpfende Liste qualitativ hochwertiger Datensätze durchgesehen. Der Artikel präsentiert Daten aus verschiedenen Nischen wie Naturwissenschaften, Krankenakten, Weltraumforschung, Strafregister, Produktbewertungen usw. 

Abhängig von dem Data-Science- oder Machine-Learning-Projekt, das Sie vorhaben, können Sie Ihre Wahl treffen. Fast alle Datensätze enthalten auch geeignete Anweisungen, die Ihnen bei Ihrem Projekt helfen.

Diese Ressourcen könnten Sie auch interessieren Data Science und ML lernen.

Danke an unsere Sponsoren
Weitere großartige Lektüre zum Thema Entwicklung
Treiben Sie Ihr Geschäft an
Einige der Tools und Dienste, die Ihr Unternehmen beim Wachstum unterstützen.
  • Invicti verwendet das Proof-Based Scanning™, um die identifizierten Schwachstellen automatisch zu verifizieren und innerhalb weniger Stunden umsetzbare Ergebnisse zu generieren.
    Versuchen Sie es mit Invicti
  • Web-Scraping, Wohn-Proxy, Proxy-Manager, Web-Unlocker, Suchmaschinen-Crawler und alles, was Sie zum Sammeln von Webdaten benötigen.
    Versuchen Sie es mit Brightdata
  • Semrush ist eine All-in-One-Lösung für digitales Marketing mit mehr als 50 Tools in den Bereichen SEO, Social Media und Content-Marketing.
    Versuchen Sie es mit Semrush
  • Intruder ist ein Online-Schwachstellenscanner, der Cyber-Sicherheitslücken in Ihrer Infrastruktur findet, um kostspielige Datenschutzverletzungen zu vermeiden.
    MIT DER INTELLIGENTEN SCHADENKALKULATION VON Intruder