25 Offene Datensätze für Ihre Data Science/ML-Projekte
Die Suche nach den richtigen Datensätzen kann insbesondere entmutigend seinally when you need them for machine learning (ML) and data science projects. We reduce your research efforts by providing the ultimate Liste der kostenlosen Datensätze.
Datensätze sind einfach Sammlungen von Daten. Dabei kann es sich um Finanz-, Gemeindegesundheits-, Börsendaten, Bankdaten, geografische Daten, partikelwissenschaftliche Forschungsdaten, Bewertungen von Produkten auf einer E-Commerce-Website usw. handeln.
Datensätze enthalten Daten, die durch einen wissenschaftlichen Erhebungsstandard erhoben wurden und für die weitere Verwendung wichtig sind Visualisierung, extraAktion, forecasting, etc. Since data is the equivalent of crude oil in the digital universe, datasets are becoming commercial and scarce.
Lesen Sie weiter, um mehr über die Grundlagen von Datensätzen zu erfahren. Sie werden auch einige Open-Source-Datensätze entdecken, die für Sie wirklich kostenlos sind Maschinelles Lernen (ML) oder Data-Science-Projekte.
Was sind Datensätze?
Datasets are the collection of data in a structured and organized container. Usually, surveyors associate datasets with a unique body, for example, Offene Daten der Weltbank.
Again, the data collectors keep the datasets specific to a topic like the 2020 Census Data of the United States of America published by the United States Census Bureau.

You will find many datasets on global and local issues. Most datasets contain interrelated data points. For example, the population of a country and how obesity relates to different classes of this population.
The data scientists may need to clean, restructure, and process such datasets using big data tools to arrive at valuable conclusions like reducing plastic waste by analyzing plastic usage data, remedying workforce issues by analyzing wage data, training künstliche Intelligenz (KI) und so weiter.
Arten von Datensätzen
Depending on the source of the datasets, they could be public or private. Public datasets are open to all and contribute much towards research and development.
Auch hier können Datensätze abhängig von den darin enthaltenen Informationen von den folgenden Typen sein:
- Multivariate: Solche Daten enthalten mehrere Variablen.
- Categorical: It portrays many categories of people.
- Numerisch: Solche Datensätze messen Daten in Zahlen wie Alter, Größe usw.
- Korrelation: In this type, data points are interrelated.
- Dateibasiert: Hier werden Datensätze in Dateien gespeichert.
- Bivariate: Ein Datensatz mit zwei Variablen und einer Beziehung zwischen ihnen.
- Web-Datensatz: Daten, die von einem oder vielen ähnlichen Internetportalen gesammelt wurden.
- Datenbank: Such datasets store data in tables, columns, and rows.
Open-Source-Datensätze für Data-Science-Projekte
Kostenlose Datensätze sind der Treibstoff für Ihre Leidenschaft für a Datenwissenschaft career. Because if you are in the early stages of your data science career, you might want to take on personal and non-commercial projects for self-confidence or portfolio building.

Erstens können Sie Ihre neu erlernten Fähigkeiten leicht testen, indem Sie Tools und Techniken auf reale Datensatzprobleme anwenden.
Zum Beispiel gibt es frei verfügbare Krebsforschungsdaten, Covid-19-Daten, FBI-Strafregisterdaten, Partikelanalysedaten von CERNusw. Sie können solche Daten verwenden und ein datenwissenschaftliches Modell erstellen, um wichtige soziale, finanzielle und gesundheitliche Probleme zu beantworten.
Zweitens wirken solche Projekte als Portfolio-Enhancer für Ihre Karriere. Wenn Sie ein erfolgreiches Datenanalysemodell erstellen können, das umsetzbare Erkenntnisse bietet, können Sie diese Modelle online präsentieren, indem Sie erstellen Portfolio-Websites. Employers prefer projects over statements of purpose.
Kostenlose Datensätze für Machine-Learning-Projekte

Like a data science professional, an ML professional must also work on self-managed projects to examine their skills. If the project becomes successful, it also becomes an ideal component for your online or offline portfolio of ML projects.
Therefore, you can now understand that data science and ML growth depend on structured datasets. If such datasets were too commercialized, research and development in the data science field would become fully corporate-zentrisch.
Um die datenwissenschaftliche ML-Forschung für alle offen zu halten, wurden die folgenden Agenturen, Institutionen und Plattformen bieten kostenlose Datensätze an:
Data.gov

You will find all the open data collected and processed by the US Govt. in Data.gov. Die Plattform bietet auch Ressourcen und Tools, um Recherchen durchzuführen, Datenvisualisierungen zu entwerfen, mobile/Web-Apps zu entwickeln usw.
Zu den bemerkenswerten Datensätzen gehören Daten zur nachhaltigen Landnutzung, Daten zum ländlichen Wohnungsbau, elektronische Binnenschifffahrtskarten usw.
Datensätze öffnen: Kaggle
Kaggle bietet einen Ozean öffentlicher Daten und Computercodes für Data-Science-Projekte. Sie können Datensätze für Rohdaten und Code für Programmiercodes auswählen. Trenddatensätze auf Kaggle sind AMEX-Daten, Simpsons Viewership, Chatbot Trainingsdaten usw.
Segmentdatensätze: YouTube 8-M

Datensätze segmentieren von YouTube 8-M bieten Ihnen von menschlichen Prüfern verifizierte Segmentanmerkungen. Über dasselbe Portal können Sie auch auf den YouTube-8M-Datensatz zugreifen. Der Datensatz enthält 6.1 Millionen Video-IDs, 350,000 Stunden Video, 2.6 Milliarden audiovisuelle Merkmale, 3863 Videoklassen und durchschnittlich 3.0 Labels pro Video.
Registrierung von Open Data in AWS
ROD auf AWS hilft Datenwissenschaftlern, Datensätze zu teilen und zu entdecken, die auf AWS-Ressourcen gehostet werden. Einige interessante Datensätze, die Sie hier finden können, sind The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl usw.
Repository für maschinelles Lernen: UCI

UCI-Repository für maschinelles Lernen currently maintains 622 datasets fit for data scientists and ML engineers to train their AI models. Also, there is a searchable interface to research the databases. Popular attractions are the Accelerometer dataset, Synchronous Machine dataset, Wikipedia Math Essentials, Turkish Headlines dataset, etc.
BigQuery Öffentliche Datensätze: Google Cloud

Viele öffentliche Datensätze werden auf gespeichert BigQuery. Google makes the dataset accessible for free through the Google Cloud Public Dataset Program. However, the free query has a limit of 1 TB per month. You can perform standard SQL and legacy SQL queries.
Fantastische öffentliche Datensätze: GitHub
Fantastische öffentliche Datensätze ist ein Open-Source-Datensatz, der themenzentrierte öffentliche Daten enthält. Gesammelt und sortiert aus verschiedenen Blogs, Antworten und Nutzer-Feedback, kombiniert es kostenlose und kostenpflichtige Datensätze zu Physik, Sport, Software, natürlicher Sprache und maschinellem Lernen.
Daten der Weltbank

Offene Daten der Weltbank is the platform where you get free access to global development data. It also offers other valuable resources such as pre-formatted tables and reports. You can easily browse by country or indicator to get the required data set.
FiveThirtyEight: Daten
FiveThirtyEight is an American website that deals in opinion poll analysis, politics, economics, and sports. You can access these polls and forecasts through data sets from its platform. You can download the data sets in one click.
IMAGEnet
IMAGEnet ist eine Bilddatenbank, aus der Forscher weltweit Open-Source-Datensätze für ihre nicht-kommerziellen Projekte beziehen können. Hier werden die Bilder basierend auf der WordNet-Hierarchie organisiert. Das Projekt spielt eine wichtige Rolle in der fortgeschrittenen Deep-Learning-Forschung.
Datasets Archives: UNICEF DATA
Verwendung der Datasets Archives, you can get hold of datasets collected by UNICEF across the world. Data on migration, displacement, diet, connectivity, education, health, learning, mortality, violence, childhood development, child marriage, child labor, and various statistics are available here.
Offene Daten finden: Govt. von Großbritannien

Wenn Ihr Projekt Daten benötigt, die von lokalen Stellen und der Zentralregierung des Vereinigten Königreichs veröffentlicht wurden, Offene Daten finden ist das Portal, das Sie sich ansehen sollten. Es umfasst Staatsausgaben, Unternehmen, Gesundheit, Bildung, Verteidigung und weitere Datensätze.
Data: United States Census Bureau
Benötigen Sie US-Volkszählungsdaten für ein relevantes Projekt? Sie können Hilfe in Anspruch nehmen USCB-Daten. Here, you can explore 2020 census data, tables, maps, and data profiles while visualizing data and using data tools.
Daten und Statistiken: CDC

Die Vereinigte States federal agency Centers for Disease Control and PrevEintrag also provides free data sets to the public to access data and statistics from this portal. The data set topics are Environmental Health, Chronic Diseases, Births & Natality, Deaths & Mortality, Life Expectancy, Injuries & Violence, Reproductive Health, National Notifiable Diseases, etc.
Datenkatalog der Weltbank

Der Datenkatalog collects free data sets that make the World Bank’s development-related data easily accessible. Using it in various projects is a breeze as you can effortlessly find and download your preferred information. It contains over 5000 data sets covering the World Bank’s microdata, finances, and energy platforms.
Weltraumwissenschaftliche Daten der NASA
Die NASA bietet Zugriff auf ihre Archivdaten an Weltraumwissenschaftliche Daten Koordinated Archive. This platform is a great help for the general public, especially people working in education and space research. It has 400 TB of digital data containing information about 550 space science.
Holen Sie sich die Daten: Inside Airbnb

Airbnb is a globally renowned online marketplace for homestays and holiday rentals. It also offers data collection on various cities worldwide from Holen Sie sich die Daten. You can browse through the city to quickly get the data. Furthermore, you can request your required data and read data assumptions on this portal.
Web Data: Amazon RevAnsichten
Those interested in market research and product reviews should use the datasets provided by Snap-Webdaten. It contains more than 34 million user reviews on Amazon, from June 1995 to March 2013. The dataset contains plain text, product information, user name, ratings, and a revAussicht.
IWF-Daten

Der IWF-Daten portal is valuable for all economic and financial data types. Whether you are searching for IMF finance data, external sector statistics, flagship publications, or microeconomics data, this is where you can find them. Moreover, you can use a filter to get country-wise Daten.
Google Books-Ngrams
Wenn Sie an Wortarten und Sprache arbeiten, Google Books-Ngrams kann dir erheblich weiterhelfen. Dieser Open-Source-Datensatz gibt Ihnen eine Vorstellung davon, wie Sie ein bestimmtes Wort und einen bestimmten Ausdruck im Laufe der Geschichte oder in einem bestimmten Zeitraum verwenden können. Quelle dieses Datensatzes sind die von Google indexierten digitalen Dokumente.
Marktdaten: The Financial Times

If you want to get your hands on reliable and accurate global and regional share market data, Marktdaten von The Financial Times ist hier, um Ihnen zu helfen. Es ermöglicht Ihnen, mit Marktdaten aus Amerika, Asien-Pazifik, Europa, Afrika und dem globalen Markt zu arbeiten.
Erddaten: NASA
Die NASA bietet vollen und offenen Zugang zu ihren wissenschaftlichen Daten über die Erddaten Programm, das Ihnen hilft, unseren Heimatplaneten zu verstehen und Projekte damit durchzuführen. Sie finden kostenlose Datensätze zu Atmosphäre, Biosphäre, Kryosphäre, menschlichen Dimensionen, Landoberfläche, Ozean, fester Erde, Sonne-Erde-Wechselwirkung und terrestrischer Hydrosphäre.
Datensatzsuche: Google

Wenn Sie Student, Forscher oder Datenwissenschaftler sind und nach Datensätzen suchen, um Ihr Projekt zu unterstützen, können Sie Unterstützung vom erhalten Datensatzsuche Portal. Sie können es eine Suchmaschine für Datensätze nennen, da Sie Datensätze finden können, die in verschiedenen Berichten im Internet durch Stichwortsuche gehostet werden.
Offene Daten: CERN
Die europäische Forschungsorganisation CERN hat eine Open Data portal that you can use to access the research-generated data at CERN. This data set portal contains two petabytes of data related to particle physics. Moreover, it comes with applications and documentation needed for data analysis.
Crime Data Explorer: FBI

Der Kriminalitätsdaten-Explorer (CDE) is the open-source data set from the FBI that aims to provide easier access to criminal, noncriminal, and law enforcement data sharing. Besides allowing you to discover the necessary data through visualization and category filtering, this platform lets you download data in CSV format.
Zusammenfassung
Bisher haben Sie eine wirklich erschöpfende Liste qualitativ hochwertiger Datensätze durchgesehen. Der Artikel präsentiert Daten aus verschiedenen Nischen wie Naturwissenschaften, Krankenakten, Weltraumforschung, Strafregister, Produktbewertungen usw.
Abhängig von dem Data-Science- oder Machine-Learning-Projekt, das Sie vorhaben, können Sie Ihre Wahl treffen. Fast alle Datensätze enthalten auch geeignete Anweisungen, die Ihnen bei Ihrem Projekt helfen.
Diese Ressourcen könnten Sie auch interessieren Data Science und ML lernen.