25 ensembles de données ouverts pour vos projets Data Science/ML

The search for the right datasets could be daunting, especially when you need them for machine learning (ML) and data science projects. We reduce your research efforts by providing the ultimate list of free data sets.
Les ensembles de données sont simplement des collections de données. Il peut s'agir de données financières, de santé communautaire, de données boursières, de données bancaires, de données géographiques, de données de recherche en science des particules, d'évaluations de produits sur un site de commerce électronique, etc.
Les ensembles de données contiennent des données recueillies par le biais d'une norme d'enquête scientifique et sont importants pour visualisation, extraaction, forecasting, etc. Since data is the equivalent of crude oil in the digital universe, datasets are becoming commercial and scarce.
Continuez à lire pour découvrir les bases des ensembles de données. Vous découvrirez également des ensembles de données open source qui sont vraiment gratuits pour votre machine learning (ML) ou des projets de science des données.
Que sont les ensembles de données ?
Datasets are the collection of data in a structured and organized container. Usually, surveyors associate datasets with a unique body, for example, Données ouvertes de la Banque mondiale.
Again, the data collectors keep the datasets specific to a topic like the 2020 Census Data of the United States of America published by the United States Census Bureau.

You will find many datasets on global and local issues. Most datasets contain interrelated data points. For example, the population of a country and how obesity relates to different classes of this population.
The data scientists may need to clean, restructure, and process such datasets using big data tools to arrive at valuable conclusions like reducing plastic waste by analyzing plastic usage data, remedying workforce issues by analyzing wage data, training intelligence artificielle (IA), etc.
Types d'ensembles de données
Depending on the source of the datasets, they could be public or private. Public datasets are open to all and contribute much towards research and development.
Encore une fois, les ensembles de données peuvent être des types suivants en fonction des informations qu'ils contiennent :
- Multivariéate: Ces données contiennent plusieurs variables.
- Categorical: It portrays many categories of people.
- Numérique: Ces ensembles de données mesurent les données en nombres comme l'âge, la taille, etc.
- Corrélation: In this type, data points are interrelated.
- Basé sur le fichier : Ici, les ensembles de données sont stockés dans des fichiers.
- Bivariate: Un ensemble de données avec deux variables et une relation entre elles.
- Ensemble de données Web : Données collectées à partir d'un ou de plusieurs portails Internet similaires.
- Base de données: Such datasets store data in tables, columns, and rows.
Ensembles de données open source pour les projets de science des données
Les ensembles de données gratuits sont le carburant pour alimenter votre passion pour un science des données career. Because if you are in the early stages of your data science career, you might want to take on personal and non-commercial projects for self-confidence or portfolio building.

Tout d'abord, vous pouvez facilement tester vos compétences nouvellement acquises en appliquant des outils et des techniques à des problèmes de jeux de données réels.
Par exemple, il existe des données de recherche sur le cancer librement disponibles, des données Covid-19, des données de casiers judiciaires du FBI, des données d'analyse de particules de CERN, etc. Vous pouvez utiliser ces données et créer un modèle de science des données pour répondre à des problèmes sociaux, financiers et de santé vitaux.
Deuxièmement, ces projets fonctionnent comme des enrichisseurs de portefeuille pour votre carrière. Si vous pouvez créer un modèle d'analyse de données réussi qui peut offrir des informations exploitables, vous pouvez présenter ces modèles en ligne en créant sites Web de portefeuille. Employers prefer projects over statements of purpose.
Ensembles de données gratuits pour les projets d'apprentissage automatique

Like a data science professional, an ML professional must also work on self-managed projects to examine their skills. If the project becomes successful, it also becomes an ideal component for your online or offline portfolio of ML projects.
Therefore, you can now understand that data science and ML growth depend on structured datasets. If such datasets were too commercialized, research and development in the data science field would become fully corporate-centric.
Pour que la recherche sur le ML en science des données reste ouverte à tous, les agences, institutions et platforms offer free data sets:
Data.gov

You will find all the open data collected and processed by the US Govt. in Data.govL’ platform also offers resources and tools to conduct research, design data visualizations, develop mobile/web apps, etc.
Ses ensembles de données notables comprennent des données sur l'utilisation durable des terres, des données sur le logement rural, des cartes de navigation électroniques intérieures, etc.
Ensembles de données ouverts : Kaggle
Kaggle offre un océan de données publiques et de codes informatiques pour les projets de science des données. Vous pouvez sélectionner Datasets pour les données brutes et Code pour les codes de programmation. Les ensembles de données de tendance sur Kaggle sont les données AMEX, Simpsons Viewership, Chatbot données d'entraînement, etc.
Ensembles de données de segment : YouTube 8-M

Ensembles de données de segment de YouTube 8-M vous propose des annotations de segment vérifiées par des auditeurs humains. Vous pouvez également accéder à l'ensemble de données YouTube-8M à partir du même portail. L'ensemble de données contient 6.1 millions d'ID vidéo, 350,000 2.6 heures de vidéo, 3863 milliards de fonctionnalités audiovisuelles, 3.0 XNUMX classes de vidéos et, en moyenne, XNUMX étiquettes par vidéo.
Registre des données ouvertes sur AWS
ROD sur AWS aide les data scientists à partager et à découvrir des ensembles de données hébergés sur des ressources AWS. Certains ensembles de données intéressants que vous pouvez trouver ici sont The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl, etc.
Référentiel d'apprentissage automatique : UCI

Référentiel d'apprentissage automatique UCI currently maintains 622 datasets fit for data scientists and ML engineers to train their AI models. Also, there is a searchable interface to research the databases. Popular attractions are the Accelerometer dataset, Synchronous Machine dataset, Wikipedia Math Essentials, Turkish Headlines dataset, etc.
BigQuery Ensembles de données publics : Google Cloud

De nombreux ensembles de données publics sont stockés sur BigQuery. Google makes the dataset accessible for free through the Google Cloud Public Dataset Program. However, the free query has a limit of 1 TB per month. You can perform standard SQL and legacy SQL queries.
Ensembles de données publics impressionnants : GitHub
Ensembles de données publics impressionnants est un ensemble de données open source qui contient des données publiques thématiques. Collecté et trié à partir de divers blogs, réponses et commentaires d'utilisateurs, il combine des ensembles de données gratuits et payants sur la physique, le sport, les logiciels, le langage naturel et l'apprentissage automatique.
Données de la Banque mondiale

Données ouvertes de la Banque mondiale est platform where you get free access to global development data. It also offers other valuable resources such as pre-formatted tables and reports. You can easily browse by country or indicator to get the required data set.
FiveThirtyEight : Données
fivethirtyeight is an American website that deals in opinion poll analysis, politics, economics, and sports. You can access these polls and forecasts through data sets from its platform. You can download the data sets in one click.
ImageNet
ImageNet est une base de données d'images à partir de laquelle les chercheurs du monde entier peuvent obtenir des ensembles de données open source pour leurs projets non commerciaux. Ici, les images sont organisées en fonction de la hiérarchie WordNet. Le projet joue un rôle essentiel dans la recherche de niveau avancé en apprentissage profond.
Datasets Archives: UNICEF DATA
Le Datasets Archives, you can get hold of datasets collected by UNICEF across the world. Data on migration, displacement, diet, connectivity, education, health, learning, mortality, violence, childhood development, child marriage, child labor, and various statistics are available here.
Trouver des données ouvertes : Govt. du Royaume-Uni

Si votre projet a besoin de données publiées par des organismes locaux et le gouvernement central du Royaume-Uni, Trouver des données ouvertes est le portail que vous devriez consulter. Il couvre les dépenses publiques, les entreprises, la santé, l'éducation, la défense et d'autres ensembles de données.
Data: United States Census Bureau
Avez-vous besoin des données du recensement américain pour un projet pertinent ? Vous pouvez vous faire aider par Données USCB. Here, you can explore 2020 census data, tables, maps, and data profiles while visualizing data and using data tools.
Données et statistiques : CDC

Le Royaume-Uniates federal agency Centers for Disease Control and Prevention also provides free data sets to the public to access data and statistics from this portal. The data set topics are Environmental Health, Chronic Diseases, Births & Natality, Deaths & Mortality, Life Expectancy, Injuries & Violence, Reproductive Health, National Notifiable Diseases, etc.
Catalogue de données de la Banque mondiale

L’ENTREPRISE Catalogue de données collects free data sets that make the World Bank’s development-related data easily accessible. Using it in various projects is a breeze as you can effortlessly find and download your preferred information. It contains over 5000 data sets covering the World Bank’s microdata, finances, and energy platformes.
Données scientifiques spatiales de la NASA
La NASA offre l'accès à ses données d'archives sur Données scientifiques spatiales Coordinationated Archive. Ce platform is a great help for the general public, especially people working in education and space research. It has 400 TB of digital data containing information about 550 space science.
Obtenez les données : à l'intérieur d'Airbnb

Airbnb is a globally renowned online marketplace for homestays and holiday rentals. It also offers data collection on various cities worldwide from Obtenez les données. You can browse through the city to quickly get the data. Furthermore, you can request your required data and read data assumptions on this portal.
Web Data: Amazon Revvues
Those interested in market research and product reviews should use the datasets provided by Capturez les données Web. It contains more than 34 million user reviews on Amazon, from June 1995 to March 2013. The dataset contains plain text, product information, user name, ratings, and a revue.
Données du FMI

L’ENTREPRISE Données du FMI portal is valuable for all economic and financial data types. Whether you are searching for IMF finance data, external sector statistics, flagship publications, or microeconomics data, this is where you can find them. Moreover, you can use a filter to get country-wise revendre.
Google Livres Ngrams
Si vous travaillez sur des parties du discours et du langage, Google Livres Ngrams peut considérablement vous aider. Cet ensemble de données open source vous donne une idée de l'utilisation d'un mot et d'une expression particuliers tout au long de l'histoire ou d'une période spécifique. La source de cet ensemble de données sont les documents numériques indexés par Google.
Données sur les marchés : le Financial Times

If you want to get your hands on reliable and accurate global and regional share market data, Données sur les marchés par le Financial Times est là pour vous aider. Il vous permet de travailler avec des données de marché d'Amérique, d'Asie-Pacifique, d'Europe, d'Afrique et du marché mondial.
Données terrestres : NASA
La NASA fournit un accès complet et ouvert à ses données scientifiques via le Données terrestres programme qui vous aide à comprendre notre planète et à faire des projets avec elle. Vous pouvez trouver des ensembles de données gratuits sur l'atmosphère, la biosphère, la cryosphère, les dimensions humaines, la surface terrestre, l'océan, la terre solide, l'interaction soleil-terre et l'hydrosphère terrestre.
Recherche d'ensemble de données : Google

Si vous êtes un étudiant, un chercheur ou un scientifique des données à la recherche d'ensembles de données pour soutenir votre projet, vous pouvez demander l'aide du Recherche d'ensembles de données portail. Vous pouvez l'appeler un moteur de recherche pour les ensembles de données car il vous permet de découvrir des ensembles de données hébergés dans divers rapports sur le Web grâce à la recherche par mot-clé.
Données ouvertes : CERN
L'organisme de recherche européen CERN dispose d'un Open Data portal that you can use to access the research-generated data at CERN. This data set portal contains two petabytes of data related to particle physics. Moreover, it comes with applications and documentation needed for data analysis.
Explorateur de données criminelles : FBI

L’ENTREPRISE Explorateur de données sur la criminalité (CDE) is the open-source data set from the FBI that aims to provide easier access to criminal, noncriminal, and law enforcement data sharing. Besides allowing you to discover the necessary data through visualization and category filtering, this platform lets you download data in CSV format.
Mot de la fin
Jusqu'à présent, vous avez parcouru une liste vraiment exhaustive d'ensembles de données de haute qualité. L'article présente des données provenant de divers créneaux tels que les sciences physiques, les dossiers médicaux, la recherche spatiale, les casiers judiciaires, les évaluations de produits, etc.
Selon le projet de science des données ou d'apprentissage automatique que vous préparez, vous pouvez faire votre choix. Presque tous les ensembles de données ont également des instructions appropriées pour vous aider dans votre projet.
Vous pourriez également être intéressé par ces ressources pour apprendre la science des données et le ML.