Geekflare est soutenu par notre public. Nous pouvons gagner des commissions d'affiliation en achetant des liens sur ce site.
Partager sur:

25 ensembles de données ouverts pour vos projets Data Science/ML

Que sont les ensembles de données
Scanner de sécurité des applications Web Invicti – la seule solution qui offre une vérification automatique des vulnérabilités avec Proof-Based Scanning™.

La recherche des bons ensembles de données peut être décourageante, en particulier lorsque vous en avez besoin pour des projets d'apprentissage automatique (ML) et de science des données. Nous réduisons vos efforts de recherche en fournissant la liste ultime des ensembles de données gratuits.

Les ensembles de données sont simplement des collections de données. Il peut s'agir de données financières, de santé communautaire, de données boursières, de données bancaires, de données géographiques, de données de recherche en science des particules, d'évaluations de produits sur un site de commerce électronique, etc.

Les ensembles de données contiennent des données recueillies par le biais d'une norme d'enquête scientifique et sont importants pour visualisation, extraction, prévision, etc. Les données étant l'équivalent du pétrole brut dans l'univers numérique, les ensembles de données deviennent commerciaux et rares.

Continuez à lire pour découvrir les bases des ensembles de données. Vous découvrirez également des ensembles de données open source qui sont vraiment gratuits pour votre machine learning (ML) ou des projets de science des données.    

Que sont les ensembles de données ?

Les ensembles de données sont la collecte de données dans un conteneur structuré et organisé. Habituellement, les géomètres associent des ensembles de données à un corps unique, par exemple, Données ouvertes de la Banque mondiale.

Encore une fois, les collecteurs de données conservent les ensembles de données spécifiques à un sujet comme les données du recensement 2020 des États-Unis d'Amérique publiées par le United States Census Bureau.

Vous trouverez de nombreux ensembles de données sur des problèmes mondiaux et locaux. La plupart des ensembles de données contiennent des points de données interdépendants. Par exemple, la population d'un pays et comment l'obésité se rapporte aux différentes classes de cette population.    

Les scientifiques des données peuvent avoir besoin de nettoyer, restructurer et traiter ces ensembles de données à l'aide d'outils de mégadonnées pour arriver à des conclusions précieuses telles que la réduction des déchets plastiques en analysant les données d'utilisation du plastique, la résolution des problèmes de main-d'œuvre en analysant les données sur les salaires, la formation intelligence artificielle (IA), etc. 

Types d'ensembles de données

Selon la source des ensembles de données, ils peuvent être publics ou privés. Les ensembles de données publics sont ouverts à tous et contribuent beaucoup à la recherche et au développement. 

Encore une fois, les ensembles de données peuvent être des types suivants en fonction des informations qu'ils contiennent :

  • Multivarié : Ces données contiennent plusieurs variables.
  • Catégorique: Il représente de nombreuses catégories de personnes.
  • Numérique: Ces ensembles de données mesurent les données en nombres comme l'âge, la taille, etc.
  • Corrélation: Dans ce type, les points de données sont interdépendants. 
  • Basé sur le fichier : Ici, les ensembles de données sont stockés dans des fichiers.
  • Bivarié : Un ensemble de données avec deux variables et une relation entre elles. 
  • Ensemble de données Web : Données collectées à partir d'un ou de plusieurs portails Internet similaires.  
  • Base de données: Ces ensembles de données stockent les données dans des tables, des colonnes et des lignes. 

Ensembles de données open source pour les projets de science des données

Les ensembles de données gratuits sont le carburant pour alimenter votre passion pour un science des données carrière. Parce que si vous en êtes aux premiers stades de votre carrière en science des données, vous voudrez peut-être entreprendre des projets personnels et non commerciaux pour la confiance en soi ou la constitution d'un portefeuille. 

Tout d'abord, vous pouvez facilement tester vos compétences nouvellement acquises en appliquant des outils et des techniques à des problèmes de jeux de données réels.

Par exemple, il existe des données de recherche sur le cancer librement disponibles, des données Covid-19, des données de casiers judiciaires du FBI, des données d'analyse de particules de CERN, etc. Vous pouvez utiliser ces données et créer un modèle de science des données pour répondre à des problèmes sociaux, financiers et de santé vitaux.   

Deuxièmement, ces projets fonctionnent comme des enrichisseurs de portefeuille pour votre carrière. Si vous pouvez créer un modèle d'analyse de données réussi qui peut offrir des informations exploitables, vous pouvez présenter ces modèles en ligne en créant sites Web de portefeuille. Les employeurs préfèrent les projets aux déclarations d'intention.

Ensembles de données gratuits pour les projets d'apprentissage automatique

Comme un professionnel de la science des données, un professionnel du ML doit également travailler sur des projets autogérés pour examiner ses compétences. Si le projet réussit, il devient également un composant idéal pour votre portefeuille de projets ML en ligne ou hors ligne.

Par conséquent, vous pouvez désormais comprendre que la science des données et la croissance du ML dépendent d'ensembles de données structurés. Si de tels ensembles de données étaient trop commercialisés, la recherche et le développement dans le domaine de la science des données deviendraient entièrement centrés sur l'entreprise.

Pour que la recherche sur le ML en science des données reste ouverte à tous, les agences, institutions et les plateformes offrent des ensembles de données gratuits:   

Data.gov

Vous trouverez toutes les données ouvertes collectées et traitées par le gouvernement américain. dans Data.gov. La plateforme propose également des ressources et des outils pour effectuer des recherches, concevoir des visualisations de données, développer des applications mobiles/web, etc.

Ses ensembles de données notables comprennent des données sur l'utilisation durable des terres, des données sur le logement rural, des cartes de navigation électroniques intérieures, etc.  

Open Datasets: Kaggle

Kaggle offre un océan de données publiques et de codes informatiques pour les projets de science des données. Vous pouvez sélectionner Datasets pour les données brutes et Code pour les codes de programmation. Les ensembles de données de tendance sur Kaggle sont les données AMEX, Simpsons Viewership, Chatbot données d'entraînement, etc.  

Segment Datasets: YouTube 8-M

Ensembles de données de segment de YouTube 8-M vous propose des annotations de segment vérifiées par des auditeurs humains. Vous pouvez également accéder à l'ensemble de données YouTube-8M à partir du même portail. L'ensemble de données contient 6.1 millions d'ID vidéo, 350,000 2.6 heures de vidéo, 3863 milliards de fonctionnalités audiovisuelles, 3.0 XNUMX classes de vidéos et, en moyenne, XNUMX étiquettes par vidéo.

Registry of Open Data on AWS

ROD sur AWS aide les data scientists à partager et à découvrir des ensembles de données hébergés sur des ressources AWS. Certains ensembles de données intéressants que vous pouvez trouver ici sont The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl, etc.  

Machine Learning Repository: UCI

Référentiel d'apprentissage automatique UCI gère actuellement 622 ensembles de données adaptés aux scientifiques des données et aux ingénieurs ML pour former leurs modèles d'IA. En outre, il existe une interface de recherche pour rechercher les bases de données. Les attractions populaires sont l'ensemble de données de l'accéléromètre, l'ensemble de données de la machine synchrone, l'ensemble de données Wikipedia Math Essentials, l'ensemble de données Turkish Headlines, etc.   

BigQuery Public Datasets: Google Cloud

De nombreux ensembles de données publics sont stockés sur BigQuery. Google rend l'ensemble de données accessible gratuitement via le programme Google Cloud Public Dataset. Cependant, la requête gratuite a une limite de 1 To par mois. Vous pouvez effectuer des requêtes SQL standard et SQL hérité.  

Awesome Public Datasets: GitHub

Ensembles de données publics impressionnants est un ensemble de données open source qui contient des données publiques thématiques. Collecté et trié à partir de divers blogs, réponses et commentaires d'utilisateurs, il combine des ensembles de données gratuits et payants sur la physique, le sport, les logiciels, le langage naturel et l'apprentissage automatique.

World Bank Data

Données de la Banque mondiale

Données ouvertes de la Banque mondiale est la plate-forme où vous obtenez un accès gratuit aux données sur le développement mondial. Il offre également d'autres ressources précieuses telles que des tableaux et des rapports préformatés. Vous pouvez facilement naviguer par pays ou par indicateur pour obtenir l'ensemble de données requis. 

FiveThirtyEight: Data

fivethirtyeight est un site Web américain qui traite de l'analyse des sondages d'opinion, de la politique, de l'économie et du sport. Vous pouvez accéder à ces sondages et prévisions via des ensembles de données à partir de sa plateforme. Vous pouvez télécharger les jeux de données en un clic.

ImageNet

ImageNet est une base de données d'images à partir de laquelle les chercheurs du monde entier peuvent obtenir des ensembles de données open source pour leurs projets non commerciaux. Ici, les images sont organisées en fonction de la hiérarchie WordNet. Le projet joue un rôle essentiel dans la recherche de niveau avancé en apprentissage profond. 

Datasets Archives: UNICEF DATA

Le Archives des ensembles de données, vous pouvez obtenir des ensembles de données collectées par l'UNICEF à travers le monde. Des données sur la migration, le déplacement, l'alimentation, la connectivité, l'éducation, la santé, l'apprentissage, la mortalité, la violence, le développement de l'enfance, le mariage des enfants, le travail des enfants et diverses statistiques sont disponibles ici. 

Find Open Data: Govt. of UK

Si votre projet a besoin de données publiées par des organismes locaux et le gouvernement central du Royaume-Uni, Trouver des données ouvertes est le portail que vous devriez consulter. Il couvre les dépenses publiques, les entreprises, la santé, l'éducation, la défense et d'autres ensembles de données.

Data: United States Census Bureau

Avez-vous besoin des données du recensement américain pour un projet pertinent ? Vous pouvez vous faire aider par Données USCB. Ici, vous pouvez explorer les données, les tableaux, les cartes et les profils de données du recensement de 2020 tout en visualisant les données et en utilisant des outils de données.

Data and Statistics: CDC

L'agence fédérale des États-Unis Centers for Disease Control and Prevention fournit également des ensembles de données gratuits au public pour accéder aux données et aux statistiques de ce portail. Les sujets de l'ensemble de données sont la santé environnementale, les maladies chroniques, les naissances et la natalité, les décès et la mortalité, l'espérance de vie, les blessures et la violence, la santé reproductive, les maladies à déclaration obligatoire nationale, etc.

World Bank Data Catalog

Catalogue de données de la Banque mondiale

Le standard Catalogue de données collecte des ensembles de données gratuits qui rendent les données de développement de la Banque mondiale facilement accessibles. L'utiliser dans divers projets est un jeu d'enfant car vous pouvez facilement trouver et télécharger vos informations préférées. Il contient plus de 5000 XNUMX ensembles de données couvrant les plateformes de microdonnées, de finances et d'énergie de la Banque mondiale.

NASA Space Science Data

La NASA offre l'accès à ses données d'archives sur Données scientifiques spatiales Archives coordonnées. Cette plateforme est d'une grande aide pour le grand public, en particulier les personnes travaillant dans l'éducation et la recherche spatiale. Il dispose de 400 To de données numériques contenant des informations sur 550 sciences spatiales. 

Get the Data: Inside Airbnb

Obtenez les données à l'intérieur d'Airbnb

Airbnb est un marché en ligne de renommée mondiale pour les séjours chez l'habitant et les locations de vacances. Il offre également la collecte de données sur diverses villes du monde à partir de Obtenez les données. Vous pouvez parcourir la ville pour obtenir rapidement les données. De plus, vous pouvez demander les données requises et lire les hypothèses de données sur ce portail. 

Web Data: Amazon Reviews

Les personnes intéressées par les études de marché et les avis sur les produits doivent utiliser les ensembles de données fournis par Capturez les données Web. Il contient plus de 34 millions d'avis d'utilisateurs sur Amazon, de juin 1995 à mars 2013. L'ensemble de données contient du texte brut, des informations sur le produit, le nom d'utilisateur, des évaluations et un avis.

IMF Data

Données du FMI

Le standard Données du FMI portail est précieux pour tous les types de données économiques et financières. Que vous recherchiez des données financières du FMI, des statistiques du secteur extérieur, des publications phares ou des données microéconomiques, c'est là que vous pouvez les trouver. De plus, vous pouvez utiliser un filtre pour obtenir des données par pays.

Google Books Ngrams

Si vous travaillez sur des parties du discours et du langage, Google Livres Ngrams peut considérablement vous aider. Cet ensemble de données open source vous donne une idée de l'utilisation d'un mot et d'une expression particuliers tout au long de l'histoire ou d'une période spécifique. La source de cet ensemble de données sont les documents numériques indexés par Google.

Markets Data: The Financial Times

Données sur les marchés : le Financial Times

Si vous souhaitez mettre la main sur des données fiables et précises sur le marché des actions mondiales et régionales, Données sur les marchés par le Financial Times est là pour vous aider. Il vous permet de travailler avec des données de marché d'Amérique, d'Asie-Pacifique, d'Europe, d'Afrique et du marché mondial.

Earthdata: NASA

La NASA fournit un accès complet et ouvert à ses données scientifiques via le Données terrestres programme qui vous aide à comprendre notre planète et à faire des projets avec elle. Vous pouvez trouver des ensembles de données gratuits sur l'atmosphère, la biosphère, la cryosphère, les dimensions humaines, la surface terrestre, l'océan, la terre solide, l'interaction soleil-terre et l'hydrosphère terrestre.

Dataset Search: Google

Si vous êtes un étudiant, un chercheur ou un scientifique des données à la recherche d'ensembles de données pour soutenir votre projet, vous pouvez demander l'aide du Recherche d'ensembles de données portail. Vous pouvez l'appeler un moteur de recherche pour les ensembles de données car il vous permet de découvrir des ensembles de données hébergés dans divers rapports sur le Web grâce à la recherche par mot-clé. 

Open Data: CERN

L'organisme de recherche européen CERN dispose d'un Open Data portail que vous pouvez utiliser pour accéder aux données générées par la recherche au CERN. Ce portail d'ensembles de données contient deux pétaoctets de données liées à la physique des particules. De plus, il est livré avec les applications et la documentation nécessaires à l'analyse des données.

Crime Data Explorer: FBI

Explorateur de données criminelles FBI

Le standard Explorateur de données sur la criminalité (CDE) est l'ensemble de données open source du FBI qui vise à faciliter l'accès au partage de données criminelles, non criminelles et d'application de la loi. En plus de vous permettre de découvrir les données nécessaires grâce à la visualisation et au filtrage des catégories, cette plateforme vous permet de télécharger des données au format CSV.

Mot de la fin

Jusqu'à présent, vous avez parcouru une liste vraiment exhaustive d'ensembles de données de haute qualité. L'article présente des données provenant de divers créneaux tels que les sciences physiques, les dossiers médicaux, la recherche spatiale, les casiers judiciaires, les évaluations de produits, etc. 

Selon le projet de science des données ou d'apprentissage automatique que vous préparez, vous pouvez faire votre choix. Presque tous les ensembles de données ont également des instructions appropriées pour vous aider dans votre projet.

Vous pourriez également être intéressé par ces ressources pour apprendre la science des données et le ML.

Merci à nos commanditaires
Plus de bonnes lectures sur le développement
Alimentez votre entreprise
Certains des outils et services pour aider votre entreprise à se développer.
  • Invicti utilise Proof-Based Scanning™ pour vérifier automatiquement les vulnérabilités identifiées et générer des résultats exploitables en quelques heures seulement.
    Essayez Invicti
  • Web scraping, proxy résidentiel, proxy manager, web unlocker, moteur de recherche et tout ce dont vous avez besoin pour collecter des données Web.
    Essayez Brightdata
  • Semrush est une solution de marketing numérique tout-en-un avec plus de 50 outils de référencement, de médias sociaux et de marketing de contenu.
    Essayez Semrush
  • Intruder est un scanner de vulnérabilités en ligne qui détecte les failles de cybersécurité de votre infrastructure, afin d'éviter des violations de données coûteuses.
    Essayez Intruder