De zoektocht naar de juiste datasets kan ontmoedigend zijn, vooral wanneer u ze nodig hebt voor machine learning (ML) en data science projecten. Wij verminderen uw onderzoeksinspanningen door de ultieme lijst met gratis datasets aan te bieden.
Datasets zijn eenvoudigweg verzamelingen van gegevens. Het kan gaan om financiële gegevens, gezondheidsgegevens van gemeenschappen, beursgegevens, bankgegevens, geografische gegevens, onderzoeksgegevens van deeltjeswetenschappen, beoordelingen van producten op een e-commercesite, enz.
Datasets bevatten gegevens die verzameld zijn via een wetenschappelijke onderzoeksstandaard en zijn belangrijk voor verdere visualisatie, extractie, voorspelling, enz. Aangezien gegevens het equivalent zijn van ruwe olie in het digitale universum, worden datasets steeds commerciëler en schaarser.
Lees verder om de basis van datasets te leren kennen. U zult ook enkele open source datasets ontdekken die echt gratis zijn voor uw machine learning (ML) of data science projecten.
Wat zijn datasets?
Datasets zijn de verzameling van gegevens in een gestructureerde en georganiseerde container. Gewoonlijk associëren onderzoekers datasets met een unieke instantie, bijvoorbeeld World Bank Open Data.
Ook hier houden de dataverzamelaars de datasets specifiek voor een onderwerp, zoals de 2020 Census Data of the United States of America gepubliceerd door het United States Census Bureau.

U vindt veel datasets over wereldwijde en lokale kwesties. De meeste datasets bevatten onderling gerelateerde gegevenspunten. Bijvoorbeeld de bevolking van een land en hoe obesitas zich verhoudt tot verschillende klassen van deze bevolking.
De datawetenschappers moeten dergelijke datasets mogelijk opschonen, herstructureren en verwerken met behulp van big data-tools om tot waardevolle conclusies te komen, zoals het verminderen van plastic afval door het analyseren van gegevens over plasticgebruik, het verhelpen van personeelsproblemen door het analyseren van loongegevens, het trainen van kunstmatige intelligentie (AI), enzovoort.
Soorten datasets
Afhankelijk van de bron van de datasets, kunnen deze openbaar of privé zijn. Openbare datasets zijn voor iedereen toegankelijk en dragen veel bij aan onderzoek en ontwikkeling.
Opnieuw kunnen datasets van de volgende types zijn, afhankelijk van de informatie die ze bevatten:
- Multivariaat: Dergelijke gegevens bevatten meerdere variabelen.
- Categorisch: Ze geven veel categorieën mensen weer.
- Numeriek: Dergelijke datasets meten gegevens in getallen zoals leeftijd, lengte, enz.
- Correlatie: In dit type zijn datapunten met elkaar verbonden.
- Bestandsgebaseerd: Hier worden datasets opgeslagen in bestanden.
- Bivariaat: Een dataset met twee variabelen en een onderlinge relatie.
- Webdataset: Gegevens verzameld van één of vele gelijkaardige internetportalen.
- Database: Dergelijke datasets slaan gegevens op in tabellen, kolommen en rijen.
Open Source Datasets voor Data Science Projecten
Gratis datasets zijn de brandstof voor uw passie voor een carrière in datawetenschap. Want als u in het beginstadium van uw datawetenschapscarrière staat, wilt u misschien persoonlijke en niet-commerciële projecten uitvoeren om zelfvertrouwen te krijgen of uw portfolio op te bouwen.

Ten eerste kunt u uw nieuw geleerde vaardigheden gemakkelijk testen door tools en technieken toe te passen op echte datasetproblemen.
Er zijn bijvoorbeeld vrij beschikbare gegevens over kankeronderzoek, Covid-19-gegevens, FBI-gegevens over strafbladen, gegevens over deeltjesanalyse van CERN, enzovoort. U kunt dergelijke gegevens gebruiken en een data science-model bouwen om antwoord te geven op belangrijke sociale, financiële en gezondheidskwesties.
Ten tweede werken dergelijke projecten als portfolioverbeteraars voor uw carrière. Als u een succesvol gegevensanalysemodel kunt bouwen dat bruikbare inzichten kan bieden, kunt u die modellen online presenteren door portfoliowebsites te maken. Werkgevers geven de voorkeur aan projecten boven verklaringen.
Gratis gegevenssets voor Machine Learning-projecten

Net als een data science professional moet een ML-professional ook aan zelfgestuurde projecten werken om hun vaardigheden te onderzoeken. Als het project succesvol wordt, wordt het ook een ideale component voor uw online of offline portfolio van ML-projecten.
Daarom kunt u nu begrijpen dat de groei van data science en ML afhankelijk is van gestructureerde datasets. Als dergelijke datasets te veel gecommercialiseerd zouden worden, zou onderzoek en ontwikkeling op het gebied van data science volledig bedrijfsgericht worden.
Om het ML-onderzoek op het gebied van data science voor iedereen open te houden, bieden de volgende instanties, instellingen en platforms gratis datasets aan:
Data.gov

Op Data.gov vindt u alle open gegevens die door de Amerikaanse overheid zijn verzameld en verwerkt. Het platform biedt ook bronnen en hulpmiddelen om onderzoek te doen, datavisualisaties te ontwerpen, mobiele/webapps te ontwikkelen, enz.
Tot de opmerkelijke datasets behoren gegevens over duurzaam landgebruik, gegevens over plattelandswoningen, elektronische navigatiekaarten voor de binnenvaart, enz.
Open Datasets: Kaggle
Kaggle biedt een oceaan van openbare gegevens en computercodes voor data science-projecten. U kunt Datasets selecteren voor ruwe gegevens en Code voor programmeercodes. Trending datasets op Kaggle zijn AMEX-gegevens, Simpsons Viewership, Chatbot-trainingsgegevens, enz.
Segment Datasets: YouTube 8-M

Segmentdatasets van YouTube 8-M bieden u segmentannotaties die door menselijke controleurs zijn geverifieerd. U hebt via hetzelfde portaal ook toegang tot de YouTube-8M Dataset. De dataset bevat 6,1 miljoen video-ID’s, 350.000 uur video, 2,6 miljard audio/visuele kenmerken, 3863 videoklassen en gemiddeld 3,0 labels per video.
Register van open gegevens op AWS
ROD op AWS helpt gegevenswetenschappers bij het delen en ontdekken van datasets die gehost worden op AWS-resources. Enkele interessante datasets die u hier kunt vinden zijn The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl, enz.
Repository voor machinaal leren: UCI

UCI Machine Learning Repository onderhoudt momenteel 622 datasets die geschikt zijn voor datawetenschappers en ML-ingenieurs om hun AI-modellen te trainen. Er is ook een doorzoekbare interface om de databases te onderzoeken. Populaire attracties zijn de Accelerometer dataset, Synchronous Machine dataset, Wikipedia Math Essentials, Turkish Headlines dataset, enz.
BigQuery openbare datasets: Google Cloud

Veel openbare datasets worden opgeslagen op BigQuery. Google maakt de dataset gratis toegankelijk via het Google Cloud Public Dataset Program. De gratis zoekopdracht heeft echter een limiet van 1 TB per maand. U kunt standaard SQL- en legacy SQL-query’s uitvoeren.
Geweldige openbare datasets: GitHub
Awesome Public Datasets is een open-source dataset die onderwerpgerichte openbare gegevens bevat. Het is verzameld en gesorteerd uit verschillende blogs, antwoorden en feedback van gebruikers en combineert gratis en betaalde datasets over natuurkunde, sport, software, natuurlijke taal en machinaal leren.
Gegevens Wereldbank

World Bank Open Data is het platform waar u gratis toegang krijgt tot wereldwijde ontwikkelingsgegevens. Het biedt ook andere waardevolle bronnen zoals voorgeformatteerde tabellen en rapporten. U kunt eenvoudig bladeren op land of indicator om de gewenste gegevensset te krijgen.
FiveThirtyEight: Gegevens
FiveThirtyEight is een Amerikaanse website die zich bezighoudt met opiniepeilingen, politiek, economie en sport. U hebt toegang tot deze opiniepeilingen en voorspellingen via datasets van het platform. U kunt de datasets met één klik downloaden.
ImageNet
ImageNet is een beelddatabank waaruit onderzoekers wereldwijd open source datasets kunnen halen voor hun niet-commerciële projecten. Hier worden de afbeeldingen georganiseerd op basis van de WordNet-hiërarchie. Het project speelt een vitale rol in geavanceerd deep learning-onderzoek.
Datasets Archief: UNICEF GEGEVENS
Via de Datasets Archives kunt u datasets bemachtigen die door UNICEF over de hele wereld zijn verzameld. Gegevens over migratie, ontheemding, voeding, connectiviteit, onderwijs, gezondheid, leren, sterfte, geweld, ontwikkeling van kinderen, kindhuwelijken, kinderarbeid en diverse statistieken zijn hier beschikbaar.
Open gegevens zoeken: Regering van het Verenigd Koninkrijk

Als uw project gegevens nodig heeft die gepubliceerd zijn door lokale instanties en de centrale overheid van het Verenigd Koninkrijk, dan is Find Open Data het portaal dat u moet bekijken. Het omvat overheidsuitgaven, bedrijven, gezondheid, onderwijs, defensie en nog veel meer datasets.
Gegevens: United States Census Bureau
Hebt u gegevens van de Amerikaanse volkstelling nodig voor een relevant project? U kunt hulp krijgen van USCB Data. Hier kunt u 2020 volkstellingsgegevens, tabellen, kaarten en gegevensprofielen verkennen, gegevens visualiseren en gegevenshulpmiddelen gebruiken.
Gegevens en statistieken: CDC

Het Amerikaanse federale agentschap Centers for Disease Control and Prevention biedt ook gratis gegevenssets aan het publiek om toegang te krijgen tot gegevens en statistieken van dit portaal. De onderwerpen van de datasets zijn Milieugezondheid, Chronische ziekten, Geboorten & geboorte, Sterfgevallen & sterfte, Levensverwachting, Verwondingen & geweld, Reproductieve gezondheid, Nationale meldingsplichtige ziekten, enz.
Wereldbank-gegevenscatalogus

De Data Catalog verzamelt gratis gegevenssets die de ontwikkelingsgerelateerde gegevens van de Wereldbank gemakkelijk toegankelijk maken. Het gebruik ervan in verschillende projecten is een fluitje van een cent, omdat u moeiteloos de informatie van uw voorkeur kunt vinden en downloaden. De catalogus bevat meer dan 5000 gegevenssets voor de microgegevens, financiën en energieplatforms van de Wereldbank.
NASA ruimtewetenschappelijke gegevens
NASA biedt toegang tot zijn archiefgegevens op Space Science Data Coordinated Archive. Dit platform is een grote hulp voor het grote publiek, vooral voor mensen die in het onderwijs en ruimteonderzoek werken. Het heeft 400 TB aan digitale gegevens met informatie over 550 ruimtewetenschappen.
Ontvang de gegevens: Binnen bij Airbnb

Airbnb is een wereldwijd bekende online marktplaats voor vakantiehuisjes en vakantieverhuur. Het biedt ook gegevensverzameling over verschillende steden wereldwijd van Get the Data. U kunt door de stad bladeren om snel de gegevens te krijgen. Bovendien kunt u op dit portaal uw gewenste gegevens opvragen en gegevensaannames lezen.
Webgegevens: Amazon beoordelingen
Geïnteresseerden in marktonderzoek en productbeoordelingen moeten de datasets van Snap Web Data gebruiken. Deze bevat meer dan 34 miljoen gebruikersbeoordelingen op Amazon, van juni 1995 tot maart 2013. De dataset bevat platte tekst, productinformatie, gebruikersnaam, beoordelingen en een recensie.
IMF-gegevens

Het IMF Data portaal is waardevol voor alle economische en financiële datatypes. Of u nu op zoek bent naar financiële gegevens van het IMF, statistieken over de externe sector, vlaggenschippublicaties of micro-economische gegevens, hier vindt u ze. Bovendien kunt u een filter gebruiken om gegevens per land te krijgen.
Google Boeken Ngrammen
Als u werkt aan spraakdelen en taal, kan Google Books Ngrams u aanzienlijk helpen. Deze open-source dataset geeft u een idee over het gebruik van een bepaald woord en zinsdeel door de geschiedenis heen of in een bepaald tijdsbereik. De bron van deze dataset zijn de digitale documenten die door Google zijn geïndexeerd.
Marktgegevens: De Financiële Times

Als u betrouwbare en nauwkeurige gegevens over de wereldwijde en regionale aandelenmarkt in handen wilt krijgen, dan is Markets Data van The Financial Times er om u te helpen. Hiermee kunt u werken met marktgegevens uit Amerika, Azië-Pacific, Europa en Afrika.
Earthdata: NASA
NASA biedt volledige en open toegang tot haar wetenschappelijke gegevens via het Earth Data programma dat u helpt onze planeet te begrijpen en er projecten mee uit te voeren. U kunt gratis datasets vinden over de atmosfeer, biosfeer, cryosfeer, menselijke dimensies, landoppervlak, oceaan, vaste aarde, interactie zon-aarde en terrestrische hydrosfeer.
Dataset zoeken: Google

Als u een student, onderzoeker of datawetenschapper bent en op zoek bent naar datasets om uw project te ondersteunen, kunt u hulp krijgen van het portaal Dataset Search. U kunt het een zoekmachine voor datasets noemen, omdat u er via trefwoordzoeken datasets kunt vinden die in verschillende rapporten op het web worden gehost.
Open gegevens: CERN
De Europese onderzoeksorganisatie CERN heeft een Open Data portaal dat u kunt gebruiken om toegang te krijgen tot de door onderzoek gegenereerde data bij CERN. Dit dataportaal bevat twee petabytes aan gegevens met betrekking tot deeltjesfysica. Bovendien bevat het toepassingen en documentatie die nodig zijn voor gegevensanalyse.
Verkenner van misdaadgegevens: FBI

De Crime Data Explorer (CDE) is de open-source dataset van de FBI die als doel heeft om eenvoudiger toegang te bieden tot het delen van criminele, niet-strafrechtelijke en wetshandhavingsgegevens. Naast het feit dat dit platform u in staat stelt om de benodigde gegevens te ontdekken door middel van visualisatie en categoriefiltering, kunt u gegevens ook downloaden in CSV-formaat.
Laatste woorden
Tot nu toe hebt u een werkelijk uitputtende lijst van hoogwaardige datasets doorgenomen. Het artikel presenteert gegevens uit verschillende niches, zoals natuurwetenschappen, medische gegevens, ruimteonderzoek, strafbladen, productbeoordelingen, enz.
Afhankelijk van het datascience- of machine-learningproject waar u mee bezig bent, kunt u een keuze maken. Bijna alle datasets hebben ook goede instructies om u te helpen bij uw project.
Misschien bent u ook geïnteresseerd in deze bronnen om datawetenschap en ML te leren.
-
Ik ben een technische en creatieve contentschrijver met meer dan 10 jaar ervaring in de desbetreffende branche. Mijn diploma's Engels en Sociologie, in combinatie met werkervaring in softwareontwikkelingsbedrijven, helpen mij te begrijpen hoe technologie... meer lezen