25 conjuntos de datos abiertos para sus proyectos de ciencia de datos/ML

La búsqueda de los conjuntos de datos adecuados podría resultar desalentadora, especialmenteally when you need them for machine learning (ML) and data science projects. We reduce your research efforts by providing the ultimate lista de conjuntos de datos gratuitos.
Los conjuntos de datos son simplemente colecciones de datos. Podría ser datos financieros, de salud comunitaria, del mercado de valores, datos bancarios, datos geográficos, datos de investigación científica de partículas, calificaciones de productos en un sitio de comercio electrónico, etc.
Los conjuntos de datos contienen datos recopilados a través de un estándar de encuesta científica y son importantes para futuras visualización, extracción, forecasting, etc. Dado que los datos son el equivalente al petróleo crudo en el universo digital, los conjuntos de datos se están volviendo comerciales y escasos.
Continúe leyendo para conocer los conceptos básicos sobre los conjuntos de datos. También descubrirá algunos conjuntos de datos de código abierto que son verdaderamente gratuitos para su máquina de aprendizaje (ML) o proyectos de ciencia de datos.
¿Qué son los conjuntos de datos?
Datasets are the collection of data in a structured and organized container. Usually, surveyors associate datasets with a unique body, for example, Datos abiertos del Banco Mundial.
Again, the data collectors keep the datasets specific to a topic like the 2020 Census Data of the United States of America published by the United States Census Bureau.

You will find many datasets on global and local issues. Most datasets contain interrelated data points. For example, the population of a country and how obesity relates to different classes of this population.
The data scientists may need to clean, restructure, and process such datasets using big data tools to arrive at valuable conclusions like reducing plastic waste by analyzing plastic usage data, remedying workforce issues by analyzing wage data, training inteligencia artificial (AI), y así sucesivamente.
Tipos de conjuntos de datos
Depending on the source of the datasets, they could be public or private. Public datasets are open to all and contribute much towards research and development.
Nuevamente, los conjuntos de datos pueden ser de los siguientes tipos dependiendo de la información contenida en ellos:
- Multivariate: Dichos datos contienen múltiples variables.
- Categorical: It portrays many categories of people.
- Numérico: Dichos conjuntos de datos miden datos en números como edad, altura, etc.
- Correlación: In this type, data points are interrelated.
- Basado en archivos: Aquí, los conjuntos de datos se almacenan en archivos.
- Bivariate: Un conjunto de datos con dos variables y una relación entre ellas.
- Conjunto de datos web: Datos recopilados de uno o varios portales de Internet similares.
- Base de datos: Such datasets store data in tables, columns, and rows.
Conjuntos de datos de código abierto para proyectos de ciencia de datos
Los conjuntos de datos gratuitos son el combustible para impulsar su pasión por un Ciencia de los datos career. Because if you are in the early stages of your data science career, you might want to take on personal and non-commercial projects for self-confidence or portfolio building.

Primero, puede probar fácilmente sus habilidades recién aprendidas aplicando herramientas y técnicas a problemas de conjuntos de datos del mundo real.
Por ejemplo, hay datos de investigación del cáncer disponibles gratuitamente, datos de Covid-19, datos de antecedentes penales del FBI, datos de análisis de partículas de CERN, etc. Puede usar dichos datos y crear un modelo de ciencia de datos para responder a problemas sociales, financieros y de salud vitales.
En segundo lugar, tales proyectos funcionan como potenciadores de cartera para su carrera. Si puede crear un modelo de análisis de datos exitoso que pueda ofrecer información procesable, puede exhibir esos modelos en línea creando sitios web de cartera. Employers prefer projects over statements of purpose.
Conjuntos de datos gratuitos para proyectos de aprendizaje automático

Like a data science professional, an ML professional must also work on self-managed projects to examine their skills. If the project becomes successful, it also becomes an ideal component for your online or offline portfolio of ML projects.
Therefore, you can now understand that data science and ML growth depend on structured datasets. If such datasets were too commercialized, research and development in the data science field would become fully corporate-céntrico.
Para mantener la investigación de ML de ciencia de datos abierta a todos, las siguientes agencias, instituciones y las plataformas ofrecen conjuntos de datos gratuitos:
Data.gov

You will find all the open data collected and processed by the US Govt. in Data.gov. La plataforma también ofrece recursos y herramientas para realizar investigaciones, diseñar visualizaciones de datos, desarrollar aplicaciones móviles/web, etc.
Sus conjuntos de datos notables incluyen datos de uso sostenible de la tierra, datos de viviendas rurales, cartas de navegación electrónica interior, etc.
Conjuntos de datos abiertos: Kaggle
Kaggle ofrece un océano de datos públicos y códigos informáticos para proyectos de ciencia de datos. Puede seleccionar Conjuntos de datos para datos sin procesar y Código para códigos de programación. Los conjuntos de datos de tendencias en Kaggle son datos de AMEX, audiencia de Simpsons, Chatbot datos de entrenamiento, etc
Conjuntos de datos de segmento: YouTube 8-M

Segmentar conjuntos de datos de YouTube 8-M le ofrece anotaciones de segmentos verificadas por auditores humanos. También puede acceder al conjunto de datos YouTube-8M desde el mismo portal. El conjunto de datos contiene 6.1 millones de identificaciones de video, 350,000 2.6 horas de video, 3863 millones de características audiovisuales, 3.0 clases de videos y, en promedio, XNUMX etiquetas por video.
Registro de datos abiertos en AWS
ROD en AWS ayuda a los científicos de datos a compartir y descubrir conjuntos de datos alojados en recursos de AWS. Algunos conjuntos de datos interesantes que puede encontrar aquí son The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl, etc.
Repositorio de aprendizaje automático: UCI

Depósito de aprendizaje automático de UCI Actualmente mantiene 622 conjuntos de datos aptos para que los científicos de datos e ingenieros de ML entrenen sus modelos de IA. Además, hay una interfaz de búsqueda para buscar en las bases de datos. Popular attractions are the Accelerometer dataset, Synchronous Machine dataset, Wikipedia Math Essentials, Turkish Headlines dataset, etc.
BigQuery Conjuntos de datos públicos: Google Cloud

Muchos conjuntos de datos públicos se almacenan en BigQuery. Google makes the dataset accessible for free through the Google Cloud Public Dataset Program. However, the free query has a limit of 1 TB per month. You can perform standard SQL and legacy SQL queries.
Impresionantes conjuntos de datos públicos: GitHub
Impresionantes conjuntos de datos públicos es un conjunto de datos de código abierto que contiene datos públicos centrados en temas. Recopilado y clasificado de varios blogs, respuestas y comentarios de los usuarios, combina conjuntos de datos gratuitos y de pago sobre física, deportes, software, lenguaje natural y aprendizaje automático.
Datos del Banco Mundial

Datos abiertos del Banco Mundial is the platform where you get free access to global development data. It also offers other valuable resources such as pre-formatted tables and reports. You can easily browse by country or indicator to get the required data set.
FiveThirtyEight: Datos
FiveThirtyEight es un sitio web estadounidense que se ocupa del análisis de encuestas de opinión, política, economía y deportes. Puedes acceder a estas encuestas y forecasts a través de conjuntos de datos de su plataforma. Puede descargar los conjuntos de datos con un solo clic.
ImagenNet
ImagenNet es una base de datos de imágenes de la que los investigadores de todo el mundo pueden obtener conjuntos de datos de código abierto para sus proyectos no comerciales. Aquí, las imágenes están organizadas según la jerarquía de WordNet. El proyecto juega un papel vital en la investigación de aprendizaje profundo de nivel avanzado.
Arco de conjuntos de datoshives: UNICEF DATA
Usando el Arco de conjuntos de datoshives, you can get hold of datasets collected by UNICEF across the world. Data on migration, displacement, diet, connectivity, education, health, learning, mortality, violence, childhood development, child marriage, child labor, and various statistics are available here.
Buscar datos abiertos: Gob. del Reino Unido

Si su proyecto necesita datos publicados por organismos locales y el gobierno central del Reino Unido, Buscar datos abiertos es el portal que debe consultar. Cubre el gasto público, los negocios, la salud, la educación, la defensa y más conjuntos de datos.
Data: United States Census Bureau
¿Necesita datos del censo de EE. UU. para un proyecto relevante? Puede recibir ayuda de Datos de la USCB. Here, you can explore 2020 census data, tables, maps, and data profiles while visualizing data and using data tools.
Datos y Estadísticas: CDC

Los Estados Unidosates federal agency Centro para el Control y la Prevención de Enfermedades También proporciona conjuntos de datos gratuitos al público para acceder a datos y estadísticas desde este portal. Los temas del conjunto de datos son Salud ambiental, Enfermedades crónicas, Nacimientos y natalidad, Muertes y mortalidad, Esperanza de vida, Lesiones y violencia, Reproductive Salud, Enfermedades de Notificación Nacional, etc.
Catálogo de datos del Banco Mundial

El Catálogo de datos collects free data sets that make the World Bank’s development-related data easily accessible. Using it in various projects is a breeze as you can effortlessly find and download your preferred information. It contains over 5000 data sets covering the World Bank’s microdata, finances, and energy platforms.
Datos de ciencia espacial de la NASA
La NASA ofrece acceso a sus datos de archivo en Datos de ciencia espacial Coordinarated Archive. This platform is a great help for the general public, especially people working in education and space research. It has 400 TB of digital data containing information about 550 space science.
Obtener los datos: dentro de Airbnb

Airbnb is a globally renowned online marketplace for homestays and holiday rentals. It also offers data collection on various cities worldwide from Obtener los datos. You can browse through the city to quickly get the data. Furthermore, you can request your required data and read data assumptions on this portal.
Datos web: Amazonas Revistas
Aquellos interesados en investigación de mercado y producto. revLas vistas deben utilizar los conjuntos de datos proporcionados por Ajustar datos web. Contiene más de 34 millones de usuarios. revVistas en Amazon, desde junio de 1995 hasta marzo de 2013. El conjunto de datos contiene texto sin formato, información del producto, nombre de usuario, calificaciones y un revVer
Datos del FMI

El Datos del FMI portal is valuable for all economic and financial data types. Whether you are searching for IMF finance data, external sector statistics, flagship publications, or microeconomics data, this is where you can find them. Moreover, you can use a filter to get country-wise datos.
Ngramas de Google Libros
Si está trabajando en las partes del habla y el lenguaje, Ngramas de Google Libros puede ayudarte significativamente. Este conjunto de datos de código abierto le da una idea sobre el uso de una palabra y frase en particular a lo largo de la historia o un rango de tiempo específico. La fuente de este conjunto de datos son los documentos digitales indexados por Google.
Datos de los mercados: The Financial Times

If you want to get your hands on reliable and accurate global and regional share market data, Datos de Mercados por The Financial Times está aquí para ayudarlo. Le permite trabajar con datos de mercado de América, Asia-Pacífico, Europa, África y el mercado global.
Datos terrestres: NASA
La NASA proporciona acceso completo y abierto a sus datos científicos a través del datos de la tierra programa que te ayuda a entender nuestro planeta de origen y hacer proyectos con él. Puede encontrar conjuntos de datos gratuitos sobre la atmósfera, la biosfera, la criosfera, las dimensiones humanas, la superficie terrestre, el océano, la tierra sólida, la interacción sol-tierra y la hidrosfera terrestre.
Búsqueda de conjunto de datos: Google

Si es un estudiante, investigador o científico de datos que busca conjuntos de datos para respaldar su proyecto, puede obtener ayuda del Búsqueda de conjunto de datos portal. Puede llamarlo un motor de búsqueda de conjuntos de datos, ya que le permite descubrir conjuntos de datos alojados en varios informes en la web a través de la búsqueda de palabras clave.
Datos abiertos: CERN
La organización europea de investigación CERN tiene una Datos Abiertos portal that you can use to access the research-generated data at CERN. This data set portal contains two petabytes of data related to particle physics. Moreover, it comes with applications and documentation needed for data analysis.
Explorador de datos criminales: FBI

El Explorador de datos sobre delitos (CDE) is the open-source data set from the FBI that aims to provide easier access to criminal, noncriminal, and law enforcement data sharing. Besides allowing you to discover the necessary data through visualization and category filtering, this platform lets you download data in CSV format.
Palabras finales
Hasta ahora, ha revisado una lista verdaderamente exhaustiva de conjuntos de datos de alta calidad. El artículo presenta datos de varios nichos como ciencias físicas, registros médicos, investigación espacial, antecedentes penales, calificaciones de productos, etc.
Dependiendo del proyecto de ciencia de datos o aprendizaje automático que esté haciendo, puede elegir. Casi todos los conjuntos de datos también tienen instrucciones adecuadas para ayudarlo con su proyecto.
También puede estar interesado en estos recursos para aprender ciencia de datos y ML.