La búsqueda de los conjuntos de datos correctos puede ser desalentadora, especialmente cuando los necesita para proyectos de aprendizaje automático (ML) y ciencia de datos. Reducimos sus esfuerzos de investigación al proporcionar la lista definitiva de conjuntos de datos gratuitos.

Los conjuntos de datos son simplemente colecciones de datos. Podría ser datos financieros, de salud comunitaria, del mercado de valores, datos bancarios, datos geográficos, datos de investigación científica de partículas, calificaciones de productos en un sitio de comercio electrónico, etc.

Los conjuntos de datos contienen datos recopilados a través de un estándar de encuesta científica y son importantes para futuras visualización, extracción, pronóstico, etc. Dado que los datos son el equivalente del petróleo crudo en el universo digital, los conjuntos de datos se están volviendo comerciales y escasos.

Continúe leyendo para conocer los conceptos básicos sobre los conjuntos de datos. También descubrirá algunos conjuntos de datos de código abierto que son verdaderamente gratuitos para su máquina de aprendizaje (ML) o proyectos de ciencia de datos.    

¿Qué son los conjuntos de datos?

Los conjuntos de datos son la recopilación de datos en un contenedor estructurado y organizado. Por lo general, los topógrafos asocian conjuntos de datos con un cuerpo único, por ejemplo, Datos abiertos del Banco Mundial.

Una vez más, los recopiladores de datos conservan los conjuntos de datos específicos de un tema como los datos del censo de los Estados Unidos de América de 2020 publicados por la Oficina del Censo de los Estados Unidos.

Encontrará muchos conjuntos de datos sobre temas globales y locales. La mayoría de los conjuntos de datos contienen puntos de datos interrelacionados. Por ejemplo, la población de un país y cómo la obesidad se relaciona con diferentes clases de esta población.    

Es posible que los científicos de datos necesiten limpiar, reestructurar y procesar dichos conjuntos de datos utilizando herramientas de big data para llegar a conclusiones valiosas, como reducir los desechos plásticos mediante el análisis de datos de uso de plástico, remediar problemas de la fuerza laboral mediante el análisis de datos salariales, capacitación inteligencia artificial (AI), y así sucesivamente. 

Tipos de conjuntos de datos

Dependiendo de la fuente de los conjuntos de datos, pueden ser públicos o privados. Los conjuntos de datos públicos están abiertos a todos y contribuyen en gran medida a la investigación y el desarrollo. 

Nuevamente, los conjuntos de datos pueden ser de los siguientes tipos dependiendo de la información contenida en ellos:

  • Multivariado: Dichos datos contienen múltiples variables.
  • Categórico: Representa muchas categorías de personas.
  • Numérico: Dichos conjuntos de datos miden datos en números como edad, altura, etc.
  • Correlación: En este tipo, los puntos de datos están interrelacionados. 
  • Basado en archivos: Aquí, los conjuntos de datos se almacenan en archivos.
  • bivariado: Un conjunto de datos con dos variables y una relación entre ellas. 
  • Conjunto de datos web: Datos recopilados de uno o varios portales de Internet similares.  
  • Base de datos: Dichos conjuntos de datos almacenan datos en tablas, columnas y filas. 

Conjuntos de datos de código abierto para proyectos de ciencia de datos

Los conjuntos de datos gratuitos son el combustible para impulsar su pasión por un Ciencia de los datos carrera profesional. Porque si se encuentra en las primeras etapas de su carrera en ciencia de datos, es posible que desee emprender proyectos personales y no comerciales para la confianza en sí mismo o la creación de cartera. 

Primero, puede probar fácilmente sus habilidades recién aprendidas aplicando herramientas y técnicas a problemas de conjuntos de datos del mundo real.

Por ejemplo, hay datos de investigación del cáncer disponibles gratuitamente, datos de Covid-19, datos de antecedentes penales del FBI, datos de análisis de partículas de CERN, etc. Puede usar dichos datos y crear un modelo de ciencia de datos para responder a problemas sociales, financieros y de salud vitales.   

En segundo lugar, dichos proyectos funcionan como potenciadores de cartera para su carrera. Si puede crear un modelo de análisis de datos exitoso que pueda ofrecer información procesable, puede exhibir esos modelos en línea creando sitios web de cartera. Los empleadores prefieren los proyectos a las declaraciones de propósito.

Conjuntos de datos gratuitos para proyectos de aprendizaje automático

Al igual que un profesional de la ciencia de datos, un profesional de ML también debe trabajar en proyectos autogestionados para examinar sus habilidades. Si el proyecto tiene éxito, también se convierte en un componente ideal para su cartera de proyectos de ML en línea o fuera de línea.

Por lo tanto, ahora puede comprender que la ciencia de datos y el crecimiento de ML dependen de conjuntos de datos estructurados. Si dichos conjuntos de datos se comercializaran demasiado, la investigación y el desarrollo en el campo de la ciencia de datos se volverían totalmente centrados en las empresas.

Para mantener la investigación de ML de ciencia de datos abierta a todos, las siguientes agencias, instituciones y las plataformas ofrecen conjuntos de datos gratuitos:   

Data.gov

Encontrará todos los datos abiertos recopilados y procesados ​​por el gobierno de EE. UU. en Data.gov. La plataforma también ofrece recursos y herramientas para realizar investigaciones, diseñar visualizaciones de datos, desarrollar aplicaciones móviles/web, etc.

Sus conjuntos de datos notables incluyen datos de uso sostenible de la tierra, datos de viviendas rurales, cartas de navegación electrónica interior, etc.  

Open Datasets: Kaggle

Kaggle ofrece un océano de datos públicos y códigos informáticos para proyectos de ciencia de datos. Puede seleccionar Conjuntos de datos para datos sin procesar y Código para códigos de programación. Los conjuntos de datos de tendencias en Kaggle son datos de AMEX, audiencia de Simpsons, Chatbot datos de entrenamiento, etc  

Segment Datasets: YouTube 8-M

Segmentar conjuntos de datos de YouTube 8-M le ofrece anotaciones de segmentos verificadas por auditores humanos. También puede acceder al conjunto de datos YouTube-8M desde el mismo portal. El conjunto de datos contiene 6.1 millones de identificaciones de video, 350,000 2.6 horas de video, 3863 millones de características audiovisuales, 3.0 clases de videos y, en promedio, XNUMX etiquetas por video.

Registry of Open Data on AWS

ROD en AWS ayuda a los científicos de datos a compartir y descubrir conjuntos de datos alojados en recursos de AWS. Algunos conjuntos de datos interesantes que puede encontrar aquí son The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl, etc.  

Machine Learning Repository: UCI

Depósito de aprendizaje automático de UCI actualmente mantiene 622 conjuntos de datos aptos para que los científicos de datos y los ingenieros de ML entrenen sus modelos de IA. Además, hay una interfaz de búsqueda para buscar en las bases de datos. Las atracciones populares son el conjunto de datos del acelerómetro, el conjunto de datos de la máquina síncrona, Wikipedia Math Essentials, el conjunto de datos de Turkish Headlines, etc.   

BigQuery Public Datasets: Google Cloud

Muchos conjuntos de datos públicos se almacenan en BigQuery. Google hace que el conjunto de datos sea accesible de forma gratuita a través del Programa de conjuntos de datos públicos de Google Cloud. No obstante, la consulta gratuita tiene un límite de 1 TB al mes. Puede realizar consultas SQL estándar y SQL heredadas.  

Awesome Public Datasets: GitHub

Impresionantes conjuntos de datos públicos es un conjunto de datos de código abierto que contiene datos públicos centrados en temas. Recopilado y clasificado de varios blogs, respuestas y comentarios de los usuarios, combina conjuntos de datos gratuitos y de pago sobre física, deportes, software, lenguaje natural y aprendizaje automático.

World Bank Data

Datos del Banco Mundial

Datos abiertos del Banco Mundial es la plataforma donde obtiene acceso gratuito a los datos de desarrollo global. También ofrece otros recursos valiosos, como tablas e informes con formato previo. Puede navegar fácilmente por país o indicador para obtener el conjunto de datos requerido. 

FiveThirtyEight: Data

FiveThirtyEight es un sitio web estadounidense que trata sobre análisis de encuestas de opinión, política, economía y deportes. Puede acceder a estas encuestas y pronósticos a través de conjuntos de datos desde su plataforma. Puede descargar los conjuntos de datos con un solo clic.

ImageNet

ImageNet es una base de datos de imágenes de la que los investigadores de todo el mundo pueden obtener conjuntos de datos de código abierto para sus proyectos no comerciales. Aquí, las imágenes están organizadas según la jerarquía de WordNet. El proyecto juega un papel vital en la investigación de aprendizaje profundo de nivel avanzado. 

Datasets Archives: UNICEF DATA

Usando el patrón de velas del Archivos de conjuntos de datos, puede obtener conjuntos de datos recopilados por UNICEF en todo el mundo. Los datos sobre migración, desplazamiento, dieta, conectividad, educación, salud, aprendizaje, mortalidad, violencia, desarrollo infantil, matrimonio infantil, trabajo infantil y varias estadísticas están disponibles aquí. 

Find Open Data: Govt. of UK

Si su proyecto necesita datos publicados por organismos locales y el gobierno central del Reino Unido, Buscar datos abiertos es el portal que debe consultar. Cubre el gasto público, los negocios, la salud, la educación, la defensa y más conjuntos de datos.

Data: United States Census Bureau

¿Necesita datos del censo de EE. UU. para un proyecto relevante? Puede recibir ayuda de Datos de la USCB. Aquí, puede explorar datos, tablas, mapas y perfiles de datos del censo de 2020 mientras visualiza datos y usa herramientas de datos.

Data and Statistics: CDC

La agencia federal de los Estados Unidos Centro para el Control y la Prevención de Enfermedades también proporciona conjuntos de datos gratuitos al público para acceder a datos y estadísticas desde este portal. Los temas del conjunto de datos son Salud Ambiental, Enfermedades Crónicas, Nacimientos y Natalidad, Muertes y Mortalidad, Esperanza de Vida, Lesiones y Violencia, Salud Reproductiva, Enfermedades de Notificación Nacional, etc.

Datasets: MIT

Este conjunto de datos se centra en vórtice inducir datos de vibración. El Centro de Ingeniería Oceánica del MIT alberga algunos conjuntos de datos disponibles públicamente para la evaluación comparativa de códigos informáticos. Los conjuntos de datos están abiertos a todos para invitar a nuevas teorías de los datos y sincronizar a los investigadores que trabajan en el mismo campo. 

World Bank Data Catalog

Catálogo de datos del Banco Mundial

El Catálogo de datos recopila conjuntos de datos gratuitos que facilitan el acceso a los datos del Banco Mundial relacionados con el desarrollo. Usarlo en varios proyectos es muy sencillo, ya que puede encontrar y descargar sin esfuerzo su información preferida. Contiene más de 5000 conjuntos de datos que cubren las plataformas de microdatos, finanzas y energía del Banco Mundial.

NASA Space Science Data

La NASA ofrece acceso a sus datos de archivo en Datos de ciencia espacial Archivo coordinado. Esta plataforma es de gran ayuda para el público en general, especialmente para las personas que trabajan en educación e investigación espacial. Tiene 400 TB de datos digitales que contienen información sobre 550 ciencia espacial. 

Get the Data: Inside Airbnb

Obtener los datos dentro de Airbnb

Airbnb es un mercado en línea de renombre mundial para casas de familia y alquileres de vacaciones. También ofrece recopilación de datos en varias ciudades del mundo desde Obtener los datos. Puede navegar por la ciudad para obtener rápidamente los datos. Además, puede solicitar sus datos requeridos y leer supuestos de datos en este portal. 

Web Data: Amazon Reviews

Aquellos interesados ​​en estudios de mercado y reseñas de productos deben utilizar los conjuntos de datos proporcionados por Ajustar datos web. Contiene más de 34 millones de reseñas de usuarios en Amazon, de junio de 1995 a marzo de 2013. El conjunto de datos contiene texto sin formato, información del producto, nombre de usuario, calificaciones y una reseña.

IMF Data

Datos del FMI

El Datos del FMI El portal es valioso para todos los tipos de datos económicos y financieros. Ya sea que esté buscando datos financieros del FMI, estadísticas del sector externo, publicaciones emblemáticas o datos microeconómicos, aquí es donde puede encontrarlos. Además, puede usar un filtro para obtener datos por país.

Google Books Ngrams

Si está trabajando en las partes del habla y el lenguaje, Ngramas de Google Libros puede ayudarte significativamente. Este conjunto de datos de código abierto le da una idea sobre el uso de una palabra y frase en particular a lo largo de la historia o un rango de tiempo específico. La fuente de este conjunto de datos son los documentos digitales indexados por Google.

Markets Data: The Financial Times

Datos de los mercados: The Financial Times

Si desea tener en sus manos datos confiables y precisos del mercado de acciones global y regional, Datos de Mercados por The Financial Times está aquí para ayudarlo. Le permite trabajar con datos de mercado de América, Asia-Pacífico, Europa, África y el mercado global.

Earthdata: NASA

La NASA proporciona acceso completo y abierto a sus datos científicos a través del datos de la tierra programa que te ayuda a entender nuestro planeta de origen y hacer proyectos con él. Puede encontrar conjuntos de datos gratuitos sobre la atmósfera, la biosfera, la criosfera, las dimensiones humanas, la superficie terrestre, el océano, la tierra sólida, la interacción sol-tierra y la hidrosfera terrestre.

Dataset Search: Google

Si es un estudiante, investigador o científico de datos que busca conjuntos de datos para respaldar su proyecto, puede obtener ayuda del Búsqueda de conjunto de datos portal. Puede llamarlo un motor de búsqueda de conjuntos de datos, ya que le permite descubrir conjuntos de datos alojados en varios informes en la web a través de la búsqueda de palabras clave. 

Open Data: CERN

La organización europea de investigación CERN tiene una Datos Abiertos portal que puede utilizar para acceder a los datos generados por la investigación en el CERN. Este portal de conjuntos de datos contiene dos petabytes de datos relacionados con la física de partículas. Además, viene con las aplicaciones y la documentación necesaria para el análisis de datos.

Crime Data Explorer: FBI

Explorador de datos criminales FBI

El Explorador de datos sobre delitos (CDE) es el conjunto de datos de código abierto del FBI que tiene como objetivo proporcionar un acceso más fácil al intercambio de datos criminales, no criminales y policiales. Además de permitirle descubrir los datos necesarios a través de la visualización y el filtrado de categorías, esta plataforma le permite descargar datos en formato CSV.

Palabras finales

Hasta ahora, ha revisado una lista verdaderamente exhaustiva de conjuntos de datos de alta calidad. El artículo presenta datos de varios nichos como ciencias físicas, registros médicos, investigación espacial, antecedentes penales, calificaciones de productos, etc. 

Dependiendo del proyecto de ciencia de datos o aprendizaje automático que esté haciendo, puede elegir. Casi todos los conjuntos de datos también tienen instrucciones adecuadas para ayudarlo con su proyecto.

También puede estar interesado en estos recursos para aprender ciencia de datos y ML.