La búsqueda de los conjuntos de datos adecuados puede resultar desalentadora, especialmente cuando los necesita para proyectos de aprendizaje automático (ML) y ciencia de datos. Reducimos sus esfuerzos de investigación proporcionándole la lista definitiva de conjuntos de datos gratuitos.
Los conjuntos de datos son simplemente colecciones de datos. Pueden ser datos financieros, de salud comunitaria, bursátiles, bancarios, geográficos, de investigación en ciencia de partículas, valoraciones de productos en un sitio de comercio electrónico, etc.
Los conjuntos de datos contienen datos recopilados mediante una norma de encuesta científica y son importantes para su posterior visualización, extracción, previsión, etc. Dado que los datos son el equivalente del petróleo crudo en el universo digital, los conjuntos de datos se están volviendo comerciales y escasos.
Siga leyendo para conocer los conceptos básicos sobre los conjuntos de datos. También descubrirá algunos conjuntos de datos de código abierto que son realmente gratuitos para sus proyectos de aprendizaje automático (ML) o de ciencia de datos.
¿Qué son los conjuntos de datos?
Los conjuntos de datos son la recopilación de datos en un contenedor estructurado y organizado. Por lo general, los encuestadores asocian los conjuntos de datos a un organismo único, por ejemplo, los Datos Abiertos del Banco Mundial.
De nuevo, los recopiladores de datos mantienen los conjuntos de datos específicos de un tema como los Datos del Censo 2020 de los Estados Unidos de América publicados por la Oficina del Censo de los Estados Unidos.
Encontrará muchos conjuntos de datos sobre temas globales y locales. La mayoría de los conjuntos de datos contienen puntos de datos interrelacionados. Por ejemplo, la población de un país y cómo se relaciona la obesidad con las diferentes clases de esta población.
Los científicos de datos pueden necesitar limpiar, reestructurar y procesar estos conjuntos de datos utilizando herramientas de big data para llegar a conclusiones valiosas, como reducir los residuos plásticos analizando los datos sobre el uso del plástico, remediar los problemas de mano de obra analizando los datos sobre salarios, entrenar la inteligencia artificial (IA), etc.
Tipos de conjuntos de datos
Dependiendo de la fuente de los conjuntos de datos, éstos pueden ser públicos o privados. Los conjuntos de datos públicos están abiertos a todos y contribuyen en gran medida a la investigación y el desarrollo.
De nuevo, los conjuntos de datos pueden ser de los siguientes tipos en función de la información que contengan:
- Multivariados: Estos datos contienen múltiples variables.
- Categóricos : Retratan muchas categorías de personas.
- Numéricos: Tales conjuntos de datos miden los datos en números como la edad, la altura, etc.
- Correlación: En este tipo, los puntos de datos están interrelacionados.
- Basados en archivos: En este caso, los conjuntos de datos se almacenan en archivos.
- Bivariados: Un conjunto de datos con dos variables y una relación entre ellas.
- Conjunto de datos web: Datos recogidos de uno o muchos portales de Internet similares.
- Base de datos: Este tipo de conjuntos de datos almacenan los datos en tablas, columnas y filas.
Conjuntos de datos de código abierto para proyectos de ciencia de datos
Los conjuntos de datos gratuitos son el combustible para alimentar su pasión por una carrera en la ciencia de datos. Porque si se encuentra en las primeras etapas de su carrera en la ciencia de datos, es posible que desee emprender proyectos personales y no comerciales para ganar confianza en sí mismo o construir su cartera.
En primer lugar, puede poner a prueba fácilmente sus habilidades recién aprendidas aplicando herramientas y técnicas a problemas de conjuntos de datos del mundo real.
Por ejemplo, existen datos de investigación sobre el cáncer de libre acceso, datos de Covid-19, datos de registros criminales del FBI, datos de análisis de partículas del CERN, etc. Puede utilizar estos datos y construir un modelo de ciencia de datos para responder a cuestiones vitales de índole social, financiera y sanitaria.
En segundo lugar, estos proyectos funcionan como potenciadores de su carrera. Si puede construir un modelo exitoso de análisis de datos que pueda ofrecer perspectivas procesables, puede mostrar esos modelos en línea creando sitios web de cartera. Los empleadores prefieren los proyectos a las declaraciones de propósitos.
Conjuntos de datos gratuitos para proyectos de aprendizaje automático
Al igual que un profesional de la ciencia de datos, un profesional del ML también debe trabajar en proyectos autogestionados para examinar sus habilidades. Si el proyecto tiene éxito, también se convierte en un componente ideal para su cartera de proyectos de ML en línea o fuera de línea.
Por lo tanto, ahora puede entender que la ciencia de datos y el crecimiento de ML dependen de conjuntos de datos estructurados. Si dichos conjuntos de datos se comercializaran demasiado, la investigación y el desarrollo en el campo de la ciencia de datos se centrarían totalmente en las empresas.
Para mantener la investigación en ML de la ciencia de datos abierta a todos, las siguientes agencias, instituciones y plataformas ofrecen conjuntos de datos gratuitos:
Data.gov
En Data.gov encontrará todos los datos abiertos recopilados y procesados por el Gobierno estadounidense. La plataforma también ofrece recursos y herramientas para realizar investigaciones, diseñar visualizaciones de datos, desarrollar aplicaciones móviles/web, etc.
Entre sus conjuntos de datos destacados se incluyen datos sobre el uso sostenible de la tierra, datos sobre vivienda rural, cartas de navegación electrónica interior, etc.
Conjuntos de datos abiertos: Kaggle
Kaggle ofrece un océano de datos públicos y códigos informáticos para proyectos de ciencia de datos. Puede seleccionar Datasets para los datos en bruto y Code para los códigos de programación. Los conjuntos de datos de moda en Kaggle son los datos de AMEX, los espectadores de Los Simpson, los datos de entrenamiento de Chatbot, etc.
Conjuntos de datos de segmentos: YouTube 8-M
Los conjuntos de datos de segmentos de YouTube 8-M le ofrecen anotaciones de segmentos verificadas por auditores humanos. También puede acceder al conjunto de datos YouTube-8M desde el mismo portal. El conjunto de datos contiene 6,1 millones de ID de vídeo, 350.000 horas de vídeo, 2.600 millones de características audiovisuales, 3863 clases de vídeos y, de media, 3,0 etiquetas por vídeo.
Registro de datos abiertos en AWS
ROD on AWS ayuda a los científicos de datos a compartir y descubrir conjuntos de datos alojados en recursos de AWS. Algunos conjuntos de datos interesantes que puede encontrar aquí son The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl, etc.
Repositorio de aprendizaje automático: UCI
UCI Machine Learning Repository mantiene actualmente 622 conjuntos de datos aptos para que los científicos de datos y los ingenieros de ML entrenen sus modelos de IA. Además, existe una interfaz de búsqueda para investigar en las bases de datos. Los más populares son el conjunto de datos Accelerometer, el conjunto de datos Synchronous Machine, Wikipedia Math Essentials, el conjunto de datos Turkish Headlines, etc.
Conjuntos de datos públicos BigQuery: Nube de Google
Muchos conjuntos de datos públicos se almacenan en BigQuery. Google permite acceder a los conjuntos de datos de forma gratuita a través del programa de conjuntos de datos públicos de Google Cloud. Sin embargo, la consulta gratuita tiene un límite de 1 TB al mes. Puede realizar consultas SQL estándar y SQL heredadas.
Impresionantes conjuntos de datos públicos: GitHub
Awesome PublicDatasets es un conjunto de datos de código abierto que contiene datos públicos centrados en temas concretos. Recopilados y ordenados a partir de varios blogs, respuestas y comentarios de usuarios, combina conjuntos de datos gratuitos y de pago sobre física, deportes, software, lenguaje natural y aprendizaje automático.
Datos del Banco Mundial
Datosabiertos del Banco Mundial es la plataforma en la que podrá acceder gratuitamente a datos sobre el desarrollo mundial. También ofrece otros recursos valiosos como tablas preformateadas e informes. Puede buscar fácilmente por país o indicador para obtener el conjunto de datos que necesite.
FiveThirtyEight Datos
FiveThirtyEight es un sitio web estadounidense que se dedica al análisis de encuestas de opinión, política, economía y deportes. Puede acceder a estos sondeos y pronósticos a través de los conjuntos de datos de su plataforma. Puede descargar los conjuntos de datos con un solo clic.
ImageNet
ImageNet es una base de datos de imágenes de la que investigadores de todo el mundo pueden obtener conjuntos de datos de código abierto para sus proyectos no comerciales. En ella, las imágenes se organizan basándose en la jerarquía WordNet. El proyecto desempeña un papel vital en la investigación del aprendizaje profundo de nivel avanzado.
Archivos de conjuntos de datos: UNICEF DATA
A través de los Archivos de Conjuntos de Datos, puede hacerse con conjuntos de datos recopilados por UNICEF en todo el mundo. Aquí encontrará datos sobre migraciones, desplazamientos, alimentación, conectividad, educación, salud, aprendizaje, mortalidad, violencia, desarrollo infantil, matrimonio infantil, trabajo infantil y diversas estadísticas.
Encontrar datos abiertos: Gob. del Reino Unido
Si su proyecto necesita datos publicados por organismos locales y el gobierno central del Reino Unido, Find Open Data es el portal que debe consultar. Abarca el gasto público, las empresas, la sanidad, la educación, la defensa y más conjuntos de datos.
Datos: Oficina del Censo de Estados Unidos
¿Necesita datos del Censo de EE.UU. para un proyecto relevante? Puede pedir ayuda a USCB Data. Aquí podrá explorar los datos del censo de 2020, tablas, mapas y perfiles de datos mientras visualiza los datos y utiliza las herramientas de datos.
Datos y estadísticas: CDC
La agencia federal de los Estados Unidos Centros para el Control y la Prevención de Enfermedades también ofrece al público conjuntos de datos gratuitos para acceder a datos y estadísticas desde este portal. Los temas de los conjuntos de datos son Salud medioambiental, Enfermedades crónicas, Nacimientos y natalidad, Defunciones y mortalidad, Esperanza de vida, Lesiones y violencia, Salud reproductiva, Enfermedades de declaración obligatoria nacional, etc.
Catálogo de datos del Banco Mundial
El Catálogo de datos recopila conjuntos de datos gratuitos que facilitan el acceso a los datos del Banco Mundial relacionados con el desarrollo. Utilizarlo en diversos proyectos es pan comido, ya que puede encontrar y descargar sin esfuerzo la información que prefiera. Contiene más de 5000 conjuntos de datos que abarcan las plataformas de microdatos, finanzas y energía del Banco Mundial.
Datos científicos espaciales de la NASA
La NASA ofrece acceso a sus datos de archivo en Space Science Data Coordinated Archive. Esta plataforma es de gran ayuda para el público en general, especialmente para las personas que trabajan en educación e investigación espacial. Cuenta con 400 TB de datos digitales que contienen información sobre 550 ciencias espaciales.
Obtenga los datos: Dentro de Airbnb
Airbnb es un mercado en línea de renombre mundial para el alojamiento en casas de familia y el alquiler vacacional. También ofrece recopilación de datos sobre varias ciudades de todo el mundo desde Get the Data. Puede navegar por la ciudad para obtener rápidamente los datos. Además, puede solicitar los datos que necesite y leer los supuestos de datos en este portal.
Datos web: Reseñas de Amazon
Los interesados en estudios de mercado y reseñas de productos deberían utilizar los conjuntos de datos proporcionados por Snap Web Data. Contiene más de 34 millones de reseñas de usuarios en Amazon, desde junio de 1995 hasta marzo de 2013. El conjunto de datos contiene texto sin formato, información sobre el producto, nombre del usuario, valoraciones y una reseña.
Datos del FMI
El portal Datos del FMI es valioso para todo tipo de datos económicos y financieros. Tanto si busca datos financieros del FMI, estadísticas del sector exterior, publicaciones emblemáticas o datos de microeconomía, aquí podrá encontrarlos. Además, puede utilizar un filtro para obtener datos por países.
Datos de los mercados: The Financial Times
Si desea obtener datos fiables y precisos sobre los mercados de valores mundiales y regionales, Markets Data de The Financial Times está aquí para ayudarle. Le permite trabajar con datos de mercado de América, Asia-Pacífico, Europa, África y el mercado mundial.
Datos de la Tierra: NASA
La NASA proporciona acceso completo y abierto a sus datos científicos a través del programa Earth Data, que le ayuda a comprender nuestro planeta y a realizar proyectos con él. Puede encontrar conjuntos de datos gratuitos sobre la atmósfera, la biosfera, la criosfera, las dimensiones humanas, la superficie terrestre, el océano, la tierra sólida, la interacción sol-tierra y la hidrosfera terrestre.
Búsqueda de conjuntos de datos: Google
Si es usted estudiante, investigador o científico de datos y busca conjuntos de datos para apoyar su proyecto, puede ayudarse del portal Búsqueda de conjuntos de datos. Se puede decir que es un motor de búsqueda de conjuntos de datos, ya que le permite descubrir conjuntos de datos alojados en diversos informes de toda la web mediante la búsqueda por palabras clave.
Datos abiertos: CERN
La organización europea de investigación CERN tiene un portal de Datos Abiertos que puede utilizar para acceder a los datos generados por la investigación en el CERN. Este portal de conjuntos de datos contiene dos petabytes de datos relacionados con la física de partículas. Además, incluye las aplicaciones y la documentación necesarias para el análisis de los datos.
Explorador de datos sobre delincuencia: FBI
El Explorador de Datos sobre Delincuencia (CDE) es un conjunto de datos de código abierto del FBI cuyo objetivo es facilitar el acceso al intercambio de datos criminales, no criminales y policiales. Además de permitirle descubrir los datos necesarios mediante la visualización y el filtrado por categorías, esta plataforma le permite descargar los datos en formato CSV.
Palabras finales
Hasta ahora, ha recorrido una lista realmente exhaustiva de conjuntos de datos de alta calidad. En ella se presentan datos de diversos nichos como las ciencias físicas, los historiales médicos, la investigación espacial, los antecedentes penales, las valoraciones de productos, etc.
Dependiendo del proyecto de ciencia de datos o de aprendizaje automático que tenga entre manos, puede elegir. Casi todos los conjuntos de datos cuentan además con instrucciones adecuadas para ayudarle en su proyecto.
Puede que también le interesen estos recursos para aprender ciencia de datos y ML.