13 Herramientas de generación de datos sintéticos para entrenar modelos de aprendizaje automático

Los datos se han vuelto cada vez más importantes para crear modelos de aprendizaje automático, probar aplicaciones y extraer información empresarial.

Sin embargo, para cumplir con las numerosas normativas sobre datos, a menudo se guardan en bóvedas y se protegen estrictamente. Acceder a esos datos puede llevar meses para obtener las autorizaciones necesarias. Como alternativa, las empresas pueden utilizar datos sintéticos.

¿Qué son los datos sintéticos?

twinify-illustration — Crédito de la foto: Twinify

Los datos sintéticos son datos generados artificialmente que se asemejan estadísticamente al conjunto de datos antiguos. Se pueden utilizar con datos reales para apoyar y mejorar los modelos de IA o se pueden utilizar como un sustituto totalmente.

Dado que no pertenecen a ningún sujeto de datos y no contienen información de identificación personal ni datos sensibles como números de la seguridad social, pueden utilizarse como alternativa de protección de la privacidad a los datos de producción reales.

Diferencias entre los datos reales y los sintéticos

La diferencia más crucial radica en cómo se generan los dos tipos de datos. Los datos reales proceden de sujetos reales cuyos datos se recogieron durante encuestas o mientras utilizaban su aplicación. Por otro lado, los datos sintéticos se generan artificialmente pero siguen pareciéndose al conjunto de datos original.
La segunda diferencia radica en las normas de protección de datos que afectan a los datos reales y sintéticos. Con los datos reales, los sujetos deben poder saber qué datos sobre ellos se recogen y por qué se recogen, y existen límites sobre cómo pueden utilizarse. Sin embargo, esas normativas ya no se aplican a los datos sintéticos porque los datos no pueden atribuirse a un sujeto y no contienen información personal.
La tercera diferencia radica en las cantidades de datos disponibles. Con los datos reales, sólo puede disponer de tantos como le proporcionen los usuarios. En cambio, puede generar tantos datos sintéticos como desee.

Por qué debería considerar el uso de datos sintéticos

Su producción es relativamente más barata porque puede generar conjuntos de datos mucho más grandes que se asemejan al conjunto de datos más pequeño que ya tiene. Esto significa que sus modelos de aprendizaje automático tendrán más datos con los que entrenarse.
Los datos generados se etiquetan y limpian automáticamente por usted. Esto significa que no tiene que dedicar tiempo a realizar el laborioso trabajo de preparar los datos para el aprendizaje automático o el análisis.
No hay problemas de privacidad, ya que los datos no son de identificación personal y no pertenecen a un sujeto de datos. Esto significa que puede utilizarlos y compartirlos libremente.
Puede superar el sesgo de la IA asegurándose de que las clases minoritarias estén bien representadas. Esto le ayuda a construir una IA justa y responsable.

Cómo generar datos sintéticos

Aunque el proceso de generación varía en función de la herramienta que utilice, por lo general, el proceso comienza con la conexión de un generador a un conjunto de datos existente. Después, identifica los campos de identificación personal en su conjunto de datos y los etiqueta para excluirlos u ofuscarlos.

A continuación, el generador empieza a identificar los tipos de datos de las columnas restantes y los patrones estadísticos de esas columnas. A partir de ahí, puede generar tantos datos sintéticos como necesite.

Normalmente, puede comparar los datos generados con el conjunto de datos original para ver hasta qué punto los datos sintéticos se parecen a los datos reales.

Ahora exploraremos las herramientas de generación de datos sintéticos para entrenar modelos de aprendizaje automático.

Mostly AI

MostlyAI tiene un generador de datos sintéticos impulsado por IA que aprende de los patrones estadísticos del conjunto de datos original. A continuación, la IA genera personajes ficticios que se ajustan a los patrones aprendidos.

Con Mostly AI, puede generar bases de datos enteras con integridad referencial. Puede sintetizar todo tipo de datos para ayudarle a construir mejores modelos de IA.

Synthesized.io

Synthesized.io es utilizado por empresas líderes para sus iniciativas de IA. Para utilizar synthesize.io, usted especifica los requisitos de los datos en un archivo de configuración YAML.

A continuación, se crea un trabajo y se ejecuta como parte de una canalización de datos. También tiene un nivel gratuito muy generoso que le permite experimentar y ver si se adapta a sus necesidades de datos.

YData

Con YData, puede generar datos tabulares, de series temporales, transaccionales, de múltiples tablas y relacionales. Esto le permite esquivar los problemas asociados a la recopilación, el intercambio y la calidad de los datos.

Viene con un AI y un SDK que puede utilizar para interactuar con su plataforma. Además, tienen un generoso nivel gratuito que puede utilizar para hacer una demostración del producto.

Gretel AI

GretelAI ofrece API para generar cantidades ilimitadas de datos sintéticos. Gretel dispone de un generador de datos de código abierto que puede instalar y utilizar.

Alternativamente, puede utilizar su API REST o CLI, lo que tendrá un coste. No obstante, sus precios son razonables y se adaptan al tamaño de la empresa.

Copulas

Copulas es una biblioteca Python de código abierto para modelar distribuciones multivariantes utilizando funciones de cópula y generar datos sintéticos que sigan las mismas propiedades estadísticas.

El proyecto se inició en 2018 en el MIT como parte del proyecto Synthetic Data Vault.

CTGAN

CTGAN consiste en generadores capaces de aprender de datos reales de una sola tabla y generar datos sintéticos a partir de los patrones identificados.

Está implementado como una biblioteca Python de código abierto. CTGAN, junto con Copulas, forma parte del Proyecto Bóveda de Datos Sintéticos.

DoppelGANger

DoppelGANger es una implementación de código abierto de Redes Adversariales Generativas para generar datos sintéticos.

DoppelGANger es útil para generar datos de series temporales y lo utilizan empresas como Gretel AI. La biblioteca Python está disponible de forma gratuita y es de código abierto.

Synth

Synth es un generador de datos de código abierto que le ayuda a crear datos realistas según sus especificaciones, ocultar información personal identificable y desarrollar datos de prueba para sus aplicaciones.

Puede utilizar Synth para generar series en tiempo real y datos relacionales para sus necesidades de aprendizaje automático. Synth también es agnóstico respecto a las bases de datos, por lo que puede utilizarlo con sus bases de datos SQL y NoSQL.

SDV.dev

SDV son las siglas de Synthetic Data Vault. SDV.dev es un proyecto de software que comenzó en el MIT en 2016 y que ha creado diferentes herramientas para generar datos sintéticos.

Estas herramientas incluyen Copulas, CTGAN, DeepEcho y RDT. Estas herramientas están implementadas como bibliotecas Python de código abierto que usted puede utilizar fácilmente.

Tofu

Tofu es una biblioteca Python de código abierto para generar datos sintéticos basados en datos de biobancos del Reino Unido. A diferencia de las herramientas mencionadas anteriormente, que le ayudarán a generar cualquier tipo de datos basándose en su conjunto de datos existente, Tofu genera datos que se asemejan únicamente a los del biobanco.

El Biobanco del Reino Unido es un estudio sobre las características fenotípicas y genotípicas de 500 000 adultos de mediana edad del Reino Unido.

Twinify

Twinify es un paquete de software utilizado como biblioteca o herramienta de línea de comandos para hermanar datos sensibles mediante la producción de datos sintéticos con distribuciones estadísticas idénticas.

Para utilizar Twinify, usted proporciona los datos reales como un archivo CSV, y el programa aprende de los datos para producir un modelo que puede utilizarse para generar datos sintéticos. Su uso es completamente gratuito.

Datanamic

Datanamic le ayuda a crear datos de prueba para aplicaciones basadas en datos y de aprendizaje automático. Genera datos basados en características de columnas como el correo electrónico, el nombre y el número de teléfono.

Los generadores de datos de Datanamic son personalizables y admiten la mayoría de bases de datos como Oracle, MySQL, MySQL Server, MS Access y Postgres. Soporta y garantiza la integridad referencial en los datos generados.

Benerator

Benerator es un software para la ofuscación, generación y migración de datos con fines de prueba y formación. Con Benerator, usted describe los datos mediante XML (Extensible Markup Language) y los genera utilizando la herramienta de línea de comandos.

Está hecho para que lo puedan utilizar personas que no sean desarrolladores, y con él podrá generar miles de millones de filas de datos. Benerator es gratuito y de código abierto.

Palabras finales

Gartner estima que para 2030 habrá más datos sintéticos utilizados para el aprendizaje automático que datos reales.

No es difícil entender por qué, teniendo en cuenta el coste y los problemas de privacidad que conlleva el uso de datos reales. Por lo tanto, es necesario que las empresas conozcan los datos sintéticos y las distintas herramientas que les ayudarán a generarlos.

A continuación, consulte las herramientas de seguimiento sintético para su negocio en línea.