Hay este rumor en todas partes: ¡Aprendizaje automático!

Entonces, ¿qué es este "aprendizaje automático (ML)"?

Consideremos un ejemplo práctico. Si pudiera imaginarse la probabilidad del resultado de una tarea realizada por primera vez, digamos que el trabajo consiste en aprender a conducir un automóvil. Es decir, ¿cómo te retroalimentarías ?. ¿Con incertidumbre?

Por otro lado, ¿cómo le gustaría darse una palmadita en la misma tarea después de un par de años de práctica? Probablemente, su mentalidad pasaría del parámetro de incertidumbre o uno más seguro. Entonces, ¿cómo adquirió esa experiencia en la tarea?

Lo más probable es que haya adquirido experiencia modificando algunos parámetros y haya mejorado su rendimiento. ¿Correcto? Esto es Aprendizaje automático.

Se dice que un programa de computadora aprende de la experiencia (E) en algunas tareas (T) para dar el mejor resultado (P).

En la misma línea, las máquinas aprenden mediante algunos conceptos matemáticos complejos, y todos los datos para ellos tienen la forma de 0 y 1. Como resultado, no codificamos la lógica de nuestro programa; en su lugar, queremos que una máquina descubra la lógica a partir de los datos por sí misma.

Además, si desea encontrar la relación entre experiencia, nivel de trabajo, habilidad poco común y salario, entonces necesita enseñar algoritmos de aprendizaje automático.

Conjunto de datos complejo con más funciones
Conjunto de datos complejo con más funciones

Según este estudio de caso, debe modificar las funciones para obtener las etiquetas. Pero no codifica el algoritmo y debe centrarse en los datos.

Por tanto, el concepto es Datos + Algoritmo = Insights. En segundo lugar, los algoritmos ya están desarrollados para nosotros y necesitamos saber qué algoritmo usar para resolver nuestros problemas. Echemos un vistazo al problema de regresión y la mejor manera de elegir un algoritmo.

The Machine Learning Overview

Según andreybu, un científico alemán con más de 5 años de experiencia en aprendizaje automático, "Si puede comprender si la tarea de aprendizaje automático es un problema de regresión o clasificación, elegir el algoritmo correcto es pan comido".

las diferentes agrupaciones de aprendizaje automático
Las diferentes agrupaciones de aprendizaje automático

Para enumerar, la principal diferencia entre ellos es que la variable de salida en la regresión es numérica (o continua) mientras que la de clasificación es categórica (o discreta).

Regresión en aprendizaje automático

Para empezar, los algoritmos de regresión intentan estimar la función de mapeo (f) de las variables de entrada (x) a las variables de salida numéricas o continuas (y). Ahora, la variable de salida podría ser un valor real, que puede ser un valor entero o de coma flotante. Por lo tanto, los problemas de predicción de regresión suelen ser cantidades o tamaños.

Por ejemplo, si se le proporciona un conjunto de datos sobre casas y se le pide que prediga sus precios, esa es una tarea de regresión porque el precio será una salida continua.

Ejemplos de algoritmos de regresión comunes incluyen regresión lineal, Regresión vectorial de soporte (SVR)y árboles de regresión.

Clasificación en aprendizaje automático

Por el contrario, en el caso de los algoritmos de clasificación, y es una categoría que predice la función de mapeo. Para elaborar, para una o varias variables de entrada, un modelo de clasificación intentará predecir el valor de una o varias conclusiones.

Por ejemplo, si se le proporciona un conjunto de datos sobre casas, un algoritmo de clasificación puede intentar predecir si los precios de las casas "se venden más o menos que el precio de venta recomendado". Aquí las dos categorías discretas: por encima o por debajo de dicho precio.

Ejemplos de algoritmos de clasificación comunes incluyen regresión logística, Naïve Bayes, árboles de decisión y K vecinos más cercanos.

Choosing the Right Algorithms

Evaluación correcta de ML
La meticulosa búsqueda de datos para una correcta evaluación de ML

Comprenda sus datos

  • Eche un vistazo a las estadísticas resumidas
  • Utilice el parámetro 'Percentil' para identificar los rangos de los datos
  • Los promedios y las medianas describen la tendencia central
  • Las correlaciones pueden indicar relaciones sólidas

Visualiza los datos

  • Los diagramas de caja pueden indicar excepciones.
  • Los histogramas y gráficos de densidad muestran la dispersión de los datos
  • Los diagramas de dispersión pueden describir relaciones cuantitativas

Limpiar los datos

Descubriendo las piezas faltantes
Descubrir las piezas que faltan: prioridad en la lista de tareas pendientes para encontrar el algoritmo de aprendizaje automático adecuado
  • Trate con un valor faltante. El resultado está sujeto a dar resultados sensibles en el caso (los datos faltantes para ciertas variables pueden resultar en predicciones inexactas)
  • Aunque los modelos de árbol son menos sensibles a la presencia de valores atípicos, los modelos regresivos u otros modelos que utilizan ecuaciones son más sensibles a las excepciones
  • Básicamente, los valores atípicos podrían ser el resultado de una mala recopilación de datos o podrían ser valores extremos legítimos.

Cura los datos

Además, al convertir los datos sin procesar en uno pulido que cumpla con los modelos, se debe tener en cuenta lo siguiente:

  • Facilite la interpretación de los datos.
  • Capture datos más complejos.
  • Céntrese en reducir la redundancia y la dimensionalidad de los datos.
  • Normaliza los valores de las variables.

Categorizar el problema mediante la variable de entrada

  • Tiene datos etiquetados; es un problema de aprendizaje supervisado.
  • Si tiene datos sin etiquetar y desea encontrar una estructura, es un problema de aprendizaje sin supervisión.
  • En caso de que desee optimizar una función objetivo interactuando con un entorno, es un aprendizaje reforzado problema.

Categorizar el problema mediante la variable de salida

  • La salida de su modelo es un número; es un problema de regresión.
  • Cuando la salida de su modelo es una clase, entonces es un problema de clasificación.
  • La salida de su modelo es un conjunto de grupos de entrada; es un problema de agrupamiento.

El factor de restricción

  • Tome nota de la capacidad de almacenamiento, ya que varía para varios modelos.
  • ¿La predicción tiene que ser rápida? Por ejemplo, en escenarios en tiempo real como la clasificación de señales de tráfico sea lo más rápido posible para evitar accidentes.

Finalmente, encuentre el algoritmo

El método lógico
El método lógico: siga el procedimiento

Ahora que tiene una idea clara de sus datos, puede implementar las herramientas adecuadas para elegir el algoritmo adecuado.

Mientras tanto, para una mejor decisión, aquí hay una lista de verificación de los factores para usted:

  • Vea si el modelo se alinea con su objetivo comercial
  • Cuánto preprocesamiento requiere el modelo
  • Verifique la precisión del modelo
  • Qué tan explicable es el modelo
  • Qué tan rápido es el modelo: cuánto tiempo lleva construir un modelo y cuánto tiempo tarda el modelo en hacer predicciones
  • La escalabilidad del modelo

Para agregar, uno debe prestar atención a la complejidad del algoritmo al elegir.

En términos generales, podría medir la complejidad del modelo utilizando los parámetros:

  • Cuando se requieren dos o más de diez funciones para aprender y predecir el objetivo
  • Se basa en una ingeniería de características más compleja (p. Ej., Utilizando términos polinomiales, interacciones o componentes principales)
  • Cuando el escenario tiene más gastos generales de cálculo (por ejemplo, un solo árbol de decisión frente a un bosque aleatorio de 100 árboles)

Además, el mismo algoritmo se puede hacer más complejo manualmente. Depende puramente del número de parámetros permitidos y del escenario en consideración. Por ejemplo, podría diseñar un modelo de regresión con más características o términos polinomiales y términos de interacción. O bien, podría diseñar un árbol de decisiones con menos profundidad.

The Common Machine Learning Algorithms

Regresión lineal

Estos son probablemente los más sencillos.
Algunos de los ejemplos en los que se utiliza la regresión lineal son:

  • En primer lugar, cuando llega el momento de ir de un lugar a otro
  • Predecir las ventas de un producto en particular el próximo mes
  • Impacto del contenido de alcohol en sangre en la coordinación
  • Predecir las ventas mensuales de tarjetas de regalo y mejorar las proyecciones de ingresos anuales

Regresión logística

Aparentemente, este algoritmo tiene muchas ventajas: integración de más funciones con una buena función de interpretación, facilidad de actualización fácil para anexar nuevos datos.

Para decirlo de otra manera, podría usar esto para:

  • Predecir la agitación de clientes.
  • El caso particular de la calificación crediticia o la detección de fraudes.
  • Medir la efectividad de las campañas de marketing.

Árboles de decisión

Aparentemente, los árboles individuales se usan raramente, pero en la composición, con muchos otros, construyen algoritmos eficientes como Random Forest o Gradient Tree Boosting. Sin embargo, una de las desventajas es que no son compatibles con el aprendizaje en línea, por lo que debe reconstruir su árbol cuando aparezcan nuevos ejemplos.

Los árboles son excelentes para:

  • Decisiones de inversión
  • Morosos de préstamos bancarios
  • Cualificaciones de clientes potenciales de ventas

Bayes ingenuos

Lo más importante es que Naive Bayes es una elección correcta cuando los recursos de memoria y CPU son un factor limitante. Sin embargo, su principal desventaja es que no puede aprender las interacciones entre funciones.

Se puede usar para:

  • Reconocimiento de rostros
  • Para marcar un correo electrónico como spam o no.
  • Análisis de sentimiento y clasificación de textos.

En resumen

Por lo tanto, en términos generales, en un escenario en tiempo real, es algo difícil encontrar el algoritmo de aprendizaje automático adecuado para este propósito. Sin embargo, puede utilizar esta lista de verificación para preseleccionar algunos algoritmos a su conveniencia.

Además, optar por la solución adecuada para un problema de la vida real requiere una comprensión empresarial experta junto con el algoritmo adecuado. Por lo tanto, enséñele a sus datos los algoritmos correctos, ejecútelos todos en paralelo o en serie y, al final, evalúe el rendimiento de los algoritmos para seleccionar los mejores.

Si está buscando especializarse en aprendizaje profundo, puede consultar este curso por aprendizaje profundo.