¿Cómo elegir algoritmos ML para problemas de regresión?
Hay este rumor en todas partes: ¡Aprendizaje automático!
Entonces, ¿qué es este "aprendizaje automático (ML)"?
Let’s consider a practical example. If you could imagine the probability of the outcome of a task done for the first time—Let’s say the job is to learn to ride a car. That is to say, how would you feedback yourself?. With uncertainty?
On the other hand, how would you like to pat yourself for the same task after a couple of years of practice? Probably you would have your mindset transitioned from the uncertainty parameter or a more certain one. So, how did you got that expertise in the task?
Lo más probable es que haya adquirido experiencia modificando algunos parámetros y haya mejorado su rendimiento. ¿Correcto? Esto es Aprendizaje automático (Machine learning & LLM).
Se dice que un programa de computadora aprende de la experiencia (E) en algunas tareas (T) para dar el mejor resultado (P).
In the same vein, machines learn by some complex mathematics concepts, and every data for them is in the form of 0 and 1. As a result, we don’t code the logic for our program; instead, we want a machine to figure out logic from the data on its own.
Además, si desea encontrar la relación entre experiencia, nivel de trabajo, habilidad poco común y salario, entonces necesita enseñar algoritmos de aprendizaje automático.

Según este estudio de caso, debe modificar las funciones para obtener las etiquetas. Pero no codifica el algoritmo y debe centrarse en los datos.
Por tanto, el concepto es Datos + Algoritmo = Insights. En segundo lugar, los algoritmos ya están desarrollados para nosotros y necesitamos saber qué algoritmo usar para resolver nuestros problemas. Echemos un vistazo al problema de regresión y la mejor manera de elegir un algoritmo.
Descripción general del aprendizaje automático
Según andreybu, un científico alemán con más de 5 años de experiencia en aprendizaje automático, "Si puede comprender si la tarea de aprendizaje automático es un problema de regresión o clasificación, elegir el algoritmo correcto es pan comido".

To enumerate, the main difference between them is that the output variable in the regression is numerical (or continuous) whereas that for classification is categorical (or discrete).
Regresión en aprendizaje automático
To start with, the regression algorithms attempt to estimate the mapping function (f) from the input variables (x) to numerical or continuous output variables (y). Now, the output variable could be a real value, which can be an integer or a floating point value. Therefore, the regression prediction problems are usually quantities or sizes.
Por ejemplo, si se le proporciona un conjunto de datos sobre casas y se le pide que prediga sus precios, esa es una tarea de regresión porque el precio será una salida continua.
Ejemplos de algoritmos de regresión comunes incluyen regresión lineal, Regresión vectorial de soporte (SVR)y árboles de regresión.
Clasificación en aprendizaje automático
By contrast, in the case of classification algorithms, y is a category that the mapping function predicts. To elaborate, for single or several input variables, a classification model will attempt to predict the value of a single or several conclusions.
For instance, if you are provided with a dataset about houses, a classification algorithm can try to predict whether the prices for the houses “sell more or less than the recommended retail price.” Here the two discrete categories: above or below the said price.
Ejemplos de algoritmos de clasificación comunes incluyen regresión logística, Naïve Bayes, árboles de decisión y K vecinos más cercanos.
Elegir los algoritmos adecuados

Comprenda sus datos
- Eche un vistazo a las estadísticas resumidas
- Utilice el parámetro 'Percentil' para identificar los rangos de los datos
- Los promedios y las medianas describen la tendencia central
- Correlations can indicate relaciones fuertes
Visualiza los datos
- Box plots can indicate excepciones
- Los histogramas y gráficos de densidad muestran la dispersión de los datos
- Los diagramas de dispersión pueden describir relaciones cuantitativas
Limpiar los datos

- Deal with a missing value. The result is subjected to give sensitive outcomes in the case (missing data for certain variables can result in inaccurate predictions)
- Aunque los modelos de árbol son menos sensibles a la presencia de valores atípicos, los modelos regresivos u otros modelos que utilizan ecuaciones son más sensibles a las excepciones
- Basically, outliers could be the result of bad data collection, or they could be legitimate valores extremos
Curate los datos
Además, al convertir los datos sin procesar en uno pulido que cumpla con los modelos, se debe tener en cuenta lo siguiente:
- Facilite la interpretación de los datos.
- Capture datos más complejos.
- Céntrese en reducir la redundancia y la dimensionalidad de los datos.
- Normaliza los valores de las variables.
Categorize the Problem Through Input Variable
- Tiene datos etiquetados; es un problema de aprendizaje supervisado.
- Si tiene datos sin etiquetar y desea encontrar una estructura, es un problema de aprendizaje sin supervisión.
- En caso de que desee optimizar una función objetivo interactuando con un entorno, es un aprendizaje reforzado problema.
Categorize the Problem Through Output Variable
- La salida de su modelo es un número; es un problema de regresión.
- Cuando la salida de su modelo es una clase, entonces es un problema de clasificación.
- La salida de su modelo es un conjunto de grupos de entrada; es un problema de agrupamiento.
El factor de restricción
- Tome nota de la capacidad de almacenamiento, ya que varía para varios modelos.
- ¿La predicción tiene que ser rápida? Por ejemplo, en escenarios en tiempo real como la clasificación de señales de tráfico sea lo más rápido posible para evitar accidentes.
finalally, Find the Algorithm

Ahora que tiene una idea clara de sus datos, puede implementar las herramientas adecuadas para elegir el algoritmo adecuado.
Mientras tanto, para una mejor decisión, aquí hay una lista de verificación de los factores para usted:
- Vea si el modelo se alinea con su objetivo comercial
- How much pre-processing the model requires
- Verifique la precisión del modelo
- Qué tan explicable es el modelo
- Qué tan rápido es el modelo: cuánto tiempo lleva construir un modelo y cuánto tiempo tarda el modelo en hacer predicciones
- La escalabilidad del modelo
Para agregar, uno debe prestar atención a la complejidad del algoritmo al elegir.
eneroally speaking, you could measure the complexity of the model using the parameters:
- Cuando se requieren dos o más de diez funciones para aprender y predecir el objetivo
- Se basa en una ingeniería de características más compleja (p. Ej., Utilizando términos polinomiales, interacciones o componentes principales)
- Cuando el escenario tiene más gastos generales de cálculo (por ejemplo, un solo árbol de decisión frente a un bosque aleatorio de 100 árboles)
Besides, the same algorithm can be made more complex manually. It purely depends on the number of parameters indulged and the scenario under consideration. For instance, you could design a regression model with more features or polynomial terms and interaction terms. Or, you could design a decision tree with less depth.
Los algoritmos comunes de aprendizaje automático
Regresión lineal
Estos son probablemente los más sencillos.
Algunos de los ejemplos en los que se utiliza la regresión lineal son:
- En primer lugar, cuando llega el momento de ir de un lugar a otro
- Predecir las ventas de un producto en particular el próximo mes
- Impacto del contenido de alcohol en sangre en la coordinación
- Prediga las ventas mensuales de tarjetas de regalo y mejore anualmente revproyecciones finales
Regresión logística
Apparently, there are a lot of advantages to this algorithm—integration of more features with a nice interpretation facility, easy updating facility to annex new data.
Para decirlo de otra manera, podría usar esto para:
- Predecir la agitación de clientes.
- El caso particular de la calificación crediticia o la detección de fraudes.
- Medir la efectividad de las campañas de marketing.
Árboles de decisión
Aparentemente, los árboles individuales se usan raramente, pero en la composición, con muchos otros, construyen algoritmos eficientes como Random Forest o Gradient Tree Boosting. Sin embargo, una de las desventajas es que no son compatibles con el aprendizaje en línea, por lo que debe reconstruir su árbol cuando aparezcan nuevos ejemplos.
Los árboles son excelentes para:
- Decisiones de inversión
- Morosos de préstamos bancarios
- Cualificaciones de clientes potenciales de ventas
Bayes ingenuos
Lo más importante es que Naive Bayes es una elección correcta cuando los recursos de memoria y CPU son un factor limitante. Sin embargo, su principal desventaja es que no puede aprender las interacciones entre funciones.
Se puede usar para:
- Reconocimiento de rostros
- Para marcar un correo electrónico como spam o no.
- Análisis de sentimiento y clasificación de textos.
Conclusión
Therefore, generally speaking, in a real-time scenario, it is somewhat hard to under the right machine learning algorithm for the purpose. However, you could use this checklist to shortlist a few algorithms at your convenience.
Moreover, opting for the right solution to a real-life problem requires expert business understanding along with the right algorithm. So, teach your data into the right algorithms, run them all in either parallel or serial, and at the end evaluate the performance of the algorithms to select the best one(s).
Si está buscando especializarse en aprendizaje profundo, puede consultar este curso por aprendizaje profundo.