Aprendizaje en conjunto explicado en los términos más simples posibles
El aprendizaje conjunto puede ayudarlo a tomar mejores decisiones y resolver muchos desafíos de la vida real al combinar decisiones de varios modelos.
Machine learning (ML) continues expanding its wings in multiple sectors and industries, whether it’s finance, medicine, app development, or security.
Entrenar correctamente los modelos de ML le ayudará a lograr grandes logros.ater éxito en su negocio o función laboral, y existen varios métodos para lograrlo.
En este artículo, discutiré el aprendizaje conjunto, su importancia, casos de uso y técnicas.
¡Manténganse al tanto!
¿Qué es el aprendizaje en conjunto?
En el aprendizaje automático y las estadísticas, "conjunto" se refiere a métodos que generan varias hipótesis mientras se utiliza una base de aprendizaje común.

Y el aprendizaje conjunto es un enfoque de aprendizaje automático en el que se combinan múltiples modelos (como expertos o clasificadores).ateGICally CREated y combinado con el objetivo de resolver un problema computacional o hacer mejores predicciones.
Este enfoque busca mejorar el rendimiento de predicción, aproximación de funciones, clasificación, etc., de un modelo determinado. También se utiliza para eliminarate la posibilidad de que elijas un modelo pobre o menos valioso entre muchos. Para lograr un rendimiento predictivo mejorado, se utilizan varios algoritmos de aprendizaje.
Ensemble Learning en ML
In modelos de aprendizaje automático, hay algunas fuentes como el sesgo, la varianza y el ruido que pueden causar errores. El aprendizaje de conjuntos puede ayudar a reducir estas fuentes que causan errores y garantizar la estabilidad y precisión de sus algoritmos de ML.
Estos son los motivos por los que el aprendizaje conjunto se está utilizando en varios escenarios:
Elegir el clasificador adecuado
El aprendizaje de conjuntos lo ayuda a elegir un mejor modelo o clasificador mientras reduce el riesgo que puede resultar debido a una mala selección del modelo.

Hay diferentes tipos de clasificadores utilizados para diferentes problemas, tales como máquinas de vectores de apoyo (SVM), perceptrón multicapa (MLP), clasificadores bayesianos ingenuos, árboles de decisión, etc. Además, hay diferentes realizaciones de algoritmos de clasificación que debe elegir. El rendimiento de diferentes datos de entrenamiento también puede ser diferente.
Pero en lugar de seleccionar solo un modelo, si usa un conjunto de todos estos modelos y combina sus salidas individuales, puede evitar seleccionar modelos más pobres.
Volumen de datos
Muchos métodos y modelos de aprendizaje automático no son tan efectivos en sus resultados si los alimenta de manera inadecuada.ate datos o un gran volumen de datos.
Por otro lado, el aprendizaje conjunto puede funcionar en ambos escenarios, incluso si el volumen de datos es demasiado pequeño o demasiado.
- Si hay insuficienciaate datos, puede utilizar el arranque para entrenar varios clasificadores con la ayuda de diferentes muestras de datos de arranque.
- Si hay un gran volumen de datos que puede dificultar el entrenamiento de un solo clasificador, entonces puede strateGICally dividir datos en subconjuntos más pequeños.
Complejidad

Es posible que un solo clasificador no pueda resolver algunos problemas muy complejos. Sus límites de decisión que separan datos de varias clases pueden ser muy complejos. Por lo tanto, si aplica un clasificador lineal a un límite complejo no lineal, no podrá aprenderlo.
Sin embargo, al combinar correctamente un conjunto de clasificadores lineales adecuados, puede hacer que aprenda un límite no lineal dado. El clasificador dividirá los datos en muchas particiones más pequeñas y fáciles de aprender, y cada clasificador aprenderá solo una partición más simple. A continuación, se combinarán diferentes clasificadores para producir aprox. límite de decisión.
Estimación de confianza
En el aprendizaje conjunto, se asigna un voto de confianza a una decisión que ha tomado un sistema. Suponga que tiene un conjunto de varios clasificadores entrenados en un problema dado. Si la mayoría de los clasificadores está de acuerdo con la decisión tomada, su resultado puede considerarse como un conjunto con una decisión de alta confianza.
Por otro lado, si la mitad de los clasificadores no está de acuerdo con la decisión tomada, se dice que es un conjunto con una decisión de baja confianza.
Sin embargo, una confianza baja o alta no siempre es la decisión correcta. Pero existe una alta probabilidad de que una decisión con un alto nivel de confianza sea correcta si el conjunto está debidamente capacitado.
Precisión con Data Fusion
Datos recopilados de múltiples fuentes, cuando se combinan strateGICally, puede mejorar la precisión de las decisiones de clasificación. Esta precisión es mayor que la que se obtiene con la ayuda de una única fuente de datos.
¿Cómo funciona el aprendizaje conjunto?

El aprendizaje conjunto toma múltiples funciones de mapeo que diferentes clasificadores han aprendido y luego las combina para crear.ate una única función de mapeo.
Este es un ejemplo de cómo funciona el aprendizaje conjunto.
Ejemplo: Está creando una aplicación basada en alimentos para los usuarios finales. Para ofrecer una experiencia de usuario de alta calidad, desea recopilar sus comentarios sobre los problemas que enfrentan, lagunas importantes, errores, fallas, etc.
Para ello, puedes pedir la opinión de tus familiares, amigos, compañeros de trabajo y otras personas con las que te comunicas.ate frecuentemente con respecto a sus elecciones de alimentos y su experiencia al pedir comida en línea. También puede lanzar su aplicación en versión beta para recopilar comentarios en tiempo real sin sesgos ni ruido.
Entonces, ¿qué eres en realidad?ally Lo que hacemos aquí es considerar múltiples ideas y opiniones de diferentes personas para ayudar a mejorar la experiencia del usuario.
El aprendizaje conjunto y sus modelos funcionan de manera similar. Utiliza un conjunto de modelos y los combina para producir un resultado final para mejorar la precisión y el rendimiento de la predicción.
Técnicas básicas de aprendizaje por conjuntos

#1. Moda
Una "moda" es un valor que aparece en un conjunto de datos. En el aprendizaje conjunto, los profesionales de ML utilizan múltiples modelos para crearate predicciones sobre cada punto de datos. Estas predicciones se consideran votos individuales y la predicción que han realizado la mayoría de los modelos se considera la predicción final. Se utiliza principalmente en problemas de clasificación.
Ejemplo: Cuatro personasated su aplicación 4 mientras uno de ellos rateSi fuera 3, entonces la moda sería 4 ya que la mayoría votó 4.
#2. Promedio
Con esta técnica, los profesionales tienen en cuenta todas las predicciones del modelo y calculanate su promedio para llegar a la predicción final. Se utiliza principalmente para hacer predicciones para problemas de regresión, calcular probabilidades en problemas de clasificación y más.
Ejemplo: En el ejemplo anterior, donde cuatro personas rated su aplicación 4 mientras una persona rated it 3, el promedio sería (4+4+4+4+3)/5=3.8
#3. Peso promedio
En este método de aprendizaje conjunto, los profesionales asignanate diferentes pesos a diferentes modelos para hacer una predicción. Aquí, la asignaciónateEl peso d describe la relevancia de cada modelo.
Ejemplo: Suponga que 5 personas proporcionaron comentarios sobre su solicitud. De ellos, 3 son desarrolladores de aplicaciones, mientras que 2 no tienen experiencia en desarrollo de aplicaciones. Por lo tanto, los comentarios de esas 3 personas tendrán más peso que los de las 2 restantes.
Técnicas avanzadas de aprendizaje por conjuntos
#1. Harpillera
El embolsado (Bootstrap AGGregatING) es una técnica de aprendizaje de conjuntos muy intuitiva y sencilla con un buen rendimiento. Como sugiere el nombre, se crea combinando dos términos, "Bootstrap" y "agregación".
Bootstrapping es otro método de muestreo en el que necesitarás crearate subconjuntos de varias observaciones tomadas de un conjunto de datos original con reemplazo. Aquí, el tamaño del subconjunto será el mismo que el del conjunto de datos original.

Así, en embolsado se utilizan subconjuntos o bolsas para entender la distribución del conjunto completo. Sin embargo, los subconjuntos podrían ser más pequeños que el conjunto de datos original en el embolsado. Este método implica un solo algoritmo ML. El objetivo de combinar los resultados de diferentes modelos es obtener un resultado generalizado.
Así es como funciona el embolsado:
- Varios subconjuntos son generated del conjunto original y las observaciones se seleccionan con reemplazos. Los subconjuntos se utilizan en el entrenamiento de modelos o árboles de decisión.
- Un modelo débil o base es created para cada subconjunto. Los modelos serán independientes entre sí y funcionarán en paralelo.
- La predicción final se hará combinando cada predicción de cada modelo usando estadísticas como promediar, votar, etc.
Los algoritmos populares utilizados en esta técnica de conjunto son:
- Bosque al azar
- Árboles de decisión en bolsas
La ventaja de este método es que ayuda a mantener al mínimo los errores de varianza en los árboles de decisión.
#2. Apilado

En el apilamiento o generalización apilada, las predicciones de diferentes modelos, como un árbol de decisión, se utilizan para crearate un nuevo modelo para hacer predicciones en este conjunto de pruebas.
El apilamiento implica creation de subconjuntos de datos arrancados para modelos de entrenamiento, similar al embolsado. Pero aquí, la salida de los modelos se toma como entrada para enviarla a otro clasificador, conocido como metaclasificador, para la predicción final de las muestras.
La razón por la que se utilizan dos capas clasificadoras es para determinar si los conjuntos de datos de entrenamiento se aprenden de manera adecuada.ately. Aunque el enfoque de dos capas es común, también se pueden utilizar más capas.
Por ejemplo, puede usar de 3 a 5 modelos en la primera capa o nivel 1 y un solo modelo en la capa 2 o nivel 2. Este último combinará las predicciones obtenidas en el nivel 1 para hacer la predicción final.
Además, puede usar cualquier modelo de aprendizaje de ML para agregar predicciones; un modelo lineal como regresión lineal, regresión logística, etc., es común.
Los algoritmos de ML populares utilizados en el apilamiento son:
- Aplicar base
- Súper conjunto
- modelos apilados
Nota: Blending utiliza un conjunto de validación o exclusión del conjunto de datos de entrenamiento para hacer predicciones. A diferencia del apilamiento, blending implica predicciones que se deben hacer sólo desde la reserva.
#3. Impulso
Boosting es un método iterativo de aprendizaje conjunto que ajusta el peso de una observación específica dependiendo de su última o prevclasificación iosa. Esto significa que cada modelo posterior tiene como objetivo corregir los errores encontrados en el prevmodelo ioso.
Si la observación no se clasifica correctamente, el impulso aumenta el peso de la observación.
Al impulsar, los profesionales entrenan el primer algoritmo de impulso en un conjunto de datos completo. A continuación, construyen los algoritmos de ML posteriores utilizando los residuos. extracted desde la previous algoritmo de impulso. Por lo tanto, se da más peso a las observaciones incorrectas predichas por el prevmodelo ioso.
Así es como funciona paso a pasowise:
- Un subconjunto será gener.ated del conjunto de datos original. Cada punto de datos tendrá los mismos pesos inicialmente.ally.
- La creación de un modelo base tiene lugar en el subconjunto.
- La predicción se realizará sobre el conjunto de datos completo.
- Utilizando los valores reales y previstos, se calcularán los errores.ated.
- A las observaciones predichas incorrectamente se les dará más peso
- Se creará un nuevo modelo.ated y la predicción final se realizará sobre este conjunto de datos, mientras el modelo intenta corregir la preverrores gravemente cometidos. Se crearán varios modelos.ated de manera similar, cada uno corrigiendo la preverrores graves
- La predicción final se realizará a partir del modelo final, que es la media ponderada de todos los modelos.
Los algoritmos de impulso populares son:
- gatoboost
- Luz GBM
- AdaBoost
El beneficio del impulso es que generaateOfrece predicciones superiores y reduce los errores debidos al sesgo.
Otras técnicas de conjunto

Una mezcla de expertos: se usa para entrenar múltiples clasificadores, y sus salidas se combinan con una regla lineal general. Aquí, los pesos dados a las combinaciones están determinados por un modelo entrenable.
Mayoría de votos: implica elegir un clasificador impar y las predicciones se calculan para cada muestra. La clase que reciba la clase máxima de un conjunto de clasificadores será la clase predicha del conjunto. Se utiliza para resolver problemas como la clasificación binaria.
Regla máxima: utiliza las distribuciones de probabilidad de cada clasificador y emplea la confianza para hacer predicciones. Se utiliza para problemas de clasificación multiclase.
Casos de uso de aprendizaje en conjunto
#1. Detección de rostros y emociones

El aprendizaje de conjuntos utiliza técnicas como el análisis de componentes independientes (ICA) para realizar la detección de rostros.
Además, el aprendizaje conjunto se utiliza para detectar la emoción de una persona a través de la detección del habla. Además, sus capacidades ayudan a los usuarios a realizar la detección de emociones faciales.
#2. Seguridad
Detección de fraude: El aprendizaje en conjunto ayuda a mejorar el poder del modelado de comportamiento normal. Es por eso que se considera eficiente en la detección de actividades fraudulentas, por ejemplo, en tarjetas de crédito y sistemas bancarios, fraude de telecomunicaciones, lavado de dinero, etc.

DDoS: La denegación de servicio distribuido (DDoS) es un ataque mortal contra un ISP. Los clasificadores conjuntos pueden reducir la detección de errores y también la discriminación.ate ataques de tráfico genuino.
Detección de intrusos: El aprendizaje en conjunto se puede utilizar en monitorsistemas como herramientas de detección de intrusiones para detectar intruder códigos por monitoring redes o sistemas, encontrar anomalías, etc.
Detección de malware: El aprendizaje por conjuntos es bastante efectivo para detectar y clasificar código malicioso como virus informáticos y gusanos. ransomware, troyanos, spyware, etc. utilizando técnicas de aprendizaje automático.
#3. Aprendizaje Incremental
En el aprendizaje incremental, un Algoritmo ML aprende de un nuevo conjunto de datos manteniendo prevaprendizajes iosos pero sin acceder a previous datos que ha visto. Los sistemas de conjunto se utilizan en el aprendizaje incremental al hacer que aprenda un clasificador agregado en cada conjunto de datos a medida que esté disponible.
#4. Medicina
Los clasificadores de conjunto son útiles en el campo del diagnóstico médico, como la detección de trastornos neurocognitivos (como el Alzheimer). Realiza la detección tomando conjuntos de datos de MRI como entradas y clasificando la citología cervical. Aparte de eso, se aplica en proteómica (estudio de proteínas), neurociencia y otras áreas.
#5. Teledetección
Cambio de detección: Los clasificadores de conjunto se utilizan para realizar la detección de cambios a través de métodos como el promedio bayesiano y la votación por mayoría.
Mapeo de la cobertura terrestre: Los métodos de aprendizaje por conjuntos, como el impulso, los árboles de decisión, el análisis de componentes principales del kernel (KPCA), etc., se están utilizando para detectar y cartografiar la cobertura terrestre de manera eficiente.
#6. Finanzas
La precisión es un aspecto crítico de las finanzas, ya sea en el cálculo o la predicción. Influye mucho en el resultado de las decisiones que toma. Estos también pueden analizar cambios en los datos del mercado de valores, detectar manipulación en los precios de las acciones y más.
Recursos de aprendizaje adicionales
#1. Métodos de conjunto para el aprendizaje automático
Este libro lo ayudará a aprender e implementar métodos importantes de aprendizaje conjunto desde cero.
Vista previa | Producto | Clasificación | Precio | |
---|---|---|---|---|
![]() |
Métodos de conjunto para el aprendizaje automático | $50.99 | Comprar en Amazon |
#2. Métodos de conjunto: fundamentos y algoritmos
Este libro tiene los conceptos básicos del aprendizaje conjunto y sus algoritmos. También describe cómo se usa en el mundo real.
Vista previa | Producto | Clasificación | Precio | |
---|---|---|---|---|
![]() |
Métodos de conjunto: fundamentos y algoritmos (Chapman & Hall/CRC Machine Learning & Pattern… | $94.94 | Comprar en Amazon |
#3. Ensemble Learning
Ofrece una introducción a un método de conjunto unificado, desafíos, aplicaciones, etc.
Vista previa | Producto | Clasificación | Precio | |
---|---|---|---|---|
![]() |
APRENDIZAJE DE ENSEMBLE: CLASIFICACIÓN DE PATRONES UTILIZANDO MÉTODOS DE ENSEMBLE (SEGUNDA EDICIÓN) (Máquina… | $118.00 | Comprar en Amazon |
#4. Ensemble Machine Learning: métodos y aplicaciones:
Proporciona una amplia cobertura de técnicas avanzadas de aprendizaje de conjunto.
Vista previa | Producto | Clasificación | Precio | |
---|---|---|---|---|
![]() |
Ensemble Machine Learning: métodos y aplicaciones | $139.37 | Comprar en Amazon |
Para Concluir
I hope you now have some idea about ensemble learning, its methods, use cases, and why using it can be beneficial for your use case. It has the potential to solve many real-life challenges, from the domain of security and app development to finance, medicine, and more. Its uses are expanding, so there is likely to be more improvement in this concept in the near future.
También puede explorar algunas herramientas para generación de datos sintéticos para entrenar modelos de aprendizaje automático