En el campo del aprendizaje automático, existen tres tipos principales de tareas: supervisadas, semi-supervisadas y no supervisadas.
La principal diferencia entre estos tipos de tareas de machine learning es el nivel de disponibilidad de los «datos de verdad de base» (ground truth, término usado en varios campos para referirse a la información proporcionada por la observación directa, es decir, evidencia empírica, en contraposición a la información proporcionada por la inferencia), que es un conocimiento preliminar de lo que el resultado del modelo debería ser (el output) para un determinado input.
En líneas generales:
- El aprendizaje automático supervisado tiene como objetivo aprender una función que, dado un conjunto de datos y resultados deseados, se aproxime a una función que mapea las entradas a las salidas.
- El aprendizaje automático semi-supervisado tiene como objetivo etiquetar los puntos de datos no etiquetados utilizando el conocimiento aprendido de un pequeño número de puntos de datos etiquetados.
- El aprendizaje automático no supervisado no tiene salidas etiquetadas, por lo que su objetivo es deducir la estructura natural presente dentro de un conjunto de puntos de datos.
Aprendizaje Supervisado
Como se mencionó, los modelos de aprendizaje automático supervisado mapean/vinculan las entradas a las salidas.
El aprendizaje supervisado generalmente se lleva a cabo en el contexto de la clasificación, cuando queremos mapear la entrada a las etiquetas de salida, o la regresión, cuando queremos mapear la entrada a una salida continua. Los algoritmos comunes en el aprendizaje supervisado incluyen la regresión logística, el clasificador bayesiano ingenuo (generalmente para la categorización de texto), las máquinas de vectores de soporte (modelos asociados con algoritmos de aprendizaje para la regresión y la clasificación), las redes neuronales artificiales y los llamados bosques aleatorios (clasificadores de conjunto compuestos por muchos árboles de decisión).
Tanto en la regresión como en la clasificación, el objetivo es encontrar relaciones o estructuras específicas en los datos de entrada que nos permitan producir datos de salida correctos de manera eficiente.
Ten en cuenta que la salida «correcta» está determinada completamente por los datos de entrenamiento, por lo que si bien tenemos una «verdad básica» que nuestro modelo considerará verdadera, no se puede decir que las etiquetas de datos siempre sean correctas en las situaciones del mundo real. Las etiquetas de datos «ruidosas» o «incorrectas» reducirán claramente la eficacia del modelo.
La complejidad del aprendizaje automático supervisado
La complejidad del modelo se refiere a la complejidad de la función que se está intentando aprender, similar al grado de un polinomio. El nivel correcto de complejidad del modelo generalmente está determinado por la naturaleza de los datos de entrenamiento.
Si tienes una pequeña cantidad de datos o si tus datos no están distribuidos uniformemente en diferentes escenarios posibles, debes optar por un modelo de baja complejidad. Esto se debe al hecho de que un modelo de alta complejidad se «sobreajustará» (overfitting, un modelo estadístico muy complejo se ajusta a los datos observados – la muestra – porque tiene un número excesivo de parámetros en comparación con el número de observaciones) si se utiliza en un número reducido de puntos de datos.
El sobreajuste se refiere al aprendizaje de una función que se ajusta muy bien a los datos de entrenamiento, pero no se generaliza a otros puntos de datos, en otras palabras, se está aprendiendo rigurosamente a producir los datos de entrenamiento sin aprender la tendencia o la estructura real en los datos que conduce a esta salida.
Imagina que estás tratando de ajustar una curva entre 2 puntos. En teoría, puedes utilizar una función de cualquier grado, pero en la práctica, podrías agregar complejidad de manera parsimoniosa y proceder con una función lineal.
Compensación entre sesgo y varianza
La compensación sesgo-varianza también se refiere a la generalización del modelo. En cualquier modelo, hay un equilibrio entre el sesgo, que es el término de error constante, y la varianza, que es la cantidad por la cual el error puede variar entre diferentes conjuntos de datos. Por lo tanto, un alto sesgo y una baja varianza corresponden a un modelo que es constantemente erróneo en el 20% de las veces, mientras que un modelo de bajo sesgo y alta varianza sería un modelo que puede estar equivocado en cualquier punto del 5% al 50% de las veces, dependiendo de los datos utilizados para el entrenamiento.
Ten en cuenta que el sesgo y la varianza generalmente se mueven en direcciones opuestas; aumentar el sesgo generalmente conduce a una menor varianza y viceversa. Al crear el modelo, el problema específico y la naturaleza de los datos deben permitirte tomar una decisión informada sobre dónde encajar en el espectro del sesgo.
En general, aumentar el sesgo (y reducir la varianza) da como resultado modelos con niveles de rendimiento relativamente garantizados, que pueden ser fundamentales en determinadas tareas. Además, para producir modelos que se generalicen bien, la varianza del modelo debe dimensionarse de acuerdo con el tamaño y la complejidad de los datos de entrenamiento. Los conjuntos de datos pequeños y simples generalmente deben aprenderse con modelos de baja varianza, y los conjuntos de datos grandes y complejos a menudo requieren modelos con mayor varianza para aprender completamente la estructura de los datos.
Aprendizaje Automático Semi-Supervisado
El modelo semi-supervisado es un sistema de aprendizaje con puntos de datos «no etiquetados» y etiquetados.
El aprendizaje semi-supervisado se encuentra entre el aprendizaje supervisado y el no supervisado. Los modelos semi-supervisados tienen como objetivo utilizar una pequeña cantidad de datos de entrenamiento etiquetados junto con una gran cantidad de datos de entrenamiento no etiquetados. Esto ocurre a menudo en situaciones reales en las que etiquetar datos es muy costoso y/o se tiene un flujo constante de datos.
Por ejemplo, si estuviéramos tratando de detectar mensajes inapropiados en una red social, no hay forma de obtener información etiquetada manualmente sobre cada mensaje, ya que simplemente hay demasiados y sería demasiado costoso. En cambio, podemos etiquetar manualmente un subconjunto de ellos y aprovechar las técnicas semi-supervisadas para utilizar este pequeño conjunto de datos etiquetados para ayudarnos a comprender el resto del contenido de los mensajes a medida que llegan.
Algunos métodos semi-supervisados comunes son las máquinas de vectores de soporte transductivos y los métodos basados en grafos, como la propagación de etiquetas.
La importancia de las suposiciones en el aprendizaje automático semi-supervisado
Los métodos semi-supervisados deben hacer algunas suposiciones sobre los datos para justificar el uso de un pequeño conjunto de datos etiquetados para sacar conclusiones sobre los puntos de datos no etiquetados. Estos se pueden agrupar en tres categorías.
La primera categoría se refiere a la suposición de continuidad: se asume que los puntos de datos «cercanos» entre sí tienen más probabilidades de tener una etiqueta común.
La segunda suposición es la suposición del clúster: se asume que los datos forman naturalmente grupos discretos y que los puntos dentro del mismo grupo tienen más probabilidades de compartir una etiqueta.
La tercera categoría se refiere a la suposición múltiple: se asume que los datos se encuentran aproximadamente en un espacio de menor dimensión (o variedad) que el espacio de entrada. Este escenario es relevante cuando un sistema no observable o difícil de observar con un número reducido de parámetros produce una salida observable de alta dimensión.
Aprendizaje Automático No Supervisado
Los modelos no supervisados encuentran patrones intrínsecos en los datos.
Las tareas más comunes en el aprendizaje no supervisado son la agrupación en clústeres (clustering), el aprendizaje de representaciones y la estimación de densidad. En todos estos casos, queremos conocer la estructura intrínseca de nuestros datos sin utilizar etiquetas proporcionadas explícitamente. Algunos algoritmos comunes incluyen la agrupación en clústeres k-means, el análisis de componentes principales y los autocodificadores. Dado que no se proporcionan etiquetas, no existe una forma específica de comparar el rendimiento del modelo en la mayoría de los métodos de aprendizaje no supervisado.
Análisis de datos exploratorios (EDA – Exploratory data analysis)
El aprendizaje no supervisado es muy útil en el análisis exploratorio porque puede identificar automáticamente la estructura en los datos. Por ejemplo, si un analista intentara segmentar a los consumidores, los métodos de agrupación en clústeres no supervisados serían un excelente punto de partida para su análisis. En situaciones en las que es imposible o impracticable para un ser humano proponer tendencias en los datos, el aprendizaje no supervisado puede proporcionar información inicial que luego se puede utilizar para probar/verificar hipótesis individuales.
Reducción dimensional
La reducción de dimensionalidad, que se refiere a los métodos utilizados para representar datos utilizando menos columnas o características, se puede realizar mediante métodos de aprendizaje no supervisado. En el aprendizaje de representaciones, por ejemplo, queremos aprender las relaciones entre las características individuales, lo que nos permite representar nuestros datos utilizando las características latentes que interrelacionan nuestras características iniciales. Esta estructura latente a menudo se representa utilizando muchas menos características que con las que comenzamos, por lo que puede hacer que el procesamiento adicional de datos sea mucho menos intensivo y puede eliminar las características redundantes. En otros contextos, la reducción de dimensionalidad se puede utilizar para convertir datos de una modalidad a otra. Por ejemplo, un autocodificador recurrente se puede utilizar para convertir secuencias en una representación de longitud fija.