Red Hot Cyber
La ciberseguridad se comparte. Reconozca el riesgo, combátalo, comparta sus experiencias y anime a otros a hacerlo mejor que usted.
Buscar
Banner Ransomfeed 320x100 1
UtiliaCS 970x120
¿Cómo aprenden las máquinas? Exploremos los enfoques de aprendizaje supervisado, no supervisado y por recompensa.

¿Cómo aprenden las máquinas? Exploremos los enfoques de aprendizaje supervisado, no supervisado y por recompensa.

Francesco Conti : 12 noviembre 2025 22:03

La inteligencia artificial no es magia, ¡es aprendizaje! Este artículo busca desmitificar el esoterismo que rodea a la inteligencia artificial (IA) ofreciendo una respuesta completa a la pregunta : «¿Cómo aprenden las máquinas?». De hecho, la clave del funcionamiento de la IA reside en la fase de aprendizaje. Las aplicaciones de inteligencia artificial utilizan grandes cantidades de datos, a partir de los cuales se identifican patrones para tomar decisiones basadas en datos .

Existen varios enfoques para el aprendizaje, entre ellos el aprendizaje supervisado , el no supervisado y el de refuerzo . Estos métodos difieren en sus objetivos y problemas a resolver, así como en el tipo de datos disponibles: ejemplos etiquetados, ejemplos no etiquetados o mediante interacción directa con un entorno, respectivamente.

En este artículo, exploraremos estos tres métodos e intentaremos comprender cómo funcionan. También ofreceremos una visión general de los mecanismos de aprendizaje modernos, como el aprendizaje activo y el aprendizaje por refuerzo a partir de la retroalimentación humana .

Aprendizaje supervisado

El aprendizaje supervisado es uno de los enfoques más populares en el aprendizaje automático. Los métodos basados en este enfoque se fundamentan en una fase de entrenamiento con datos, en la que cada ejemplo se asocia a una respuesta o etiqueta correspondiente. El objetivo principal de un modelo de aprendizaje automático (ML) en este contexto es aprender la relación entre las características de los datos y las etiquetas para realizar predicciones precisas sobre nuevas entradas. Las principales tareas que se pueden resolver mediante el aprendizaje supervisado son:

  • Clasificación : El objetivo es asignar objetos o instancias a categorías o clases predefinidas. Por ejemplo, la clasificación podría consistir en clasificar correos electrónicos como «spam» o «no spam», o identificar imágenes como «perro» o «gato».
  • Regresión : Predicción de un valor numérico continuo a partir de características de entrada. Por ejemplo, la regresión puede utilizarse para predecir el precio de una vivienda en función de sus características, como el número de habitaciones, el tamaño y la ubicación.

Para comprender mejor, consideremos un ejemplo de clasificación en el que queremos entrenar un modelo para predecir si un cliente de una tienda online pertenece al segmento de «gama alta» o «gama baja» con el fin de dirigir la publicidad de productos de lujo. Para ello, recopilamos datos sobre los ingresos y el gasto mensual promedio de los clientes. A cada ejemplo de entrenamiento se le asigna una etiqueta que evalúa si el cliente ha respondido a anuncios de gama alta en el pasado, asociándole un valor de 1 (cuadrado amarillo) o 0 (triángulo verde). En este ejemplo:

  • Características: historial de ingresos anuales y gastos promedio;
  • Etiquetas: Si el cliente ha respondido o no a anuncios de productos de lujo en el pasado;
  • Objetivo: Lograr el aprendizaje supervisado de una regla o función para clasificar correctamente a los clientes basándose en datos etiquetados en el conjunto de datos de entrenamiento.

Una vez aprendida la regla, el modelo se utiliza en una fase llamada inferencia , para clasificar a los nuevos clientes y determinar si conviene anunciar productos de lujo. En esta fase, el modelo

Más allá de este ejemplo trivial, el aprendizaje supervisado se utiliza actualmente con éxito para problemas de:

  • Detección de imágenes : Tecnología que identifica, reconoce y localiza objetos, animales, vehículos o personas en imágenes. El entrenamiento de estos modelos suele requerir un amplio conjunto de datos de ejemplos etiquetados, en el que cada imagen se asocia con la posición y la clase de todos los objetos presentes.
  • Análisis de sentimientos : Consiste en determinar el sentimiento o la emoción expresada en un texto, como publicaciones en redes sociales, reseñas de productos o comentarios de clientes. El aprendizaje supervisado permite entrenar modelos que clasifican el texto en diferentes categorías, como positivo, negativo o neutro. Los modelos se entrenan con conjuntos de datos etiquetados, en los que las muestras de texto se anotan con sus etiquetas de sentimiento correspondientes.

Aprendizaje no supervisado

En el aprendizaje no supervisado, no contamos con etiquetas ni respuestas correctas asociadas a los datos de entrenamiento. El objetivo principal de este enfoque es descubrir patrones o estructuras ocultas en los datos sin ninguna guía externa. Las principales tareas asociadas al aprendizaje no supervisado son:

  • Agrupamiento : Consiste en agrupar conjuntos de datos según sus similitudes intrínsecas. Por ejemplo, se puede utilizar para agrupar clientes según sus preferencias de productos o características de compra similares.
  • Reducción de dimensionalidad : Consiste en reducir el número de variables consideradas, conservando la información más relevante. Esto puede resultar útil, por ejemplo, al trabajar con muchas características interrelacionadas para facilitar su interpretación y visualización.
  • Detección de anomalías : La detección de anomalías consiste en identificar patrones o instancias inusuales o anómalas en un conjunto de datos. Estos métodos se utilizan para identificar transacciones inusuales o anómalas que pueden indicar actividad fraudulenta, proporcionando así un sistema automatizado de detección de fraude.

Volviendo al ejemplo de la tienda, en este caso podríamos haber recopilado información sobre el historial de ingresos y gastos, pero sin registrar información sobre sus respuestas a anuncios anteriores de productos de lujo. En este caso, solo contamos con las características y no con las etiquetas, pero aún así podríamos estar interesados en perfilar a los clientes para evaluar si existen grupos que podrían ser más receptivos. En la figura, podemos observar que los usuarios se agrupan en dos clústeres. Por lo tanto, el aprendizaje no supervisado aún puede utilizarse para extraer información valiosa de los datos y establecer una regla para la toma de decisiones, como la publicidad dirigida, que en este caso se enfocará en el clúster con los mayores ingresos y gastos promedio.

Entre las aplicaciones más significativas del aprendizaje no supervisado:

  • Sistemas de recomendación : Las plataformas de comercio electrónico utilizan el aprendizaje no supervisado para ofrecer recomendaciones personalizadas a los clientes mediante el análisis de datos históricos de compras y comportamiento de navegación para sugerir productos relacionados o interesantes.
  • Compresión de imágenes : El aprendizaje no supervisado puede utilizarse para comprimir imágenes reduciendo su tamaño sin una pérdida significativa de calidad visual.

Aprendizaje por refuerzo

El aprendizaje por refuerzo (RL) es una rama de la inteligencia artificial en la que los agentes aprenden a tomar decisiones mediante la interacción directa con el entorno. A diferencia de enfoques anteriores, el RL se basa en un proceso de aprendizaje por ensayo y error . Los agentes exploran el entorno y reciben recompensas positivas o negativas según sus acciones. El objetivo del agente es aprender una estrategia óptima para maximizar la cantidad acumulada de refuerzos obtenidos a largo plazo. Mediante iteraciones continuas, el agente actualiza su política de acción para tomar decisiones más inteligentes en el contexto específico.

El aprendizaje por refuerzo (RL) se aplica en una amplia gama de tareas, como el control de robots autónomos, la gestión de recursos, los juegos de estrategia y la planificación de acciones. Por ejemplo, en el control de robots, el agente aprende a realizar acciones que maximizan el logro de un objetivo específico, como caminar o manipular objetos. En los juegos de estrategia, el RL se puede usar para entrenar agentes capaces de tomar decisiones tácticas y estratégicas para ganar juegos complejos como el ajedrez o los videojuegos.

¡Esto no termina aquí!

Los enfoques descritos constituyen los ingredientes fundamentales del aprendizaje automático y son necesarios para comprender cómo funcionan los bloques funcionales de los sistemas de IA. Sin embargo, algunas técnicas de aprendizaje se benefician del entrenamiento híbrido o en varias etapas.

Un ejemplo es el preentrenamiento no supervisado para tareas de visión artificial. En particular, cuando los datos etiquetados disponibles son limitados, el preentrenamiento con una tarea no supervisada permite que un modelo aprenda representaciones de imágenes significativas a partir de datos sin etiquetar.

Estas características aprendidas pueden transferirse a tareas específicas, mejorando el rendimiento y reduciendo la necesidad de datos etiquetados. Este tipo de aprendizaje se denomina aprendizaje por transferencia : un modelo se preentrena en una tarea o dominio y luego se utiliza como punto de partida para abordar una nueva tarea.

Este tipo de enfoques se utilizan para abordar la falta (o el coste excesivo) de datos correctamente etiquetados. A continuación, analizaremos otros métodos que logran el mismo objetivo.

Enfoques modernos

Otros enfoques de aprendizaje que son muy populares en aplicaciones recientes:

  • Aprendizaje semi-supervisado : Métodos de aprendizaje automático que combinan datos etiquetados y no etiquetados para mejorar la capacidad de generalización de un modelo. Por ejemplo, imaginemos que necesitamos crear un modelo para clasificar correos electrónicos como «spam» o «no spam». Es posible que solo tengamos unos pocos correos etiquetados como spam o no spam, pero muchos otros aún no han sido clasificados. Mediante el aprendizaje semi-supervisado, podemos usar los correos etiquetados para enseñar al modelo los criterios de reconocimiento de spam, pero también podemos aprovechar los correos no etiquetados para aprender patrones adicionales que podrían ayudar a mejorar la clasificación.
  • Aprendizaje autosupervisado : Una categoría de métodos en la que un modelo aprende a partir de datos sin etiquetar, sin necesidad de etiquetas explícitas. El modelo crea una especie de «supervisión artificial» a partir de datos sin etiquetar, generando etiquetas de aprendizaje implícitas. Un ejemplo típico se encuentra en el procesamiento de texto, donde un modelo se entrena para predecir palabras faltantes mediante máscaras aplicadas a las oraciones. Específicamente, se enmascaran algunas palabras y el modelo debe predecir cuáles faltan. El aprendizaje autosupervisado suele ser un paso clave en el aprendizaje de modelos de PLN (Procesamiento del Lenguaje Natural).
  • Aprendizaje activo : Esta estrategia busca reducir el costo de la anotación de datos y mejorar la eficiencia del aprendizaje al seleccionar qué datos requieren etiquetas adicionales por parte de un supervisor humano. A diferencia del aprendizaje supervisado, donde se proporcionan etiquetas para todo el conjunto de entrenamiento por adelantado, en el aprendizaje activo el modelo comienza con un pequeño conjunto de datos etiquetados. Luego, en lugar de requerir que se etiquete todo el conjunto, el aprendizaje activo selecciona de forma inteligente qué instancias de datos adicionales necesitan ser etiquetadas para mejorar el rendimiento del modelo. ¡Puedes aprender más en este blog !
  • Aprendizaje por Refuerzo con Retroalimentación Humana : Este enfoque híbrido combina el aprendizaje por refuerzo (RL) con la retroalimentación humana para mejorar el rendimiento del modelo. En el aprendizaje por refuerzo, un modelo aprende mediante ensayo y error, recibiendo recompensas o castigos según sus acciones en el entorno. Sin embargo, este proceso puede ser lento y costoso en situaciones complejas. Para lograr un aprendizaje más eficiente y efectivo, se introduce la retroalimentación humana. Las personas proporcionan demostraciones, retroalimentación explícita o preferencias sobre las acciones del agente, lo que ayuda al modelo a aprender más rápidamente y a alcanzar los resultados deseados. En el contexto de los Modelos de Lenguaje (LLM), el RL con retroalimentación humana se utiliza para mejorar la generación de texto. Las personas pueden corregir el texto generado, indicar preferencias por diferentes opciones de texto o proporcionar ejemplos de texto correcto. Estos procedimientos ayudan al modelo LLM a producir texto de alta calidad, evitar errores y generar resultados consistentes y precisos. ¡Puedes obtener más información en este blog !

Conclusiones

En este artículo, exploramos cómo aprenden las máquinas; las técnicas ilustradas representan un marco importante para formalizar problemas de IA. Incluso sistemas complejos como el reconocimiento de imágenes y los modelos de lenguaje se basan en estos componentes funcionales. En futuros artículos, exploraremos cómo el aprendizaje automático y el aprendizaje profundo extraen información valiosa de los datos para resolver diversas tareas.

Immagine del sitoFrancesco Conti


Lista degli articoli

Artículos destacados

Immagine del sito
RHC entrevista a LockBit 3.0. «Lo principal es no iniciar una guerra nuclear.»
Di Redazione RHC - 12/11/2025

A menudo hablamos del servicio de ransomware como servicio (RaaS) LockBit, recientemente renovado como LockBit 3.0, que sigue aportando innovaciones significativas al panorama del ransomware. Estas in...

Immagine del sito
¡Spacewar! La historia del primer videojuego creado por hackers del MIT.
Di Massimiliano Brolli - 11/11/2025

En esta apasionante historia, viajaremos a 1959 al Club de Ferrocarriles en Miniatura del MIT Tech y conoceremos a Steve Russell. Steve fue uno de los primeros hackers y escribió uno de los primeros ...

Immagine del sito
Hackers: Quiénes son, qué hacen y su papel en el mundo actual
Di Massimiliano Brolli - 11/11/2025

El significado de » hacker » tiene profundas raíces. Proviene del inglés «to hack», que significa picar, cortar, golpear o mutilar. Es una imagen poderosa: la de un campesino rompiendo terrones ...

Immagine del sito
Seguridad Wi-Fi: La evolución de WEP a WPA3 y redes autoprotegidas
Di Francesco Demarcus - 11/11/2025

Desde las vulnerabilidades de WEP hasta los avances de WPA3 , la seguridad de las redes Wi-Fi ha evolucionado enormemente. Hoy en día, las redes autoprotegidas representan la nueva frontera: sistemas...

Immagine del sito
Los orígenes de UNIX: Resurge la cinta original de Bell Labs desde Utah
Di Redazione RHC - 10/11/2025

Un hallazgo excepcional de los primeros tiempos de Unix podría llevar a los investigadores a los mismísimos orígenes del sistema operativo. En la Universidad de Utah se descubrió una cinta magnét...