¿Por qué los modelos LLM son (y han de ser) probabilísticos y no deterministas?
Introducción al comportamiento probabilístico en los LLM
Quizás te hayas preguntado por qué, al escribir exactamente el mismo prompt dos veces, la segunda respuesta que has recibido de tu Agente IA (basado en un LLM) no es calcada a la primera. ¿Debería ser así, o no? ¿Esto me beneficia o, por el contrario, me obliga a dedicar recursos para la supervisión del modelo?
Como usuarios de aplicaciones informáticas estamos acostumbrados a que las acciones que realizamos dentro de una aplicación o de una página web sean deterministas, esto es, que bajo un patrón request-response (petición-respuesta) están programadas para realizar exactamente la misma acción y siempre del mismo modo tal y como se les ha solicitado.
Estas aplicaciones informáticas -deterministas- están limitadas a realizar únicamente aquellas acciones para las que fueron diseñadas. Como usuarios sabemos que desde una aplicación de mensajería puedo comunicarme con otras personas pero no puedo saber qué tiempo hará mañana en mi ciudad como tampoco puedo realizar una compra en un e-commerce. De manera optimizada, una aplicación determinista está programada para realizar un propósito específico de una manera fija: coge el dato de un lugar definido (la entrada del usuario o una base de datos) y lo procesa de una manera predefinida para entregarlo a otro lugar definido (al servidor, al navegador del cliente o a una API). Esta es su función. Y así ha de ser, esta previsibilidad es su fortaleza: hacen una cosa, y la hacen bien.
Por qué los LLM no pueden ser deterministas
Tras esta sencilla introducción, nos adentramos ya a la idea principal de este texto: por qué los LLM son y han de ser probabilísticos. Paradójicamente, podríamos pensar que cuanto más exacto y predecible fuera un modelo LLM más potente sería su utilización en producción tanto en un entorno privado como empresarial, pero esto que nos dice nuestra intuición, en verdad, limitaría mucho las ventajas que nos aporta la variabilidad controlada de disponer de una herramienta que, no por casualidad, se ha construido simulando el aprendizaje humano.
Cuando los ingenieros entrenan un modelo LLM no están desarrollando una aplicación informática; están desarrollando un paradigma de comunicación humano-máquina.
Fundamentos técnicos que explican la naturaleza probabilística de los LLM
Aunque se necesitaría un texto propio y amplio para explicar en detalle el proceso de entrenamiento de un modelo LLM, podemos citar algunas técnicas y procesos clave que contextualizan el porqué de su naturaleza probabilística.
El aprendizaje de un modelo LLM es una tarea cíclica que se realiza bajo entornos de prueba y error, afinada con enormes conjuntos de datos de alta calidad y basados en los siguientes fundamentos técnicos:
Tokens y Arquitectura Transformer:
El vocabulario se descompone en tokens, la unidad básica del lenguaje. Se emplea la arquitectura Transformer para que el modelo amplíe su comprensión y aumente su capacidad de relacionar palabras entre sí, independientemente de su posición en la frase de entrada (prompt).
Pesos y Predicción:
Se utiliza un sistema de pesos y sesgos que se optimizan para predecir la secuencia de tokens más probable después de los tokens de entrada.
Alineación Humana (RLHF):
Para alinear el modelo con la intención humana, se utiliza el Entrenamiento por Refuerzo a partir de la Retroalimentación Humana (RLHF), que emplea un Modelo de Recompensa (Reward Model) para puntuar las salidas del LLM. Dicho de otro modo, recompensamos al alumno que se esfuerza en clase.
Aleatoriedad Controlada (Temperatura):
La libertad en la respuesta se gestiona mediante parámetros como la temperatura, que introduce la aleatoriedad controlada (a mayor temperatura, mayor creatividad en la respuesta).
Barreras de Seguridad (Guardrails):
El modelo es supervisado mediante barreras de seguridad, cuya finalidad es conducirlo por un camino marcado, evitando su desviación hacia respuestas ilógicas, erróneas o fuera de contexto (alucinaciones).
Cómo la probabilidad otorga flexibilidad y creatividad a los LLM
Gracias a esta libertad controlada los modelos LLM calculan diferentes probabilidades de respuesta en la salida a partir del remodelado de los datos originales de entrada. Los LLM resultan flexibles ya que no generan respuestas estáticas y predeterminadas. Y esto es el gran boom.
Un modelo LLM nos puede devolver un poema, un diseño, un vídeo o un efecto de sonido porque modela el contexto y posee el entrenamiento necesario para combinar la semántica y las incrustaciones vectoriales (word embeddings) relacionadas con la petición de entrada (prompt), elaborando una respuesta de salida con coherencia y lógica.
Creatividad, aprendizaje humano y valor profesional de los modelos probabilísticos
Esta indeterminación en la respuesta de un modelo LLM nos potencia profesionalmente la creatividad, entendiendo por creatividad el ‘crear algo nuevo partiendo de una referencia’, tal y como hacemos los humanos. Esta capacidad, a menudo asociada a tareas ‘artísticas’, es también aplicable en la industria y en áreas tan sensibles y críticas como la Ciberseguridad.
La irrupción de los modelos LLM ha abierto la percepción que por primera vez la brecha temporal entre la detección de un ataque desconocido y su respuesta en defensa pueda comenzar a reducirse progresivamente.
Aplicación de modelos LLM probabilísticos en ciberseguridad
Mientras que el software de un antivirus tradicional opera de forma determinista, siendo efectivo únicamente contra el malware cuya firma (su identificador o huella digital) ya está almacenada en su base de datos, los LLM ofrecen una capacidad predictiva sin precedentes. Debido a su naturaleza probabilística, la creatividad de un LLM puede ayudarnos a simular nuevas variantes hipotéticas de malware a partir del código conocido permitiendo estudiar potenciales comportamientos futuros. Estas variaciones generadas podrían emplearse como datos de entrada en modelos experimentales diseñados para estimar probabilidades de mutación o evasión a partir del malware original. Esto abriría la puerta a nuevas formas de clasificación y estudio de familias de malware que, en un escenario ideal, permitiría anticiparnos a amenazas reales.
La dualidad ética del uso de LLM en manos de atacantes y defensores
Quizás puedes estar pensando que un modelo LLM en manos de un cibercriminal puede acelerar y
multiplicar su superficie de ataque. Siendo esto cierto, también es importante destacar que estos modelos pueden servir como apoyo para que los analistas de ciberseguridad estudien posibles evoluciones del malware y exploren escenarios hipotéticos que ayuden a comprender cómo podrían surgir nuevas técnicas de ataque.
Si bien este debate ético ya está encima de la mesa en la industria de la ciberseguridad, su análisis en profundidad se escapa del foco de este texto.
Autor: Raul Izquierdo – Consultor de Infini



