Dentro de los grandes modelos de lenguaje

El motor de la revolución de la IA: una introducción a los grandes modelos de lenguaje

El inicio de una nueva era en el procesamiento del lenguaje natural (NLP) ha llegado con el auge de los grandes modelos de lenguaje (LLMs). Las redes neuronales profundas como las que impulsan ChatGPT están diseñadas para entender, crear y responder texto de una manera similar a cómo se comunican las personas. Antes de su llegada, los métodos tradicionales funcionaban bien en tareas simples de categorización, pero tenían dificultades con tareas que requerían una comprensión más profunda y la capacidad de redactar texto claro. Hoy en día, un LLM puede escribir código, redactar correos electrónicos o resumir artículos técnicos con facilidad.

La palabra “Large” no es casual; se refiere tanto al enorme tamaño del modelo, que a menudo cuenta con miles de millones de parámetros (los pesos ajustables de la red), como al tamaño de los conjuntos de datos utilizados para entrenarlo, que incluyen billones de palabras extraídas de libros, artículos y gran parte del texto disponible en internet. A menudo decimos que el modelo “entiende” el texto, pero es importante recordar que esto no ocurre porque sea consciente o comprenda las cosas como lo haría una persona. En realidad, se debe a que procesa patrones estadísticos complejos.

La arquitectura Transformer: el corazón del sistema

La arquitectura Transformer, presentada por investigadores de Google en 2017 en el famoso artículo “Attention Is All You Need”, es lo que hace posible el funcionamiento de los LLMs. Esta arquitectura sustituyó a las redes neuronales recurrentes (RNNs) porque permite la paralelización, es decir, que el modelo puede procesar secuencias completas de datos al mismo tiempo en lugar de hacerlo palabra por palabra.

El mecanismo de self-attention es la innovación más importante del Transformer. Este sistema permite que el modelo se “centre” en determinadas palabras de una frase para captar el contexto y las dependencias de largo alcance. Por ejemplo, en la frase “la profesora y su lección”, el mecanismo de atención ayuda al modelo a entender que “su” se refiere a “profesora”. Con el multi-head attention, el modelo puede analizar simultáneamente distintas partes del lenguaje, lo que mejora su comprensión del contexto.

Tokenización y embeddings: de las palabras a los números

Para comprender el lenguaje humano, una máquina primero debe convertir el texto en números. El primer paso de este proceso es la tokenización, que divide el texto en partes más pequeñas llamadas tokens. Estos pueden ser palabras, subpalabras o incluso caracteres individuales. Cada token tiene su propio número único (ID).

Después, estos tokens se transforman en embeddings. Un embedding es un vector, o lista de números, que sitúa cada palabra en un espacio matemático de alta dimensión, que puede ir desde 512 hasta 4.096 dimensiones. En este espacio, las palabras con significados similares se encuentran cerca unas de otras. Por ejemplo, “perro” y “ladrido” están semánticamente más cerca que “perro” y “coche”.

El modelo también recibe codificaciones posicionales, que le indican la posición de cada palabra dentro de una secuencia, manteniendo el orden gramatical y la estructura de la frase.

El proceso de entrenamiento y las leyes de escalado

Normalmente hay dos pasos principales en la construcción de un LLM: el preentrenamiento y el fine-tuning.

Durante el preentrenamiento, el modelo aprende por sí solo leyendo enormes cantidades de texto, como Wikipedia o Common Crawl. La tarea es simple pero fundamental: predecir cuál será la siguiente palabra en una frase. Este proceso genera lo que a menudo se denomina memoria paramétrica del modelo. Es decir, los pesos de la red almacenan información sobre el lenguaje y el mundo.

Entrenar estos modelos requiere millones de horas de computación con GPU. Aquí es donde entran en juego las leyes de escalado, como las descritas en el artículo de Chinchilla. Los investigadores han observado que el mejor rendimiento se alcanza cuando hay aproximadamente 20 tokens de entrenamiento por cada parámetro del modelo. Cuando un modelo tiene demasiados parámetros en comparación con los datos disponibles, está sobreparametrizado y no suficientemente entrenado.

Fine-tuning y RLHF: el factor humano en la alineación

Un modelo preentrenado, también llamado foundation model, puede completar frases, pero puede no saber seguir instrucciones ni mantener conversaciones útiles y seguras. Por eso se utiliza el fine-tuning, que adapta el modelo a tareas concretas como la traducción, el resumen o la clasificación.

El Reinforcement Learning from Human Feedback (RLHF) es una de las técnicas más importantes para hacer que los LLMs sean útiles y seguros. Durante este proceso, jueces humanos revisan y valoran distintas respuestas del modelo en función de su calidad, utilidad y seguridad. Esa información se utiliza para entrenar un modelo de recompensa, que después sirve para mejorar el modelo principal mediante algoritmos como PPO o DPO.

El objetivo final es la alineación, es decir, asegurar que la IA actúe de acuerdo con lo que las personas quieren y consideran valioso.

Capacidades, tipos de modelos y habilidades emergentes

Existen tres grandes tipos de modelos de lenguaje según su arquitectura:

Los modelos basados solo en encoder, como BERT, son excelentes para clasificar texto y detectar el sentimiento que expresa.
Los modelos basados solo en decoder, como las familias GPT o Llama, son los más adecuados para generar texto de manera autorregresiva.
Los modelos encoder-decoder, como T5, se utilizan a menudo para tareas de traducción y resumen de texto.

La aparición de habilidades emergentes es uno de los fenómenos más interesantes de este campo. Se trata de capacidades para las que el modelo no fue entrenado específicamente, como el razonamiento lógico o la traducción entre lenguas de bajos recursos. Simplemente surgen cuando el modelo y el conjunto de datos alcanzan una escala suficientemente grande.

Retos y el futuro de la interacción con las máquinas

Los LLMs tienen muchas virtudes, pero también afrontan retos importantes. Uno de los más conocidos es la alucinación, que se produce cuando el modelo inventa información falsa pero la presenta con mucha seguridad. Esto ocurre porque el modelo se basa en la predicción estadística en lugar de consultar una base de conocimiento validada.

También existen preocupaciones sobre los sesgos éticos presentes en los datos de entrenamiento extraídos de internet y sobre la gran cantidad de energía necesaria para entrenar estos modelos.

Para abordar estos problemas, se están desarrollando nuevos métodos como el Retrieval-Augmented Generation (RAG), que conecta el modelo con bases de datos externas para ofrecer respuestas actualizadas y verificables. También son cada vez más habituales los agentes de IA, sistemas que no solo pueden generar texto, sino también conectarse a APIs y ejecutar acciones en el mundo real, como reservar vuelos o gestionar tareas operativas.

En conclusión

Los grandes modelos de lenguaje representan un cambio profundo en la manera en que funcionan las cosas. Han pasado de ser objetos de estudio interesantes en laboratorios a convertirse en una parte fundamental de nuestra tecnología, transformando la manera en que trabajamos, aprendemos e interactuamos con las máquinas.