Dins dels grans models de llenguatge

El motor de la revolució de la IA: una introducció als grans models de llenguatge

L’inici d’una nova era en el processament del llenguatge natural (NLP) ha arribat amb l’ascens dels grans models de llenguatge (LLMs). Les xarxes neuronals profundes com les que impulsen ChatGPT estan dissenyades per entendre, crear i respondre text d’una manera similar a com es comuniquen les persones. Abans de la seva aparició, els mètodes tradicionals funcionaven bé en tasques simples de categorització, però tenien dificultats amb tasques que requerien una comprensió més profunda i la capacitat de redactar text clar. Avui dia, un LLM pot escriure codi, redactar correus electrònics o resumir articles tècnics amb facilitat.

La paraula “Large” no és casual; fa referència tant a l’enorme mida del model, que sovint té milers de milions de paràmetres (els pesos ajustables de la xarxa), com a la mida dels conjunts de dades utilitzats per entrenar-lo, que inclouen bilions de paraules extretes de llibres, articles i una gran part del text disponible a internet. Sovint diem que el model “entén” el text, però és important recordar que això no passa perquè sigui conscient o entengui les coses com ho faria una persona. En realitat, és perquè processa patrons estadístics complexos.

L’arquitectura Transformer: el cor del sistema

L’arquitectura Transformer, presentada per investigadors de Google l’any 2017 en el famós article “Attention Is All You Need”, és el que fa possible el funcionament dels LLMs. Aquesta arquitectura va substituir les xarxes neuronals recurrents (RNNs) perquè permet la paral·lelització, és a dir, que el model pot processar seqüències completes de dades alhora en lloc de fer-ho paraula per paraula.

El mecanisme de self-attention és la innovació més important del Transformer. Aquest sistema permet que el model es “fixi” en determinades paraules d’una frase per captar-ne el context i les dependències a llarga distància. Per exemple, en la frase “la professora i la seva lliçó”, el mecanisme d’atenció ajuda el model a entendre que “seva” fa referència a “professora”. Amb el multi-head attention, el model pot analitzar simultàniament diferents parts del llenguatge, cosa que millora la seva comprensió del context.

Tokenització i embeddings: de les paraules als números

Per entendre el llenguatge humà, una màquina primer ha de convertir el text en números. El primer pas d’aquest procés és la tokenització, que divideix el text en parts més petites anomenades tokens. Aquests poden ser paraules, subparaules o fins i tot caràcters individuals. Cada token té el seu propi número únic (ID).

Després, aquests tokens es transformen en embeddings. Un embedding és un vector, o llista de números, que situa cada paraula en un espai matemàtic d’alta dimensió, que pot anar des de 512 fins a 4.096 dimensions. En aquest espai, les paraules amb significats semblants es troben properes entre elles. Per exemple, “gos” i “bordar” estan semànticament més a prop que “gos” i “cotxe”.

El model també rep codificacions posicionals, que li indiquen la posició de cada paraula dins d’una seqüència, conservant l’ordre gramatical i l’estructura de la frase.

El procés d’entrenament i les lleis d’escalat

Normalment hi ha dos passos principals en la construcció d’un LLM: el preentrenament i el fine-tuning.

Durant el preentrenament, el model aprèn per si sol llegint quantitats enormes de text, com ara Wikipedia o Common Crawl. La tasca és simple però fonamental: predir quina serà la paraula següent en una frase. Aquest procés genera el que sovint s’anomena memòria paramètrica del model. És a dir, els pesos de la xarxa emmagatzemen informació sobre el llenguatge i el món.

Entrenar aquests models requereix milions d’hores de computació amb GPU. Aquí és on entren en joc les lleis d’escalat, com les descrites a l’article de Chinchilla. Els investigadors han observat que el millor rendiment s’aconsegueix quan hi ha aproximadament 20 tokens d’entrenament per cada paràmetre del model. Quan un model té massa paràmetres en comparació amb les dades de què disposa, està sobreparametritzat i insuficientment entrenat.

Fine-tuning i RLHF: el factor humà en l’alineament

Un model preentrenat, també anomenat foundation model, pot completar frases, però pot no saber seguir instruccions ni mantenir converses útils i segures. Per això s’utilitza el fine-tuning, que adapta el model a tasques concretes com la traducció, el resum o la classificació.

El Reinforcement Learning from Human Feedback (RLHF) és una de les tècniques més importants per fer que els LLMs siguin útils i segurs. Durant aquest procés, jutges humans revisen i valoren diferents respostes del model en funció de la seva qualitat, utilitat i seguretat. Aquesta informació s’utilitza per entrenar un model de recompensa, que després serveix per millorar el model principal amb algoritmes com PPO o DPO.

L’objectiu final és l’alineament, és a dir, assegurar que la IA actuï d’acord amb el que les persones volen i consideren valuós.

Capacitats, tipus de models i habilitats emergents

Hi ha tres grans tipus de models de llenguatge segons la seva arquitectura:

Els models basats només en encoder, com BERT, són excel·lents per classificar text i detectar el sentiment que expressa.
Els models basats només en decoder, com les famílies GPT o Llama, són els més adequats per generar text de manera autoregressiva.
Els models encoder-decoder, com T5, s’utilitzen sovint per a tasques de traducció i resum de text.

L’aparició d’habilitats emergents és un dels fenòmens més interessants d’aquest camp. Es tracta de capacitats que el model no ha estat entrenat específicament per realitzar, com el raonament lògic o la traducció entre llengües amb pocs recursos. Simplement apareixen quan el model i el conjunt de dades arriben a una escala prou gran.

Reptes i el futur de la interacció amb les màquines

Els LLMs tenen moltes virtuts, però també afronten reptes importants. Un dels més coneguts és l’al·lucinació, que es produeix quan el model inventa informació falsa però la presenta amb molta seguretat. Això passa perquè el model es basa en la predicció estadística en lloc de consultar una base de coneixement validada.

També existeixen preocupacions sobre els biaixos ètics presents en les dades d’entrenament extretes d’internet i sobre la gran quantitat d’energia necessària per entrenar aquests models.

Per abordar aquests problemes, s’estan desenvolupant nous mètodes com el Retrieval-Augmented Generation (RAG), que connecta el model amb bases de dades externes per oferir respostes actualitzades i verificables. També són cada vegada més habituals els agents d’IA, sistemes que no només poden generar text, sinó també connectar-se a APIs i executar accions en el món real, com reservar vols o gestionar tasques operatives.

En conclusió

Els grans models de llenguatge representen un canvi profund en la manera com funcionen les coses. Han passat de ser objectes d’estudi interessants en laboratoris a convertir-se en una part fonamental de la nostra tecnologia, transformant la manera com treballem, aprenem i interactuem amb les màquines.