Un model de llenguatge extens (amb acrònim, MLE, i també coneguts per les sigles angleses LLM)[1] és un model de llenguatge que consisteix en una xarxa neuronal amb molts paràmetres (normalment milers de milions de pesos o més), entrenats en grans quantitats de text sense etiqueta i mitjançant aprenentatge no supervisat. Els MLE van sorgir al voltant del 2018 i funcionen bé en una gran varietat de tasques. Això ha desplaçat el focus de la investigació sobre el processament del llenguatge natural del paradigma anterior de formació de models supervisats especialitzats per a tasques específiques.[2][3]
Tot i que el terme model de llenguatge extens no té una definició formal, generalment es refereix a models d'aprenentatge profund que tenen un recompte de paràmetres de l'ordre de milers de milions o més. Els LLM són models de propòsit general que destaquen en una àmplia gamma de tasques, en lloc de ser entrenats per a una tasca específica (com ara l'anàlisi de sentiments, el reconeixement d'entitats anomenades o el raonament matemàtic). Tot i que s'ha entrenat en tasques senzilles en la línia de predir la següent paraula en una frase, es troben models de llenguatge neuronal amb un entrenament i un recompte de paràmetres suficients per capturar gran part de la sintaxi i la semàntica del llenguatge humà. A més, els grans models lingüístics demostren un coneixement general considerable sobre el món i són capaços de "memoritzar" una gran quantitat de fets durant l'entrenament.[4]
Arquitectura
Els models de llenguatge extensos han utilitzat més habitualment l'arquitectura del transformador, que, des del 2018, s'ha convertit en la tècnica estàndard d'aprenentatge profund per a dades seqüencials (abans, les arquitectures recurrents com la LSTM eren les més habituals). Els LLM es formen de manera no supervisada en text sense anotació. S'entrena un transformador d'esquerra a dreta per maximitzar la probabilitat assignada a la paraula següent de les dades d'entrenament, donat el context anterior. Alternativament, un LLM pot utilitzar un transformador bidireccional (com en l'exemple de BERT), que assigna una distribució de probabilitat sobre paraules que tenen accés tant al context anterior com al següent. A més de la tasca de predir la paraula següent o "omplir els espais en blanc", els LLM poden ser entrenats en tasques auxiliars que posen a prova la seva comprensió de la distribució de dades, com ara la predicció de la següent frase (NSP), en què es presenten parells d'oracions i el model ha de predir si apareixen una al costat de l'altra al corpus de formació.[5]