Transcript
David, és un model de llenguatge públic una prioritat?
Hola, Òscar.
Aprofitant el Mobile World Congress I seguint la idea del que fa tothom, que és anunciar coses, siguin coses substancials o no, o siguin coses on hi ha una inversió darrere preparada o no, el president del govern espanyol va arribar a Barcelona anunciant que l'Estat invertiria en crear un
gran model de llenguatge per a la intel·ligència artificial en castellà I en les altres llengües oficials de l'Estat.
Aquest era el seu anunci.
I bé, fem una episodi així una mica d'emergència per parlar d'aquest tema.
Jo crec, oblidant el context especial que hi ha al Mobile World Congress I tot això dels anuncis, crec per una vegada que és una molt bona idea tenir eines que seran determinants en com ens organitzem I en com fem tecnologia en propers anys, que no estiguin en mans d'una empresa privada, com és el cas, per exemple, d'OpenAI o com és el cas de Mistral, que, de cop I volta, aquesta setmana ha anunciat que ha eliminat de la seva pàgina les referències als models públics I suposo que estan fent un petit canvi semblant al que va fer OpenAI fa un temps en el context europeu.
Però bé, sense donarhi masses més voltes, crec que sí que és una prioritat, però tinc un escepticisme molt gran en quant a això s'ha de fer en el context de l'Estat espanyol I segon, podrà l'Estat espanyol fer un desenvolupament tecnològic d'aquesta dimensió?
S'entén bé què implica això?
S'entén bé quin tipus d'inversió, tant en recursos de servidors com en recursos de persones, això implica?
I m'imagino que la resposta a aquesta segona part és no, no s'entén bé I hem vingut aquí a fer un anunci sense entendre què implica això.
Anem per parts.
Perquè crec que hi ha molt de suc aquí.
Jo se'm plantegen diversos dubtes.
Estic completament d'acord, primera vegada, a l'episodi de la necessitat, la prioritat de tenir alguna cosa així.
Em rasca molt que, dintre del context de Unió Europea amb algú així, potser comencem a tirar de manera independent, a nivell de diferents països, pujantse al tren de la tendència de la IA I que es quedi això, amb un anunci I amb algo bastant diluït en el hype.
Aquest és el primer dubte que tinc, que no qüestiona la necessitat de tenir algú públic, de tenir algú obert I que no estigui sota el control de grans corporacions amb, potser, agendes una mica més
ocultes.
La segona part és una mica l'execució.
I crec que potser més entrat l'episodi podem parlar d'això, però m'agradaria veure què en penses una mica.
Creus que és bona idea començar a nivell estatal sense agruparho, exemple, la Unió Europea, que és l'organisme que engloba els estats membres.
No hauria d'haverhi una mica No estem començant des d'una granularitat massa petita que després pot incórrer en diferències entre la manera de fer aquests models públics?
Anem per parts de les parts.
Jo crec molt en la Unió Europea com un marc on aquest tipus de feines s'haurien de fer per un motiu fonamental.
I és que crec que un dels factors diferencials europeus que tenim versos, per exemple, els Estats Units, per donar un exemple, és la nostra diversitat lingüística.
Els models d'OpenAI americans, tot I que funcionen remarcablement bé en moltes llengües, es nota que són anglocèntrics.
Per fer un model correcte s'ha de fer una certa preparació I s'ha de compilar unes certes quantitats de dades existents I el en anglès és bastant més gros I a banda de ser bastant més gros, la gent d'OpenAI tenen una mentalitat anglocèntrica, òbviament, I llavors és fàcil que hagin afavorit més l'anglès en les dades, captant dades per entrenar els seus models, fent optimitzacions dels encodings, dels embeddings I totes aquestes històries.
Per tant, aquí a Europa
podríem ser bastant diferencials en el sentit de que podríem fer models de llenguatge que dintre de les diferències, òbviament en els corpus lingüístics que hi ha de dades a la xarxa obertes I tot això, poguéssim afavorir més la nostra diversitat lingüística I cultural també, òbviament.
Per tant, ve el tema Unió Europea.
Després hi ha un altre avantatge de ferho a nivell europeu versus a nivell més fragmentat, I és que la inversió, com deia abans, és salvatge.
No podem arribar a imaginarnos la quantitat d'hores de comp utació calen per entrenar un model I no podem arribar a imaginarnos la quantitat d'hores que
s'ha de gastar per fer la preparació de dades, per fer entrenaments, reentrenaments, find tunings I coses d'aquest estil, per un motiu d'eficiència energètica ja, sense parlar d'altres temes de recursos econòmics I altres històries, però per un motiu d'eficiència energètica, ferho una mica més gran escala és millor.
A banda que ferho a nivell europeu, òbviament, dona accés a una xarxa de computació distribuïda bastant més àmplia, amb acords amb centres de dades bastant més amplis, tot això.
Hi ha una cosa que em té la mosca pujada al nas, és que la setmana passada també va haver un anunci per part de Microsoft que hi hauria un anunci també amb el govern espanyol dient hi haurà una inversió de no sé quants milers de dòlars.
No sabem exactament, no s'ha explicat amb tot el detall cap a on anirà aquesta informació, però potser aquestes dues notícies van connectades d'alguna manera, perquè podria ser que aquesta inversió fos en hores de compute o en centres de dades I coses d'aquest estil.
Igualment continuo pensant que una mirada més àmplia seria favorable.
També t'he de dir que hi ha un requisit molt important.
Encara que això es faci a nivell europeu, s'ha de fer amb la mirada d'entendre les particularitats lingüístiques I culturals de cada lloc dintre la Unió Europea.
Amb això què vull dir?
Que hi ha iniciatives que es fan a nivell una mica més local, si volem, que realment són molt bones.
Podem donar un exemple d'una cosa que no l'ha fet directament el govern català, però sí que ha ajudat a promourela I dotarla d'alguna manera, encara que sigui amb visibilitat, que ja és molt bona, que és el projecte AINA, penso que es diu, que és la recopilació de veus en català.
Això és una cosa que òbviament a una empresa privada anglocèntrica no se li passaria pel cap.
I també em fa una mica de por que això si es fes a nivell europeu, a ningú se li passaria pel cap aquest tracte cap a una llengua minoritària I minoritzada com és el català.
Per tant, des d'aquest punt de vista anar local podria ser un avantatge, però desafortunadament l'Estat espanyol tampoc té una bona història quant a l'acceptació I la promoció de les minories I de les llengües minoritzades, en aquest cas.
Per tant, hi ha arguments una mica confrontats, però per un motiu d'escalabilitat sembla que aquesta granulitat no serà correcta.
Això sense parlar després de l'execució, on ens podem divertir més fent uns runs I unes hipòtesis de com s'executen problemes, solucions tecnològiques en les nostres contrades.
Em sembla interessant.
Veig que pensem més o menys igual.
Referent a l'última frase, el que deies de nivell de llengües una mica menys minoritzades, sí que potser a nivell local facilita més, però clar, a la vegada estem on estem I tenim la consideració cap a Ja no només el català, vull dir, l'euskera, clar, preocupa una mica aquest nivell de tenir els models de primera classe I els models de segona classe.
Em sembla molt interessant allò que dius.
Jo
no en sé gaire sobre el tema I realment no m'he documentat massa sobre quines són les passes o què és més enllà de temps de computació per desenvolupar un model.
Potser sí que m'agradaria tenir més informació, saberne una mica més del tema, però bàsicament el que veig ara mateix és que la part més important és poder tenir aquest corpus, aquest composar aquest corpus I després, bàsicament, tenir una sèrie de
pesos, de weats, per poder entrenar aquest model.
Crec que aquí és on estan les dues parts importants.
Simplificantho molt, el dataset, que li diríem que és el que ve ser el corpus de les diferents llengües.
Que aquest corpus, a part que cada llengua tingui el mateix volum, que sigui suficientment complert per no caure en els models de primera I models de segona.
Això és una de les coses que em preocupa.
I després el tema dels pesos.
Ara mateix molta del tancament que està haventhi en aquestes empreses, OpenAI o Clus Mistral, que també ara sembla que, no sé si va ser aquesta setmana, a principis o finals de la setmana passada, també es va anunciar com un partnership entre Microsoft I Mistral.AI, el qual, clar, veus que Microsoft va extenentse cap a les principals companyies I està planejant una mica sobretot el món de la IA, el qual, evidentment, com a empresa I com a corporació els interessa controlar el que ve ser la tendència en el món tecnològic, que els hi donarà molt de lloc, però clar, deixa desprotegits una miqueta el que és el públic I està subjecte a un possible monopoli en un moment que esperem que no succeeixi.
A nivell tecnològic, a banda del corpus, que òbviament s'ha de garantir una certa qualitat I potser no pot ser igualment igual de ric en totes les llengües, simplement perquè no existeix material digitalitzat o digitalitzable en els mateixos volums en cada llengua.
Hi ha moltíssima feina d'enginyeria I estic anant una mica cap a la vessant d'execució, feina bastant avançada I feina que requereix molta recerca I molta experimentació.
Per exemple, un dels punts fonamentals perquè funcioni tot el tema dels models de llenguatge és la tocanització.
La tocanització és bàsicament identificar els fragments de text, no necessàriament paraules, poden ser puntuacions o fragments de paraules o terminacions de paraules I tot això, I codificarlos d'una manera que després puguin ser relacionats entre ells utilitzant les eines de Transformers I tota aquesta recerca al voltant de l'ArtLanguageModels.
Només en l'aspecte de tocanització hi ha unes complexitats inherents en base a tocanitzar llenguatges que no siguin l'anglès, només perquè l'anglès s'escriu amb un chartset molt més limitat, que bàsicament cabria dintre de l'espai Asci.
Només per això ja codificar, per exemple, llengües asiàtiques o amb charxets molt més complicats o molt més rics es complica bastant.
Hi ha una quantitat de recerca I feina només en la part de la tocanització, que aquí ja no ha centrat encara en temes de pesos ni coses més avançades, que és molt grossa I es complica molt en models multilenguatge.
Es complica moltíssim.
Aquesta part l'estan fent enginyers I gent de recerca d'OpenAI, per exemple, o de Mistral.
I aquesta gent, només per posarli la dimensió al problema I a la feina I a la inversió, aquesta gent són gent que té salaris de 6 o 7 xifres, per dirho d'alguna manera.
Són gent que estan fent coses bastant punteres, bastant úniques.
I vull dir, només perquè el senyor Pedro Sánchez sàpiga on s'està posant la quantitat d'inversió que caldrà posar.
Això no és una cosa que li dediques tres milions I està feta.
És que això són milions I milions d'euros I temps que ja s'està perdent.
Temps que s'hauria d'estar dedicant de fa mesos o anys, que és com el que estan fent aquestes empreses.
Per tant, no és fàcil.
I ja només he parlat d'un dels exemples que realment l'únic que entenc una mica, que és el tema de la tocanització, de l'agafar un text I separarlo en trossets que més o menys puguin ser relacionats més endavant per un model de llenguatge.
Ja no parlem de coses com codi o altres coses té altres complexitats afegides.
Aquesta inversió és una inversió molt seriosa I dubto molt que tal com es fa tecnologia relacionada amb el món públic trobo molt difícil que això pugui reeixir, desafortunadament.
Hem d'entendre que això no és una cosa fàcil.
Però potser aquí la vessant europea ens donaria tota aquesta possibilitat d'inversió, de crear un clúster de coneixement, de crear un clúster d'experts, evidentment.
Sense caure en el ranting gratuït, Aquesta setmana han sortit molts comentaris I tal.
Bé, crec que una de les conyes que hem anat fent I pel qual fem aquest episodi és això.
Aquí estem parlant d'una cosa molt complexa.
Un terreny bastant nou, tot I que diferents de les parts no siguin tan noves.
Dir, tocanitzar és una tècnica que porta molts anys en el món.
El punt és tocanitzar I què fer amb aquesta tocanització.
El tema d'entrenar un model llarg de llenguatge a partir d'aquesta tocanització, el nombre de tocens que t'admet
un model I, sobretot, el performance que et dona aquest model en base als tocens.
Aquí hi ha moltes fases dintre del procés de desenvolupament.
Clar, si ja ens trobem que per fer un formulari per demanar hora al metge,
a vegades ens surten unes merdes com un piano, doncs potser la preocupació natural ve ser si les mateixes empreses I les mateixes agències, consultores I tal són les encarregades de tirar això endavant, independentment de la inversió, clar, tenim aquest coneixement.
Per mi tota aquesta feina és una feina purament científica.
És una feina de gent que està en el món del desenvolupament de software, però molt més a prop d'equips de recerca, de coses més punteres.
No sé jo quin és el grau d'excel·lència o d'expertise, no sé com dirho ara,
de qui s'encarregarà de fer això.
Llegint una mica la notícia que va sortir en un dels diaris, veig que a la iniciativa formaran part el Barcelona Supercomputing Center, després el Centre de Supercomputació, també a nivell estatal, l'Institut de Llengües Espanyola Vull dir, sembla que hi haurà vàries entitats I Vull dir, al Barcelona Supercomputing Center això doncs fa que hi treballa gent molt, molt puntera.
Allà es fan coses molt punteres.
Barcelona
Supercomputing Center,
quin involument tindrà?
Serà a nivell de recursos de hardware fer servir
això o realment la recerca, la creació d'aquests tocens, la creació d'aquest corpus, la creació de Tot això vindrà a nivell d'un aparell muntat des d'un prisma d'hòstia, això és algo punter, això és algo de recerca, això és algo més allò, o un plec amb uns requisits I vull que em facis el ChatGPT espanyol.
Espero que la gent de producte que ho defineixi no siguin els mateixos que van fer el clave, firma I coses d'aquest tipus.
Però a banda de la broma fàcil, el talent existeix.
Ja està claríssim.
El Mare Nostrum V que s'inaugura ara, el V o el V, està farcit de GPU, que són les unitats que calen per fer aquest tipus de computació.
Tot això hi és.
El talent, la gent, és.
Califòrnia està plena de catalans, per exemple, que estan fent les coses més avançades que hi ha ja generativa del planeta.
Microsoft, no recordo el seu nom perquè soc un desastre pels noms, penso que es diu Jordi Diré Ribas, però no ho sé segur.
Català que treballa amb Microsoft, està fent coses amb Copilot, que dius ostres, increïble.
El Xavier Matriaín fa molts anys que es dedica a aquest camp.
Són noms punters del planeta.
Gent que està fent coses grosses de fa molts anys.
El talent hi és.
No és un problema de coneixement.
La capacitat de computació més o menys hi és, I segurament amb la xarxa europea de supercomputació també es podria suplir el que faltés.
Amb alguna col·laboració publicoprivada ocasional també es podria arribar a suplir algunes mancances.
El problema és que això no és un plec tradicional.
El problema és que això no és
Una altra vegada l'analogia de la planta, l'has de regar cada dia.
Això no és una cosa que la fas, l'anuncies al Mobile World Congress I està feta per l'any que ve.
Això no és una cosa que li encarregues, ho sento molt, ho diré, a les Indres de torn I t'ho faran demà passat.
No pot ser.
Això no funcionarà així.
És un paradigma molt diferent a com es fan feines.
Per tant,
ho veig bé, ho veig una iniciativa encomiable, però l'escepticisme és màxim.
Això no pot ser una manera de llançar calés, això ha de ser una manera realment de fer avançar la tecnologia I l'ecosistema.
Barcelona, per exemple, és una ciutat que està molt ben posicionada en temes d'intel·ligència artificial avui en dia, talent que treballa remotament per altres empreses.
El talent hi és, ni s'han de fer ni s'han de canviar de ciutat molta gent, Però això no es pot gestionar com es gestionen els formularis per demanar cita per renovarse el DNI.
Si es fa així, serà diner cremat, inversió cremada I una altra promesa més que potser no estem parlant molt aquí I això només és una mica de màrqueting I ja està.
Al president
li van escriure el que havia de dir I ningú s'ho ha rumiat amb dos dies de front.
Em recorda una mica fa uns anys quan es van fer uns anuncis així a Bombo I plateret de ara farem blockchain I finançarem no sé què.
Què nassos esteu dient?
Per favor, arregleu les coses bàsiques I si realment volem innovar, doncs llavors financem els centres de recerca com Déu mana, fem que la gent que està fent coses punteres pugui treballar aquí com Déu mana, que si no se'n van tots.
És que és ben bé així.
Interessant, Perquè acabes d'obrir un dels melons que podríem tractar en algun moment, que bàsicament és el món del blockchain I la Miss Conception que hi ha al voltant d'això, que no són només criptomonedes.
És una tecnologia que dona per més.
Però tornant al tema principal, crec que has començat a fer l'explicació ara fa una estona dient espero que la gent de producte agafi els requeriments.
La meva opinió, aquí, molt estricta, és que aquí no hi ha gent de producte.
Aquí no hi ha uns requeriments que puguis dir.
Estem muntant o s'està intentant muntar un model de llenguatge.
No confonem el model I el desenvolupament d'això amb anem a fer un ChatGPT espanyol.
Vull dir, no és el mateix.
Què vull dir?
ChatGPT és una aplicació d'aquest model de llenguatge.
Correcte, un model de llenguatge públic és una eina en el món ideal, una eina que qualsevol ciutadà o ciutadana després pot integrar en els seus programes, en les seves idees, pot augmentarlo, pot experimentar, pot fer FineTuning sobre això, està publicat lliurement el Hagging Face per tothom per explorarlo, ben versionat, bàsicament
com si fos una llibreria ben feta per reutilitzar per moltes coses.
Aquí no estem fent un frontend de res o no hauríem d'estar fent un frontend de res.
De fet, el frontend hauria de venir després.
Un cop tinguis això I la feina estigui feta, ara aquí tenim la versió 1 d'aquest model multiidioma, L'alliberem I feulo servir, desenvolupeuho a sobre d'això.
Integremlo dintre de les aplicacions de caire públic.
Millorem una miqueta l'experiència.
Aquí sí que és on després aquestes possibles empreses executores que ens fa por que hi fiquin cullerada.
Aquí sí que és on poden entrar I realment poden fer aquests productes o aquestes coses.
Però no la caguem, d'entrada, ja amb la falsa idea que això és una web amb un text que podrem escriureli quin temps fa d'allò o de quin color m'haig de posar si fa sol.
No.
No és aquesta la idea.
Estic totalment d'acord amb això.
No ho sé, suposo aquest to d'escepticisme cada cop que es parla d'administració pública, la gent començarà a detectar que som uns runters I que som una mica cunyats en aquest tema, però
és important.
M'agradaria saber, m'agradaria entendre, m'agradaria rebre més informació en les properes setmanes o mesos.
Qui hi ha davant, qui pilota tot això, quina mentalitat hi ha darrere I sobretot com es planteja posar en marxa un projecte d'aquest estil.
Òbviament hauria de complir coses des del minut 0, obertura total, tot el desenvolupament es fa en obert, contribuïdors externs poden treballarhi, totes aquestes coses ideals en aquest tipus d'iniciativa.
I òbviament, si això es fes bé, o si això es fa bé, no utilitzarem el subjuntiu encara, però si això es fa bé,
és un dinamitzador econòmic claríssim.
Obra les possibilitats
molt clares per innovar a partir d'això en el terreny públic I en el terreny privat.
Però s'ha de fer bé.
S'ha de fer molt bé.
Vegem qui hi ha al darrere de tot.
Vegem si aquest anunci només és un anunci que queda totalment enterrat.
Vegem com es dota això.
Haurem d'estar mirant una mica els boers I coses d'aquest estil potser I a veure com va.
I tant.
A mi, com a última nota, saps el que m'agradaria?
Això ja és una mica trampa.
Que convidéssim algú que realment sabés d'aquest tema I que ens expliqués I que puguem fer un episodi amb cara lluny, I els que fem ja tenen cara lluny.
Però, evidentment, tu I jo venim d'una altra àrea, del sector, moltes d'aquestes coses innovadores se escapen sense documentarnos molt, que malauradament és el que fem, tampoc venim massa preparats.
Però tenir algun episodi amb algun convidat que,
ens expliqui bé quines són o quina seria la visió de fer alguna així.
Algú que sàpiga entoent una miqueta.
Crec que això estaria molt guai.
Estic d'acord I crec que també això obre una mica Ens agradaria obrir també el podcast a una participació més rigorosa per part d'experts I expertes ens agradarà Hem estat pensant algunes coses de fa un temps I com veiem que això tira bé I sembla que la gent us agrada, que ens fa molt feliços, doncs ens agradaria poder augmentar el nivell I parlar tant com sigui possible utilitzant informació contrastada I informació sòlida, òbviament.
Molt bé, Òscar.
David, Ens veiem aviat.
Fins molt aviat.
Adéu.