Zašto je dobro da veštačka inteligencija govori naš jezik?
16.12.2023 12:58 Autor: Milica Rilak 5
Aleksa Gordić već nekoliko nedelja trenira yugoGPT, najveći generativni jezički model za srpski, hrvatski, bosanski i crnogorski jezik, sa idejom da ga nauči da radi manje-više isto što i ChatGPT za engleski: razume tekstove, daje odgovore na pitanja i generalno bude koristan za ljude i kompanije iz zemalja regiona.
„Ako pitate ChatGPT kako da platite porez ove godine, on će vam ponuditi odgovor, ali će pretpostaviti da plaćate u SAD. Sa druge strane, možete da istrenirate veliki jezički model (LLM) za sopstvene, lokalne potrebe. To je prednost yugoGPT-ja“, odgovorio je Aleksa na pitanje Biznis.rs zašto nam uopšte treba chatGPT na „našim jezicima“.
Naš sagovornik, koji je radio za Google i Microsoft na projektima vezanim za veštačku inteligenciju, kaže da mu je cilj da pokrene domaći ekosistem oko velikih jezičkih modela (LLM), kako bi kasnije mogao i kompanijama iz Srbije i regiona da pomaže da rešavaju svoje probleme i potrebe upotrebom ove tehnologije.
„Projekat yugoGPT je u principu relevantan bilo kojoj kompaniji koja radi sa puno teksta“, objašnjava Aleksa i poziva firme i pojedince da podrže njegovu ideju, koja bi do kraja decembra mogla da rezultira osnovnim (base) yugoGPT 7B modelom, koji bi pri tome bio i open-source, kao i prvim srpskim LLM skupom testova.
Kako bi pojasnio šta to znači, odgovara na naše pitanje zašto yugoGPT trenira za srpski, ali i hrvatski, bosanski i crnogorski jezik.
„Razlog je čisto tehničke prirode – nemamo dovoljno teksta na celom internetu da istreniramo LLM samo za srpski. To zvuči neverovatno ljudima koji se ne bave ovom oblašću, ali je tako. Čak i kada uzmemo sve pomenute jezike, imamo na raspolaganju samo oko 11,5 milijardi reči, što zvuči kao ogroman broj, ali nije, i zato mora dodatno da se kombinuje sa engleskim“, objašnjava Aleksa Gordić za Biznis.rs.
Na to ukazuje „nastavak“ naziva budućeg modela koji razume „naški“, a kome je puno ime yugoGPT 7B.
„Da bih istrenirao LLM 7B, odnosno sedam milijardi parametara, potrebno mi je minimalno 140 miliijardi reči ili ‘tokena’, a imamo 11,5 milijardi. Idealno bi, inače, bilo da imamo 1.000 milijardi“, ističe Aleksa.
Sa druge strane, koristi od projekta koji trenutno sprovodi „na mišiće“, zahvaljujući ličnom entuzijazmu i podršci dela IT zajednice, mogu biti izuzetno značajne. Za početak, o tome zašto su potrebni veliki jezički modeli sa lokalnim vrednostima i kulturom najbolje govori primer sa pitanjem o plaćanju poreza.
„Kakva je korist od toga da vam AI objasni kada i kako da popunite američki W-2 obrazac? Takođe, mnoge kompanije nisu ‘komforne’ sa slanjem podataka na američke API-je zbog bezbednosti i privatnosti podataka, već žele da koriste AI na svojim kompjuterima, a ne kod ‘treće strane. Konačno, kada imate pristup parametrima koji opisuju model, imate i veću kontrolu nad tim šta može da uradi za vas“, objašnjava Gordić.
Naglašava da LLM model može da bude i ‘manji’, odnosno da se prilagodi potrebama konkretne kompanije.
„Recimo, možete da ga istrenirate da bude stručnjak za poreze, da piše kreativne tekstove, ali i da bude precizan umesto da se ‘šali’ ili jednostavno laže“, dodaje.
yugoGPT kao biznis
Aleksa se nada da će yugoGPT biti spreman za predstavljanje javnosti do kraja decembra, ali naglašava da ne može da obeća da će sve završiti u tom roku.
„Ovo je skup poduhvat, a kako sam na početku yugoGPT trenirao na svom kompjuteru, bolje da ne pominjem koliki mi je račun za struju. Sa druge strane, dobro sam povezan u AI svetu, a na socijalnim mrežama me prati preko 160.000 ljudi, među kojima su mnogi uspešni CEO-ovi tech kompanija u AI svetu“, kaže za Biznis.rs Aleksa, koji je i autor popularnog YouTube kanala AI Epiphany.
„Zahvaljujući podršci u AI zajednici dobio sam besplatno na korišćenje 16 A100 procesorskih jedinica (GPU-ova) od kompanije koja se zove TogetherAI. Taj trošak bi, u suprotnom, na mesečnom nivou iznosio na desetine hiljada evra“, kaže naš sagovornik i dodaje da čak ni tolika „snaga“ za treniranje nije dovoljna.
Pročitajte još:
Zahvalan je i kolegama koji su mu pomogli oko korišćenja GPT-4, kao i firmama koje sponzorišu ovaj poduhvat.
„Planiram da napravim lokalni server na kome ću trenirati sledeće verzije yugoGPT-ja koje će takođe biti open-source u osnovnim verzijama, kao i da napravim startap u ovoj oblasti“, najavio je u razgovoru za Biznis.rs Aleksa Gordić.
ZVONČICA
17.12.2023 #1 AuthorNe dopada mi se ideja o vestackoj inteligenciji
BLIZANAC
17.12.2023 #2 AuthorTa veštačka inteligencija me mnogo plaši
oblak57
17.12.2023 #3 Authorzanimljivo zaista..
LAV
17.12.2023 #4 AuthorJa ko je vazno da govori nas jezik a i ako ne govori naucice 😉
LAV
17.12.2023 #5 Author#Jako