Podatkovni incest: Koliko je degeneracija generativne umjetne inteligencije opasna

Habsburška monarhija, jedna od najmoćnijih dinastija u povijesti, propala je zbog incesta koji su doveli do degeneracija. Ova dinastija, koja je vladala velikim dijelom Europe i svijeta, s vremenom je postala sve slabija, sve dok nije potpuno izumrla. Ovaj pad nije bio rezultat vanjskih sila ili neprijateljskih invazija, već unutarnje degeneracije uzrokovane incestom. Sličan problem može se pojaviti u svijetu umjetne inteligencije (AI) – ‘podatkovni incest‘.

Ta pojava se događa kada AI koristi podatke za učenje iz podataka koje je generirala druga AI. Tako može doći do degeneracije podataka, slično kao što je došlo do degeneracije u Habsburškoj monarhiji. Ova analogija može nam pomoći bolje razumjeti potencijalne opasnosti koje prijete svijetu umjetne inteligencije.

Izobličeni, dosadni i loši rezultati

Generativna AI, koja je sveprisutna u našim digitalnim i stvarnim životima, temelji se na podacima koje su stvorili ljudi. Veliki jezični modeli (LLM) ne generiraju sadržaj ni iz čega već su obučeni generirati odgovore (npr. tekst, slika) koristeći materijale koje su stvarni ljudi stvorili, obično skupljene s weba i drugih javnih izvora. No, kada se generativna AI uči na sintetički stvorenom sadržaju, počinju se događati čudne stvari. Upravo na to ukazuje nedavno objavljena studija koju su izradili istraživači na Sveučilištu Stanford.

Studija se bavi izazovima učenja velikih jezičnih modela umjetne inteligencije gdje se sintetički podaci koriste za njihovu obuku. Autori otkrivaju kako bez dovoljno svježih stvarnih podataka za obučavanje modela, kvaliteta ili raznolikost generiranih odgovora postupno opada. Studija donosi tri ključna zaključka o utjecaju različitih metoda obuke na kvalitetu i raznolikost generiranih odgovora. U slučajevima kada se modeli obučavaju isključivo na sintetičkim podacima iz prethodnih generacija, kvaliteta i raznolikost postupno opadaju. Ipak, ako se modeli obučavaju na kombinaciji sintetičkih podataka iz prethodnih generacija i fiksnog skupa stvarnih podataka, raznolikost opada, ali kvaliteta ostaje nepromijenjena. Konačno, kada se modeli obučavaju na mješavini sintetičkih podataka iz prethodnih generacija i svježih stvarnih podataka, kvaliteta i raznolikost se održavaju.

Procjenjuje se kako danas oko polovice ljudi aktivno koristi generativnu AI na fakultetima i u uredima razvijenog svijeta. Oni pomoću alata AI – poput ChatGPT-a, Google Barda, Microsoft Binga i drugih – kreiraju veliku količinu sintetičkog sadržaja koji završava u javnom prostoru i tako postaje sadržaj koji se može koristiti za obučavanje velikih jezičnih modela koji su pogon alata AI. Upravo tu postoji opasnost od ‘podatkovnog incesta‘, što dovodi do sve više izobličenih, dosadnih i loših rezultata koje generira AI. Ovaj fenomen može se usporediti s incestom u Habsburškoj monarhiji, gdje je kontinuirano međusobno sparivanje članova obitelji dovelo do genetske degeneracije i slabljenja dinastije.

Dalekosežne posljedice

Problem je što su veliki jezični modeli trebaju nove podatke za svoj razvoj, a internet je sve više preplavljen sintetičkim sadržajem. Ako postoji previše destruktivnog ‘incesta‘, sve bi moglo jednostavno propasti. Istraživači s Stanforda otkrili su kako je potrebno samo pet ciklusa obuke na sintetičkim podacima da odgovori koje daje AI postaju postanu beskorisni. U tom slučaju, posljedice ‘podatkovnog incesta‘ mogu biti dalekosežne. Kao što je degeneracija dovela do propasti Habsburške monarhije, tako bi i ‘podatkovni incest‘ mogao dovesti do propasti generativne AI.

Pomoć ipak postoji

Kako bi se izbjegao ‘podatkovni incest‘, jedno od mogućih rješenja je korištenje vodenih žigova (eng. watermark) za identifikaciju sintetičkih podataka i njihovo uklanjanje. Ova metoda, iako nije savršena, može pomoći u smanjenju količine sintetičkih podataka koji se koriste za obuku AI modela. Međutim, korisnici trebaju biti svjesni da će njihovi podaci, ako ih postave na Internet ili koriste tokom radu s alatima AI, postati dio podataka koji može biti korišten za daljnju obuku modela.

Uz to, tvrtke koje razvijaju AI modele moraju biti svjesne opasnosti koje ‘podatkovni incest‘ predstavlja. Ako se koriste sintetički podaci za obuku modela, postoji rizik da će ti modeli s vremenom postati sve manje korisni, proizvodeći sve lošije i nezanimljivije rezultate. To bi moglo dovesti do smanjenja kvalitete usluga koje ove tvrtke pružaju, što bi na kraju moglo utjecati na njihovu vrijednost i konkurentnost na tržištu.

S druge strane, korisnici AI modela također imaju ulogu u rješavanju ovog problema. Oni mogu pomoći smanjenju ‘podatkovnog incesta‘ tako što će biti svjesni vrste podataka koje generiraju i dijele na internetu. Također, mogu podržati tvrtke koje se aktivno bave ovim problemom, bilo kroz korištenje njihovih usluga ili kroz davanje povratnih informacija o kvaliteti generiranih podataka. Kao što je propast Habsburške monarhije bila upozorenje za buduće generacije, tako i ‘podatkovni incest‘ može biti upozorenje za budućnost AI.

Korak do propasti

Bez pravilnog upravljanja i kontrole, AI bi mogla slijediti put prema degeneraciji i konačnoj propasti. Rješenje ovog izazova zahtijeva svijest i proaktivnost svih sudionik

Više o temi

Izvor:Lidermedia.hr