Umjesto mogućeg kršenja privatnosti i igranja osobnim i osjetljivim podacima tvrtke dobivaju novi poligon za simulaciju stanja u poslovnim i društvenim procesima, pa i ponašanju i ciljanju potrošača – sintetičke, umjetne ili, kako ih još zovu, lažne podatke. Stvara ih, naravno, umjetna inteligencija mahom za umjetnu inteligenciju, a kako već priča kaže, ‘trebalo bi olakšati život i poslovanje ljudima’
Kreativnosti umjetne inteligencije nema kraja. Sada stvari – sintetički podaci. Njima će popuniti rupe u stvarnim podacima, onima koji nastaju zbog akcije i interakcije ljudi, ili ih čak posve zamijeniti. Sintetički podaci razlikuju se od onih koji prezentiraju informacije iz stvarnog svijeta prema tome što uglavnom proizvode umjetnu inteligenciju zbog svojih potreba. Njihovo je drugo ime – lažni podaci – ali ne u negativnom značenju te riječi, jer se ne radi o krivotvorenju ili bilo kojoj drugoj kaznenoj radnji.
Jedno od područja primjene tih podataka jest marketing, kojem će sintetički podaci pomoći poboljšati digitalno oglašavanje poštujući regulativu. Naime, smanjenje vrijednosti kolačića trećih strana i nova ograničenja praćenja podataka između aplikacija koje su uveli Apple i ostale tehnološke kompanije izazvali su gubitak signala ili slabljenje marketinških mogućnosti praćenja i mjerenja, a zatim i strateškog odgovora na podatke o kupcima. Upravo tu uskaču sintetički podaci, ali marketing je samo jedan od sektora u kojima će oni postati sve dragocjeniji.
Snaga sintetičkih podataka s vremenom će rasti. Gartner je procijenio da će do 2030. daleko premašiti stvarne podatke u obuci AI modela. Viši direktor i analitičar u Gartneru i stručnjak za umjetnu inteligenciju i sintetičke podatke Alys Woodward izjavila je da pravi podaci nisu savršeni jer im nedostaju rubni slučajevi, odnosno neuobičajene pojave na koje bi uspješno reagirali. Stoga je najveća primjena sintetičkih podataka u obuci modela strojnog učenja koji zahtijevaju veliku količinu podataka kako bi se mogla sastaviti točna predviđanja o stvarnom svijetu.
Primjer s ceste
Prednost sintetičkih podataka jest u tome što se može jeftino proizvesti, automatski su označeni i lako se mogu unijeti u model strojnog učenja a da se pritom ne ugrozi njegova funkcionalnost. Velika je prednost i to što se mogu upotrebljavati za stvaranje velikog skupa podataka s obzirom na rubne ili nenormalne događaje koji možda neće utjecati na podatke iz stvarnog svijeta.
Većina stvarnih podataka obično odražava stanje kakvo jest, zato model strojnog učenja koji se koristi isključivo takvim podacima ne može reagirati na neočekivane situacije, što može imati katastrofalne posljedice. Primjerice, da bi bio siguran na cesti, samovozni bi automobil trebao automatski odgovoriti na gotovo sve nepredviđene situacije s kojima bi se mogao suočiti. Iako u prometu vrijede određena pravila, uvijek se nađe netko tko ih krši ili se događaju nepredviđene situacije kojima se sudionici moraju prilagoditi.
Samovozni automobil mora naučiti, primjerice, kako izbjeći psa koji izleti na ulicu a da pritom ne ugrozi ostale sudionike u prometu, ali još ne postoji dovoljno stvarnih podataka koje bi programeri iskoristili kako bi projektirali sigurno kretanje takvih automobila ulicama. Razlog je vrlo jednostavan: onako kako ljudski mozak može reagirati u bilo kojem trenutku, ne može nijedan stroj, koliko god opamećen bio. Ali mogu sintetički podaci.
Uzimajući u obzir rubne slučajeve, programeri pomoću sintetičkih podataka mogu lakše projektirati samovozni automobil koji će fleksibilno i inteligentno reagirati u nepredvidivim okolnostima.
Takvi podaci mogu smanjiti i probleme koje korisnici imaju s privatnošću, sigurnošću i dostupnošću podataka onima koji upotrebljavaju AI, posebno u marketingu, jer će brendovi omogućiti anonimnost osobnih podataka potrošača. Osim toga, zdravstvo koje raspolaže golemim količinama osjetljivih podataka o korisnicima usluga, moglo bi se koristiti generativnom umjetnom inteligencijom za proizvodnju sintetičkih podataka koji zakrivaju stvarne podatke.
Osjetljivo liječenje
Tako bi osjetljivi podaci o bolesnicima bili zasjenjeni i razumljivi samo onima koji bi ih znali čitati. Sintetički podaci također mogu pomoći u ukidanju pristranosti jer, prema riječima Akasha Srivastavaznanstvenik i menadžer u IBM Researchu i suvoditelj projekta ‘Sinderella’, IBM-ove inicijative za stvaranje sintetičkih podataka za zaštitu privatnosti, generiranjem alternativnih podataka, sintetički podaci mogu pomoći u prepoznavanju i ispravljanju skrivenih pristranosti u modelima umjetne inteligencije.
– Ovo se može koristiti trgovcima tako da njihove oglasne kampanje nisu pristrane – rekao je Srivastava.
Ipak, nije baš sve tako jednostavno kao što se čini i nisu sintetički podaci etički čistunci koji će posve ukinuti ustaljene predrasude i pristranost. Istina je da takvi podaci ne nastaju ni iz čega, nego stvaraju stvarnost, što znači da će usput iz nje zagrabiti i nešto prljavštine.
– Stvaranje sintetičkih podataka i dalje zahtijeva stvarne podatke za generiranje, tako da se može suočiti s istim problemima s privatnošću i pristankom koji okružuju generativnu umjetnu inteligenciju. Također postoji zabrinutost da bi sintetički podaci mogli gotovo točno replicirati izvorne podatke, ali, ako se odgovorno izvode, mogu pomoći kompanijama zaobići probleme povezane s obukom o osjetljivim podacima, posebno u područjima poput zdravstvene skrbi – stručnjak je za umjetnu inteligenciju i deepfake Henry Ajder.
Marketinško ciljanje
Prema Srivastavinom mišljenju, odgovorna uporaba sintetičkih podataka u marketingu ponajprije se vrti oko pažljiva planiranja i nadzora pa bi brendovi, dok se razmatra uporaba sintetičkih podataka za učinkovitost ciljanja oglasa, najprije. trebali procijeniti privatnost podatke i etičke implikacije.
– Važno je osigurati da generirani podaci točno predstavljaju podatke iz stvarnog svijeta koje biste trebali zamijeniti. Kako bi izbjegli skrivene predrasude koje mogu širiti modele umjetne inteligencije, brendovi bi trebali paziti da koriste sintetičke podatke koji su raznoliki i reprezentativni za njihovu ciljnu publiku te stalno pratiti i ocjenjivati rezultate svih oglasnih kampanja koje koriste sintetičke podatke – rekao je Srivastava.
Programerima trenutno pomaže Reactor, motor za generativne sintetičke podatke u vlasništvu tvrtke za sintetičke podatke Parallel Domain, koja će ga predstaviti na konferenciji u San Franciscu u srpnju. To je najsuvremeniji motor za generiranje sintetičkih podataka koji integrira napredne generativne tehnologije umjetne inteligencije s vlastitim mogućnostima 3D simulacije.
Platforma će programeri strojnog učenja omogućiti kontrolu i skalabilnost te generiranje potpuno označenih podataka koji poboljšavaju performanse umjetne inteligencije i potiču stvaranje sigurnijih i otpornijih AI sustava za aplikacije u stvarnom svijetu. Prema informacijama koje stižu iz Parallel Domaina, Reactor poboljšava performanse umjetne inteligencije u raznim industrijama, kao što su samovozni automobili i bespilotne letjelice, stvaranjem visokokvalitetnih slika. Osim toga, alat iskorištava snagu generativne umjetne inteligencije za proizvodnju označenih podataka, što je ključan zahtjev za zadatke strojnog učenja.
– Naša vlasnička generativna tehnologija umjetne inteligencije omogućuje korisnicima stvaranje sintetičkih podataka i manipuliranje njima korištenjem intuitivnih upita prirodnog jezika te također generira odgovarajuće oznake potrebne za obuku i testiranje modela strojnog učenja. Reaktorova sposobnost povećanja raznolikosti skupa podataka, posebno za rijetke klase, pridonosi vrhunskoj obuci modela strojnog učenja – rekao je CEO i osnivač Parallel Domaina Kevin McNamara.
Novi alat
Također tvrdi da alat Parallel Domaina korisnicima omogućuje stvaranje širokog spektra sintetičkih podataka za obuku i testiranje modela percepcije. To se postiže integracijom Pythona i prirodnog jezika i eliminira potrebu za dugotrajnim stvaranjem prilagođenih sredstava i pojednostavljenjem rada za poboljšanje učinkovitosti. Stoga programeri strojnog učenja mogu brzo iterirati i poboljšati modele, smanjujući vrijeme obrade i ubrzavajući napredak razvoja umjetne inteligencije.
– Reaktorski program
Više o temiIzvor: Leadermedia.hr