MAGE spaja prepoznavanje i generiranje slika

Kad se spominju slike, računala posjeduju dvije izvanredne sposobnosti: mogu ih identificirati i ponovno generirati. A sad su istraživači MIT-ovog Laboratorija za računalnu znanost i umjetnu inteligenciju (CSAIL) istrenirali sustav tako da sam mogao zaključiti koji dijelovi slike nedostaju, što je zadatak koji zahtijeva duboko razumijevanje sadržaja slike. Uspješno popunjavajući praznine, Maskirani generativni koder (MAGE) postiže dva cilja u isto vrijeme: točno identificira slike i stvara nove, nevjerojatno nalik stvarnima.

Semantički tokeni

Predstavljen na konferenciji o računalnom vidu i prepoznavanju uzoraka CVPR 2023MAGE omogućuje bezbroj potencijalnih primjena, poput identifikacije i klasifikacije objekata unutar slike, brzog učenja iz minimalnih primjera, stvaranja slike pod specifičnim uvjetima i poboljšanja postojeće slike.

Rezultati rekonstrukcije pomoću MAE i MAGE s omjerom maskiranja od 75%. MAE rekonstruira mutne slike niske kvalitete, dok MAGE može rekonstruirati visokokvalitetne slike s detaljima i dodatno poboljšava kvalitetu kroz iterativno dekodiranje 📷 MIT CSAIL — Rezultati rekonstrukcije pomoću MAE i MAGE s omjerom maskiranja od 75%. MAE rekonstruira mutne slike niske kvalitete, dok MAGE može rekonstruirati slike visoke kvalitete s detaljima i dodatno poboljšava kvalitetu kroz iterativno dekodiranje. SA CSAILOM

Za razliku od drugih tehnika, MAGE ne radi s neobrađenim pikselima. Umjesto toga, on pretvara slike u “semantičke tokene”, kompaktne, ili apstraktne verzije dijelova slike. Baš kao što riječi tvore rečenice, ovi tokeni stvaraju apstrahiranu verziju slike koja se može koristiti za složene zadatke obrade, a istovremeno čuva informacije u izvornoj slici. To se može uvježbati unutar samonadziranog okvira, što mu omogućuje preduvježbavanje na velikim skupovima podataka slika bez oznake.

Modeliranje maskiranog tokena

Čarolija počinje kada MAGE počne koristiti “modeliranje maskiranog tokena”. On nasumično skriva neke od tih tokena, stvarajući nepotpunu slagalicu, a zatim trenira neuronsku mrežu da popuni praznine. Tako uči razumjeti uzorke na slici i generirati nove.

MAGE Framework 📷 S CSAIL-om — MAGE Okvir SA CSAILOM

MAGE može generirati realistične slike od nule, ali to nije sve: korisnici mogu odrediti kriterije po kojima će im MAGE generirati odgovarajuću sliku. Nije mu problem ni uređivati slike tako što će s njih ukloniti razne elemente, zadržavajući pritom njihov realističan izgled.

Impresivni rezultati

Zadaci prepoznavanja još su jedna jača strana za MAGE. Sa svojom sposobnošću prethodnog treniranja na velikim neoznačenim skupovima podataka, moguće je klasificirati slike koristeći samo naučene prikaze. Štoviše, ističe se u učenju u nekoliko koraka, postižući impresivne rezultate na velikim skupovima podataka o slikama poput iMAGENeta sa samo nekoliko označenih primjera.

Slike koje je generirao MAGE 📷 MIT CSAIL — Slike koje je generirao MAGE SA CSAILOM

Dakako, proces pretvaranja slike u tokene neizbježno dovodi do gubitka nekih informacija pa istraživači žele istražiti načine komprimiranja slike bez gubitka važnih detalja. Buduće istraživanje moglo bi uključiti i obuku MAGE-a na većim neoznačenim skupovima podataka, što bi moglo dovesti do još boljih performansi.

Više o temiIzvor:Bug.hr