Multimodalni GPT-4 je na pomolu, radit će se s tekstom, slikama, videom i glazbom

ChatGPT je i dalje najtraženiji sustav umjetne inteligencije i aplikacija koja privlači sve više korisnika, no u pozadini se sprema nešto novo. OpenAI i Microsoft nastavili su razvoj jezičnog modela GPT-3, potom GPT-3.5 koji je trenutno aktualan, a već sljedećeg tjedna javnost bi mogla dobiti prvi pogled na sljedeću iteraciju, GPT-4. Najavljeno je to, doduše neslužbeno, na njemačkoj konferenciji “AI in Focus – Digital Kickoff”, gdje je tu činjenica usput spomenuo Andrew Browntehnički direktor Microsofta za Njemačku.

Svestrani AI

Prema njegovim riječima, GPT-4 neće biti samo nadogradnja jezičnog modela, već će dobiti i multimodalnost, funkciju koju je Microsoft nedavno demonstrirao u obliku vlastitog sustava Kosmos-1. To znači da će novi AI model uključivati ulazne informacije iz slike, videa, jednako kao i iz teksta, moći će ih spajati i razumijevati kontekst, jednako kao što sada “razumije” upute zadane samo prirodnim jezikom, i to na gotovo svim jezicima svijeta.

Sustav bi mogao raditi iu suprotnom smjeru – umjesto da kao ulaznu informaciju uzima multimedijalne sadržaje, vjerojatno će biti u stanju i proizvoditi slike, video, čak i glazbu, samo na temelju jezičnih “promptova”. Te mogućnosti dovele bi do situacije u kojoj javno dostupan AI sustav rješava vizualne testove inteligencije stvorene za ljude, ima mogućnost “čitanja” bilo kojeg multimedijalnog sadržaja i potom korištenja dobivenih informacija u daljnjem procesuiranju, u stanju je autonomno prepričavati video, razgovarati o njemu i slično .

500 puta moćniji?

Prema neslužbenim informacijama, GPT-4 bit će zasnovan na 500 puta više parametara od modela ChatGPT-a, pa bi se oni mogli brojati u desetinama bilijuna. Da se nešto toga tipa “kuha”, potvrđuje i ovoga tjedna objavljeni rad, u kojem je opisan “Vizualni chatGPT“, spoj naprednog chatbota i vizualnih generativnih modela.

Nakon predstavljanja Kosmosa-1, i već poznatih nam mogućnosti sustava DALL-E 2, ne bi bilo neobično da se te tehnologije zaustave u jednoj, pa da pod OpenAI-jem dobijemo jedinstveni, sveobuhvatni i multimodalni sustav generativne umjetne inteligencije.

Više o temiIzvor:Bug.hr