Objavljeno 31. svibnja 2026.Aron Balog

Deepfake u 2026.: kako prepoznati AI-generiran video i audio — i zašto postaje sve teže

Besplatni AI alati omogućuju svakome izradu deepfake videa. Objašnjavamo vizualne i audio znakove, zašto detekcija postaje teža, i koji alati zapravo rade.

Zatvoreno oko prikazano na ekranu vintage televizora

U veljači 2024., financijski djelatnik hongkonške kompanije prebacio je 25,6 milijuna dolara prevarantima. Nije bio naivan — video poziv koji ga je uvjerio prikazivao je lik i glas direktora kompanije, kao i nekoliko kolega. Bio je deepfake. Svih šest lica na pozivu bila su AI-generirana, ali su izgledala i zvučala savršeno stvarno. Djelatnik nije posumnjao.

To nije izoliran incident. Do 2025. vrijednost prijevara temeljenih na deepfake tehnologiji prešla je 25 milijardi dolara godišnje globalno, a alati koji su još 2021. zahtijevali superračunalo i tjedne rada, danas su dostupni kao mobilna aplikacija.

Od Hollywood trika do pametnog telefona

Deepfake — spoj "deep learning" i "fake" — počeo je kao akademski projekt za zamjenu lica u videima. Originalne implementacije iz 2017. bile su primitivne, zahtijevale visoke performanse GPU-a i stotine fotografija ciljane osobe za trening. Rezultati su bili vidljivo lažni — zamućeni rubovi, krivi smjer pogleda, neprirodne boje kože.

Do 2024./2025., situacija je fundamentalno drugačija. Aplikacije kao što su HeyGen, Synthesia, D-ID i niz manje poznatih open-source alata generiraju uvjerljive deepfake videe iz jedne jedine fotografije i audio zapisa od nekoliko sekundi. Realtimski deepfake — izmjena lica u video pozivu u realnom vremenu — dostupna je kao plugin za OBS Studio koji svaki korisnik može preuzeti besplatno.

Za audio deepfake, situacija je još alarmantnija. ElevenLabs i slični servisi kloniraju glas iz 15-ak sekundi uzorka zvuka. Rezultat je sintetizirani glas koji je gotovo identičan originalu, uključujući intonaciju, pauze i karakteristična obilježja glasa.

Kako deepfake zapravo funkcionira

Postoje dvije glavne arhitekture. Starije metode temeljile su se na GAN-ovima (Generative Adversarial Networks) — dva neuralna mrežna bloka koja se natječu: generator koji stvara lažni sadržaj i diskriminator koji pokušava otkriti lažni sadržaj. Kroz tisuće iteracija, generator uči kako varati diskriminator. Rezultat su vizualno uvjerljivi, ali tehnički detektabilni artefakti.

Novije metode koriste difuzne modele (diffusion models) — isti tip arhitekture koja stoji iza Stable Diffusion i DALL-E. Difuzni modeli počinju od šuma i postepeno uklanjaju šum prema ciljanoj slici. Ovi modeli produciraju bitno uvjerljivije rezultate jer artefakti koji su karakterizirali GAN-ove (mreža piksela, specifični obrasci šuma) nisu prisutni.

Za face-swap u videu: algoritam identificira lice u originalnom videu, mapira ga u 3D prostor, aplikira ciljano lice i re-renderira uz prilagodbu osvjetljenja i boje kože. Za audio: neuronska mreža trenirana na govornim uzorcima kodira karakteristike glasa u latentni prostor i dekodira novi tekst s tim karakteristikama.

Vizualni znakovi koje treba tražiti

U 2026., GAN-bazirani deepfakovi i dalje imaju prepoznatljive artefakte. Difuzni modeli su bolji, ali i dalje nisu savršeni.

Oči i treptanje: stariji deepfakovi imali su abnormalno rijetko ili prebrzo treptanje. Noviji su to ispravili, ali i dalje postoje slučajevi "staklenih" očiju gdje zenice nemaju prirodno kretanje i dubinu. Osvjetljenje reflektirano u zjenici (corneal reflection) često ne odgovara smjeru svjetla u sceni.

Rubovi lica pri pokretu glave: pri bržem pokretu glave ili nagloj promjeni ekspresije, rubovi lica mogu pokazati "mješanje" s pozadinom — blago zamućenje ili iskrivljenje koje traje tek frame ili dva.

Kosa i fini detalji: AI i dalje ima problema s kosom, posebno tenkim vlasima, prolaznim pramenovima ili složenim frizurama. Rubovi kose mogu izgledati neprirodno oštre ili zamućene.

Usne i govor: uskladivanje pokreta usana s govorom (lip sync) je bolji nego ikad, ali pri brzom govoru ili specifičnim fonemima mogu se pojaviti neusklađenosti od frame do dva.

Audio deepfake: teži za uhvatiti

Dok video deepfake ima vizualne tragove koje možemo tražiti, audio deepfake je mnogo perfidniji jer se oslanjamo na duboko ukorijenjenu intuiciju da "prepoznajemo glas" bližnjih i poznanika.

Tipični znakovi audio deepfakea:

Neprirodni prijelazi između rečenica — blagi "rezovi" u ritmu koji ne postoje u prirodnom govoru
Odsustvo pozadinskih zvukova ili neprirodni pozadinski šum koji ne odgovara kontekstu
Prenaglašena jasnoća govora — sintetizirani glas često zvuči previše "čist" bez normalnih mikrovibacija i neujednačenosti
Dišanje i pauze koji su prečisti ili nedostaju

Za audio deepfake provjeru posebno je koristan alat da zatražiš od sugovornika nešto specifično i neočekivano — "reci neku besmislicu" ili "napuci se u istu sekundu i nasmij se". Realtimski deepfake generatori imaju latenciju i teško prate spontane, nepredvidive zahtjeve.

Zašto postaje sve teže

Do 2025., točnost detektora deepfakea pala je na samo 65%, dok je 2020. bila iznad 90%. Razlog: modeli za generiranje i modeli za detekciju u stalnoj su utrci. Svaki novi detektor iznudi nova unapređenja u generatoru.

Difuzni modeli posebno su problematični jer ne produciraju "fingerprint" artefakte karakteristične za GAN-ove. Nema specifičnih visokofrekvencijskih uzoraka koje stari detektori traže.

Dodatni problem: tehnika poznata kao adversarial perturbation — dodavanje mikroskopski malih izmjena na video (nevidljive oku) koje aktivno varaju detektore. Deepfake koji izgleda savršeno prirodno ljudskom oku može producirati lažno negativan rezultat u AI detektoru.

Alati za detekciju koji zapravo rade

Intel FakeCatcher: analizira "PPG signal" — fotopleticosmografski signal koji hvata mikroskopske promjene boje kože uzrokovane pulsiranjem krvi. Prava koža pulsira; AI-generirana koža ne. Točnost u kontroliranim uvjetima prelazi 96%.

Microsoft Video Authenticator: analizira kompresijske artefakte i pikselske anomalije koje su karakteristične za deepfake generatore.

Sensity AI: platforma za enterprise korisnike koja detektira deepfake videe i audio zapise u realnom vremenu.

Besplatne opcije: Deepware Scanner (web alat), ScreenApp AI Video Detector — korisni za prvu provjeru, ali ne i za pouzdanu verifikaciju.

Za prosječnog korisnika, najkorisnija strategija ostaje kontekstualna provjera: verifikacija putem alternativnog kanala (ne isti poziv ili poruka), provjera izvora videosnimke, i zdrava doza sumnje kad je sadržaj emocionalno provocira ili traži hitnu akciju.

Izvori i dodatno čitanje

Više članaka

← Nazad na blog