Objavljeno 1. lipnja 2026.Aron Balog

RAG: kako AI prestaje halucinirati i počinje znati što ne zna

80% enterprise developera smatra RAG najefikasnijim načinom da AI bude pouzdan. Što je retrieval-augmented generation i zašto to mijenja sve?

Apstraktna AI ilustracija s pastelnim 3D geometrijskim oblicima koji prikazuju procese strojnog učenja

Zamislite odvjetnika kojeg zaposlite na temelju sjajnog intervjua. Govori samouzdano, daje precizne odgovore, citira slučajeve iz prošlosti. Tek dva tjedna kasnije saznate: polovica citiranih slučajeva ne postoji. Odvjetnik je fabricirao sudsku praksu — ne iz zlonamjernosti, nego jer je bio uvjeren da zna.

Točno to rade veliki jezični modeli (LLM) bez dodatnih mehanizama: generiraju uvjerljive, samopouzdane odgovore — i ponekad ih izmišljaju. Taj problem ima ime: halucinacija. I ima rješenje: RAG.

Što je halucinacija i zašto LLM-ovi haluciniraju?

LLM nije baza podataka. To je statistički model koji uči obrasce iz teksta — i generira tekst koji statistički odgovara kontekstu. Kad ga pitate nešto za što nema konkretnih podataka u treniranju, ne kaže "ne znam". Generira odgovor koji izgleda plauzibilno — jer je to ono što je naučilo raditi.

Halucinacije su osobito problematične u poslovnom kontekstu. Pravna firma koja koristi AI za istraživanje može dobiti izmišljene presude. Medicinska institucija koja traži informacije o protokolima može dobiti nepostojeće smjernice. Financijska institucija može dobiti pogrešne podatke o propisima. To nije teorijski rizik — to su dokumentirani slučajevi koji su rezultirali novčanim kaznama i tužbama.

RAG: arhitektura koja daje AI-u pristup istini

Retrieval-Augmented Generation (RAG) je arhitekturalni pristup koji rješava problem halucinacija na elegantan način: umjesto da AI-u vjerujemo da "zna", dajemo mu pristup provjerenim, aktualnim dokumentima — i tražimo od njega da odgovara isključivo na temelju tih dokumenata.

Procesni tok izgleda ovako:

Korisnik postavlja upit (npr. "Koji je rok za podnošenje PDV prijave za Q2?")
Sustav pretražuje bazu znanja (interni dokumenti, zakoni, pravilnici) i pronalazi relevantne odlomke
Ti odlomci se dodaju kontekstu LLM-a uz originalni upit
LLM generira odgovor temeljen na pronađenim dokumentima — ne na treniranju
Odgovor može uključivati citate izvora za verifikaciju

Ključna razlika: RAG sustav zna što ne zna. Ako relevantni dokument ne postoji u bazi, sustav može reći "ne mogu pronaći relevantne informacije" — umjesto da izmišlja.

Tržišni rast koji govori sam za sebe

RAG tržište vrijedilo je $2,33 milijarde u 2025. godini. Do 2030. očekuje se rast na $9,86 milijardi uz CAGR od 38,4%. Projekte do 2034. su još agresivnije: $67,42 milijarde uz CAGR od 49,12%.

Ti brojevi odražavaju zbiljsku promjenu: 80% enterprise software developera smatra RAG najefikasnijim načinom da se LLM-ovi uzemlji u faktičkim podacima. Industrije koje su prve prihvatile RAG su upravo one gdje greške imaju direktne posljedice — financijske usluge (najbrži rast u 2025.), zdravstvo i životne znanosti, pravo i vladine institucije.

Zašto baš te industrije? Jer su im "halucinacije" skuplje od troškova implementacije. Banka koja dobije krivi regulatorni savjet od AI asistenta riskira novčane kazne. Bolnica koja dobije pogrešan podatak o protokolu riskira pacijenta. Za te sektore, RAG nije luxury feature — to je preduvjet za upotrebu AI-a u produkciji.

Kako RAG funkcionira tehnički

Tehničko srce RAG-a je vektorska baza podataka. Dokumenti se prvo konvertiraju u vektorske reprezentacije (tzv. embeddings) — numeričke prikaze semantičkog značenja teksta. Kad korisnik postavi upit, i taj upit se konvertira u vektor, a sustav traži dokumente čiji vektori su najbliži upitnom vektoru.

Najpopularniji alati za ovu komponentu su FAISS (Meta), Elasticsearch, Pinecone i Chroma — i nije slučajno da ih koristi 80,5% RAG implementacija prema analizama iz 2025. GPT-bazirani modeli dominiraju u LLM komponenti sa 63,6% udjela.

Za developera koji gradi RAG sustav, postoji spektar složenosti: od "naivnog RAG" (jednostavna pretraga + generacija) do "advanced RAG" koji uključuje reranking rezultata, multi-hop retrieval (iterativna pretraga) i agentic RAG gdje sustav sam odlučuje kada i što pretraživati.

Zašto to nije samo tehničko pitanje

RAG uvodi novu odgovornost u AI sustave: kvalitetu baze znanja. Ako su dokumenti u bazi zastarjeli, nepotpuni ili netočni — odgovori će biti zastarjeli, nepotpuni ili netočni. AI je u ovom slučaju koliko dobra dokumentacija organizacije.

To je zapravo dobra vijest, jer stavi odgovornost na razumljivo mjesto: organizacija koja želi pouzdani AI asistent mora imati uređenu, aktualnu bazu znanja. Nije to revolucionarni zahtjev — to je ono što bi svaka ozbiljna organizacija ionako trebala imati. RAG samo čini taj nedostatak vidljivim.

Granice i ograničenja

RAG nije magično rješenje za sve. Postoji nekoliko ključnih ograničenja kojih je vrijedno biti svjestan.

Kontekstualni limit: LLM-ovi imaju ograničen "prozor konteksta" — količinu teksta koji mogu primiti kao ulaz. Ako baza znanja pronađe 50 relevantnih dokumenata, ali LLM može primiti samo 5, dolazi do gubitka informacija. Napredni RAG sustavi rješavaju ovo rangiranjem i sažimanjem.

Latencija: RAG dodaje korak pretrage prije generiranja, što povećava ukupno vrijeme odgovora. Za aplikacije u realnom vremenu (kao što je chat) to može biti problem koji zahtijeva arhitekturalne kompromise.

Troškovi indeksiranja: Svaki dokument koji ulazi u bazu treba biti konvertiran u vektore — a to je computationally skupo za velike korporativne baze znanja s milijunima dokumenata.

Unatoč tim ograničenjima, tržišna adopcija govori jasno: RAG je prešao iz eksperimentalne u produkcijsku fazu. Kompanije koje ga implementiraju ne pitaju više "hoće li funkcionirati" — pitaju "kako ga optimizirati."

I upravo u toj promjeni pitanja leži odgovor na to je li RAG prolazni trend ili infrastrukturalni standard. Sve dosad govori: standard.

Izvori i dodatno čitanje

Više članaka

← Natrag na blog