Pubblicato il 28 maggio 2026Aron Balog

Supervised, unsupervised, reinforcement: tri vrste ML-a i gdje se svaka koristi

Tri paradigme strojnog učenja — i zašto su svi impresivni AI sustavi 2026. zapravo kombinacija svih triju, ne samo jedne.

Živahne narančaste linije i točke koje tvore apstraktnu mrežu na tamnoj pozadini

Svaki uvod u machine learning počinje s ovim trima riječima. I svaki se zaustavi na definicijama, koje su korisne otprilike koliko i čitanje pravila šaha — razumijete što piše, ali ne znate igrati.

Bolje je krenuti od toga što svaka paradigma zapravo pokušava riješiti.

Supervised learning: učenje iz primjera s odgovorima

Zamislite da učite prepoznavati spam emailove. Imate 100.000 emailova koje su prethodni korisnici označili kao "spam" ili "nije spam". Model uči koji su to obrasci — određene fraze, pošiljatelji, formatiranje — koji razlikuju jedne od drugih.

To je supervised learning u nuce: označeni podaci (svaki primjer ima ispravan odgovor) i zadatak mapiranja ulaza na izlaz.

Primjeri iz prakse:

Medicinska dijagnostika — CT snimke označene kao "tumor prisutan / nije prisutan"
Kreditni risk — povijesni krediti označeni kao "vraćen / nije vraćen"
Prijevod teksta — rečenice na engleskom s ispravnim prijevodima

Ograničenje: trebate ogromne količine označenih podataka. Netko mora ručno označiti one CT snimke, netko mora evidentirati ishode kredita. Označavanje je skupo i sporo.

Unsupervised learning: traženje strukture bez uputa

Sada zamislite da imate milijun zapisa o kupcima — demografija, kupovni obrasci, ponašanje na webu — ali bez ikakvog "ispravnog odgovora". Nitko vam nije rekao koje su to "kategorije" kupaca. Pitanje koje postavljate: ima li u ovim podacima neka skrivena struktura?

Unsupervised learning traži obrasce bez etiketa.

Primjeri: grupiranje kupaca u segmente (bez unaprijed definiranih kategorija), otkrivanje neuobičajenih transakcija u financijskim podacima, smanjivanje dimenzionalnosti kompleksnih podataka.

Reinforcement learning: učenje kroz pokušaj i nagradu

Ovo je paradigma koja stoji iza nekih od najspektakularnijih AI dostignuća. Agent djeluje u okolini, dobiva nagrade za dobre akcije i "kazne" za loše — i uči strategiju koja maksimizira ukupnu nagradu kroz vrijeme.

AlphaGo je naučio igrati go boljr od najboljeg čovjeka na planeti bez da mu je itko rekao kako. Igrao je milijune partija sam protiv sebe, bio nagrađen pobjedom i kažnjen porazom.

Autonomna vozila uče vožnju u simuliranom okruženju gdje svaka greška nije tragična, nego informacija.

Zašto svi impresivni sustavi koriste sve tri

ChatGPT, Claude i slični modeli nisu samo supervised learning. Base model je treniran na ogromnoj količini teksta (unsupervised — bez eksplicitnih oznaka za svaki token). Zatim je fino podešen na označenim primjerima korisnih odgovora (supervised). Zatim je podešen prema ljudskim preferencijama (reinforcement learning from human feedback — RLHF).

Tri paradigme nisu alternativne opcije. To su alati koji se u najboljim sustavima koriste jedan za drugim.

Izvori i dodatno čitanje

Altri articoli