Supervised, unsupervised, reinforcement: tri vrste ML-a i gdje se svaka koristi
Tri paradigme strojnog učenja — i zašto su svi impresivni AI sustavi 2026. zapravo kombinacija svih triju, ne samo jedne.

Svaki uvod u machine learning počinje s ovim trima riječima. I svaki se zaustavi na definicijama, koje su korisne otprilike koliko i čitanje pravila šaha — razumijete što piše, ali ne znate igrati.
Bolje je krenuti od toga što svaka paradigma zapravo pokušava riješiti.
Supervised learning: učenje iz primjera s odgovorima
Zamislite da učite prepoznavati spam emailove. Imate 100.000 emailova koje su prethodni korisnici označili kao "spam" ili "nije spam". Model uči koji su to obrasci — određene fraze, pošiljatelji, formatiranje — koji razlikuju jedne od drugih.
To je supervised learning u nuce: označeni podaci (svaki primjer ima ispravan odgovor) i zadatak mapiranja ulaza na izlaz.
Primjeri iz prakse:
- Medicinska dijagnostika — CT snimke označene kao "tumor prisutan / nije prisutan"
- Kreditni risk — povijesni krediti označeni kao "vraćen / nije vraćen"
- Prijevod teksta — rečenice na engleskom s ispravnim prijevodima
Ograničenje: trebate ogromne količine označenih podataka. Netko mora ručno označiti one CT snimke, netko mora evidentirati ishode kredita. Označavanje je skupo i sporo.
Unsupervised learning: traženje strukture bez uputa
Sada zamislite da imate milijun zapisa o kupcima — demografija, kupovni obrasci, ponašanje na webu — ali bez ikakvog "ispravnog odgovora". Nitko vam nije rekao koje su to "kategorije" kupaca. Pitanje koje postavljate: ima li u ovim podacima neka skrivena struktura?
Unsupervised learning traži obrasce bez etiketa.
Primjeri: grupiranje kupaca u segmente (bez unaprijed definiranih kategorija), otkrivanje neuobičajenih transakcija u financijskim podacima, smanjivanje dimenzionalnosti kompleksnih podataka.
Reinforcement learning: učenje kroz pokušaj i nagradu
Ovo je paradigma koja stoji iza nekih od najspektakularnijih AI dostignuća. Agent djeluje u okolini, dobiva nagrade za dobre akcije i "kazne" za loše — i uči strategiju koja maksimizira ukupnu nagradu kroz vrijeme.
AlphaGo je naučio igrati go boljr od najboljeg čovjeka na planeti bez da mu je itko rekao kako. Igrao je milijune partija sam protiv sebe, bio nagrađen pobjedom i kažnjen porazom.
Autonomna vozila uče vožnju u simuliranom okruženju gdje svaka greška nije tragična, nego informacija.
Zašto svi impresivni sustavi koriste sve tri
ChatGPT, Claude i slični modeli nisu samo supervised learning. Base model je treniran na ogromnoj količini teksta (unsupervised — bez eksplicitnih oznaka za svaki token). Zatim je fino podešen na označenim primjerima korisnih odgovora (supervised). Zatim je podešen prema ljudskim preferencijama (reinforcement learning from human feedback — RLHF).
Tri paradigme nisu alternativne opcije. To su alati koji se u najboljim sustavima koriste jedan za drugim.
Izvori i dodatno čitanje
Altri articoli
- mirovinainvalidnost
Invalidska osiguranja i mirovina — što se dešava ako postanete nesposobni za rad
29 maggio 2026
- zdravstvoradni-odnos
Bolovanje i gubici dohotka — što vam zapravo plaća tijekom bolovanja
29 maggio 2026
- zdravstvofinancije
Privatna vs javna zdravstva — kada je privatni doktor zapravo jeftiniji
29 maggio 2026