Model koji rjeđe samouvjereno laže vrijedi više od svakog benchmarka. O pouzdanosti, halucinacijama i zašto je to ključno za svakodnevni rad.

Najopasnija stvar kod AI-ja nikad nije bila glupost. Glupost se vidi. Opasna je samouvjerenost — model koji izmišlja činjenicu istim mirnim tonom kojim govori istinu, pa mu povjerujete jer zvuči kao da zna.
Upravo tu Opus 4.8 donosi promjenu koja je manje efektna od benchmarka, ali važnija od većine njih.
Četiri puta rjeđe propušta vlastite greške
Anthropic navodi da je Opus 4.8 oko četiri puta rjeđe od prethodnika pustio da greška u radu koji je sam proizveo prođe nezapaženo. Drugim riječima, model je bolji u tome da uhvati sebe — da primijeti "ovo što sam upravo rekao možda ne stoji" prije nego što vam to servira kao gotovu istinu.
Anthropic ovu generaciju opisuje i kao bližu poravnanju (alignmentu) sljedeće, "Mythos" klase modela — uz manje neutemeljenih tvrdnji i više iskrenosti o tome dokle je zapravo stigao u zadatku.
Zašto je to važnije od benchmarka
Postotak na testu kodiranja impresionira inženjere. Ali za većinu ljudi presudno je nešto drugo: mogu li vjerovati odgovoru a da ga ne provjeravam tri puta? Model koji rjeđe blefira štedi upravo to — vrijeme i živce potrošene na sumnju.
Manje lažne sigurnosti znači da kad Opus 4.8 kaže "nisam siguran", to je informacija, a ne izlika. A to mijenja odnos: iz "AI koji zvuči pametno" prema "AI kojem se može povjeriti dio posla".
I dalje griješi
Bitno je ne pretjerati u drugom smjeru. "Rjeđe" nije "nikad". Opus 4.8 i dalje može pogriješiti, izmisliti izvor ili krivo protumačiti podatak — samo to čini rjeđe i rjeđe s tonom potpune sigurnosti. Za sve što ima posljedice — brojke, propise, pravne tvrdnje — provjera kod izvora ostaje vaš posao, ne njegov.
Napredak u AI-ju obično mjerimo onim što model može učiniti. Ova promjena tiče se onoga što rjeđe pogriješi a da ne kaže. Manje spektakularno, ali za alat kojem sve više ljudi predaje stvarni posao — možda i važnije.
Izvori i dodatno čitanje
- Anthropic — Introducing Claude Opus 4.8 — službene tvrdnje o pouzdanosti i poravnanju
- VentureBeat — near-Mythos level alignment — analiza poravnanja
- MacRumors — gains in coding and honesty — sažetak poboljšanja
- 9to5Mac — what's new in Opus 4.8 — pregled promjena
- TokenMix — Opus 4.8 review — nezavisni osvrt
Više članaka
- dark webcybersecurity
Što je zapravo dark web: mit vs. stvarnost
30. svibnja 2026.
- cybersecurityPMS
Kako hakiraju sustave za upravljanje hotelima: od recepcije do svake sobe
30. svibnja 2026.
- cybersecurityhoteli
Sezone i hakiranja: zašto hoteli u srpnju imaju tri puta više sigurnosnih incidenata
30. svibnja 2026.