Svakih nekoliko mjeseci pojavi se novi zaštitni mehanizam (guardrail), a već nekoliko sedmica kasnije neko ga zaobiđe (jailbreak). Mi krpimo, oni se prilagode, pa mi opet krpimo. Zna djelovati kao guranje kamena uzbrdo bez kraja — a ove godine su istraživači tom osjećaju dali ime i, kako se ispostavilo, dokaz: savršena odbrana od neprijateljskih (adversarial) upita nije samo teška, nego je načelno nedostižna. Čak i vodeći proizvođači modela to sada otvoreno priznaju.
Bez brige — za praćenje predavanja ne treba diploma iz matematike. Poenta ovog izlaganja nije sam rezultat o nemogućnosti, nego šta radimo kada ga prihvatimo. Ako LLM-ove ne možemo učiniti potpuno sigurnim, kako ih onda ipak graditi, puštati u rad i održavati odgovorno? Očekujte manje čarobnih rješenja, a više praktičnog razmišljanja o višeslojnoj odbrani (defense in depth) za stvarne sisteme.
/
Every few months a new guardrail ships, and a few weeks later someone jailbreaks it. We patch, they adapt, we patch again. It can feel like pushing a boulder uphill forever — and this year researchers gave that feeling a name and, it turns out, a proof: perfect defense against adversarial prompts isn't just hard, it's unattainable in principle. Even the leading model developers now say so out loud.
Don't worry — no maths degree required to follow along. The point of this talk isn't the impossibility result itself; it's what we do once we accept it. If LLMs can't be made perfectly safe, how do we build, deploy, and operate them responsibly anyway? Expect fewer silver bullets and more practical, defense-in-depth thinking for real systems.