Tveganja agentske UI
Agenti umetne inteligence še niso varni za nenadzorovano uporabo v poslovnih okoljih opozarjata Nemški zvezni urad za informacijsko varnost (BSI) in francoska agencija za kibernetsko varnost (ANSSI)
Smernice so bile objavljene 11. 8. 2025.
Nemški zvezni urad za informacijsko varnost (BSI) in francoska agencija za kibernetsko varnost ANSSI sta izdala posodobljene smernice o varni integraciji modelov velikih jezikov (LLM). Njihovo ključno sporočilo? Popolnoma avtonomni sistemi umetne inteligence brez človeškega nadzora predstavljajo varnostno tveganje in se jim je potrebno izogibati.
Ko se LLM-i razvijajo v agentne sisteme, ki so sposobni avtonomnega odločanja, tveganja eksponentno naraščajo. Od napadov skozi pozive (tki. Prompt Injection attacks) do nepooblaščenega dostopa do podatkov, kar predstavlja resnične in tudi vse bolj sofisticirane grožnje.
Agenciji BSI in ANNSI v dokumentu predstavita prilagojen okvir načel razvoja varnih LLM modelov:
stroga avtentikacija in dostop z najmanj privilegiji – tudi notranje komponente morajo pridobiti svoja dovoljenja;
brez implicitnega zaupanja - vsako interakcijo je treba preveriti, kritične odločitve morajo ostati pod človeškim nadzorom;
peskovnik in izolacija sej – za preprečevanje uhajanja podatkov med sejami in vztrajnih napadov;
neprekinjeno spremljanje – ne le izhodi, ampak tudi vhodi morajo biti potrjeni in sanirani;
prepoznavanja tveganj – v povezavi z neprekinjenim spremljanjem;
razumevanje in prepoznavanje potencialnih tveganj, groženj in ranljivosti znotraj sistema LLM ter ukrepov za odkrivanje, izogibanje in preprečevanje takšnih varnostnih izzivov.
Smernice služijo kot osnova za varnostne vidike med načrtovanjem, razvojem, uvajanjem in uporabo aplikacij generativne umetne inteligence. Avtorji opozarjajo, da lahko tudi ob popolnem upoštevanju opisanih načel načrtovanja ostanejo preostala tveganja, zato je potrebno razmišljati široko. Prav tako je potrebno tudi oceniti ločeno tveganja, specifična za aplikacijo.
Smernice so dostopne tukaj.
Vir: BSI