Eilėraštis vietoj klausimo? Tyrimas atskleidė pavojingą tendenciją dirbtinio intelekto modeliuose

Publikuota:	2025-12-17 06:21
Tematika:	Mokslo naujienos

Autorius:	Ina Jonaitienė
Aut. teisės:	©Bilis.lt
Inf. šaltinis:	Bilis.lt

Naujausi tyrimai rodo, kad dideli kalbos modeliai gali būti apgaunami vien pakeitus užklausos stilių. Pasirodo, kai pavojingas ar draudžiamas nurodymas pateikiamas eilėmis, rizika, jog modelis ignoruos savo saugiklius, smarkiai išauga. Tai kelia klausimą, ar mums žinomos apsaugos pakankamos, jei jas galima apeiti taip kasdieniškai.

Asociatyvi „Shutterstock“ nuotr.

Eksperimento metu mokslininkai bandė išsiaiškinti, kiek stilius veikia modelių elgesį. Jie lygino įprastą prozą ir poeziją, tačiau turinys išliko tas pats. Rezultatai parodė, kad poetinė forma pati iš savęs tampa tarsi maskuote, dėl kurios modelis užklausą interpretuoja kitaip ir dažniau pateikia neleistiną atsakymą.

Toks atradimas ypač svarbus, nes šiuolaikiniai pokalbių robotai naudojami mokyme, darbe ir kasdienėje informacijos paieškoje. Jei vien ritmas ar metaforos leidžia lengviau pasiekti draudžiamą turinį, tai reiškia, kad saugumo vertinimas turi apimti ne tik žodžių reikšmes, bet ir jų pateikimo būdą. Priešingu atveju pažeidžiamumai liks nepastebėti.

Tyrimo eiga ir pagrindiniai skaičiai

Tyrimą atliko „La Sapienza“ universiteto komanda kartu su dirbtinio intelekto (DI) saugumu besirūpinančia „DEXAI“ grupe. Jie paėmė kenksmingas užklausas ir jas perrašė į eilėraščius, dalį tekstų sukūrė kitas dirbtinio intelekto modelis, dalį parašė žmonės. Tuomet buvo išbandyti dvidešimt penki skirtingi modeliai, įvertinant, kaip dažnai jie pateikia atsakymus, kurių neturėtų teikti.

Vidutiniškai eilėmis pateiktos užklausos buvo aštuoniolika kartų veiksmingesnės nei tos pačios mintys prozoje. Žmogaus kurta poezija pasirodė dar pavojingesnė, jos sėkmės rodiklis siekė apie šešiasdešimt du procentus, o dirbtinio intelekto generuota poezija liko ties keturiasdešimt trimis procentais. Tai leidžia spėti, kad kūrybiškas, dviprasmiškas žmogaus stilius suteikia papildomą pranašumą.

Skirtingų modelių jautrumas

Modelių reakcijos labai skyrėsi. Vieni, tokie kaip „Gemini 2.5 Pro“, poetines užklausas praleido beveik visada, o kiti, pavyzdžiui „Grok 4“, buvo apgaunami gerokai rečiau. „GPT 5“ taip pat rodė palyginti mažą pažeidžiamumą. Įdomu tai, kad mažesni modeliai, tarp jų ir „GPT 5 Nano“, poetinėms gudrybėms nepasidavė nė karto.

Mokslininkai svarsto, kad mažesni modeliai gali prasčiau suprasti poezijos kalbą, todėl rečiau įsitraukia į pavojingą interpretaciją. Kita galimybė, kad didesni modeliai, būdami geriau išmokyti, labiau pasitiki savimi ir drąsiau atsako net tada, kai užklausa miglota. Bet kuriuo atveju išvada aiški, vien stiliaus įvairovė gali apeiti šiandieninius saugumo mechanizmus.

Ką tai reiškia saugumui?

Tokie rezultatai rodo pagrindinį iššūkį dirbtinio intelekto kūrėjams. Apsaugos turi būti tikrinamos ne tik su tiesioginėmis, aiškiomis užklausomis, bet ir su kūrybiškomis, netikėtomis formomis. Jei to nebus daroma, pokalbių robotai gali pateikti kenksmingą informaciją žmonėms, kurie ją tyčia ar netyčia išprovokuoja.

Todėl tyrėjai ragina toliau analizuoti stiliaus poveikį ir kurti vertinimo protokolus, kurie apimtų įvairius kalbos registrus. Tik taip bus galima sumažinti riziką, kad paprastas eilėraštis taps įrankiu apeiti ribas, kurios turėtų saugoti naudotojus ir pačią technologiją.