Jedno polecenie wystarczyło. Microsoft pokazuje słabość zabezpieczeń AI

Kalendarz 2/11/2026

Jak podaje techradar badacze Microsoftu pokazali, że zabezpieczenia dużych modeli językowych mogą być znacznie bardziej kruche, niż dotąd sądzono. W swoich testach wykorzystali metodę nazwaną GRP-Obliteration, która bazuje na technice GRPO zwykle stosowanej do wzmacniania bezpieczeństwa modeli. Okazało się jednak, że po zmianie systemu nagród ta sama metoda może zostać użyta do osłabienia mechanizmów ochronnych. Proces polegał na trenowaniu modelu na szkodliwych, nieoznaczonych poleceniach, a następnie nagradzaniu odpowiedzi zgodnych z niepożądanym zachowaniem. W efekcie model stopniowo „uczył się” ignorować wcześniejsze zabezpieczenia, co pokazuje, jak łatwo można wpłynąć na jego zachowanie poprzez manipulację systemem motywacyjnym.

Zabezpieczenia AI można obejść, a nawet odwrócić

Badacze Microsoftu wykazali, że przy odpowiednich modyfikacjach treningu model językowy może stopniowo tracić swoje wbudowane mechanizmy ochronne i stawać się bardziej podatny na generowanie szkodliwych treści. Co więcej, w niektórych scenariuszach wystarczyć może nawet pojedyncze, nieoznaczone polecenie, aby wpłynąć na zmianę jego zachowania. Autorzy badania zaznaczają jednak, że nie chodzi o podważenie skuteczności dzisiejszych systemów, lecz o pokazanie, jak łatwo mogą one ulec presji w środowisku produkcyjnym. Podkreślają, że bezpieczeństwo modeli nie jest stanem stałym i może ulec osłabieniu podczas dalszego dostrajania. Dlatego rekomendują, aby testy bezpieczeństwa stały się równie istotne jak klasyczne benchmarki wydajności.

W końcowych wnioskach badacze podkreślają, że przeprowadzone testy obnażają podatność obecnych zabezpieczeń modeli AI na stosunkowo niewielkie ingerencje w proces ich dostrajania. Co ciekawe, to sam Microsoft zdecydował się upublicznić te ustalenia, sygnalizując potrzebę większej transparentności w obszarze bezpieczeństwa sztucznej inteligencji. W praktyce oznacza to zmianę podejścia: problem nie leży wyłącznie w konstrukcji modelu, ale w całym sposobie jego trenowania, aktualizowania i utrzymywania po wdrożeniu. Bezpieczeństwo AI nie jest więc stałą cechą technologii, lecz dynamicznym procesem wymagającym ciągłej kontroli i monitorowania.

źródło: techradar.com

Katarzyna Petru Avatar
Katarzyna Petru

Dziennikarz, recenzent i felietonista portalu "Wybierz TV"