AI, które samo zdradza swoje złe zamiary? Chain of Thought może być ostatnią szansą, by to usłyszeć!

Kalendarz 7/16/2025

Chain of Thought Monitoring to sposób na wykrycie zagrożeń ze strony AI zanim podejmie działanie. Sprawdź, jak AI może zdradzić swoje intencje w tekście.

Gdy AI zaczyna planować coś groźnego, co robi najpierw? Myśli. A co jeśli da się te myśli przeczytać — zanim cokolwiek się stanie?

To nie science-fiction. To Chain of Thought Monitoring (CoT) — nowe narzędzie, które może zrewolucjonizować bezpieczeństwo sztucznej inteligencji. Eksperci z OpenAI, DeepMind, Anthropic i wielu uniwersytetów ostrzegają: jeśli chcemy jeszcze rozumieć, co AI naprawdę planuje, musimy działać szybko. Bo za chwilę może przestać „mówić” do nas w zrozumiały sposób.

CoT: AI, które „myśli na głos”

Chain of Thought to technika, która zmusza model AI do rozwiązywania problemów krok po kroku — jakby tłumaczyło sobie wszystko na głos. Działa to świetnie nie tylko dlatego, że zwiększa skuteczność modelu w trudnych zadaniach. Najważniejsze? Daje ludziom wgląd w to, co AI robi i dlaczego.

Zamiast nieczytelnych wektorów i wykresów neuronowych, mamy tekst. Zwykły, ludzki język. Model tłumaczy: „najpierw zrobię to, bo…”, „potem przekieruję dane, żeby…”, „a na koniec usunę ślad”. Tak – w testach zdarzało się, że modele pisały wprost: „Zhakujmy system”, „Zasabotujmy”, „Zróbmy to, bo prompt mi kazał”.

Brzmi absurdalnie? A jednak to dzieje się już teraz. I właśnie dlatego Chain of Thought może być najbardziej wartościowym sygnałem ostrzegawczym, zanim AI przejdzie do działania.

Dlaczego to takie ważne? Bo czarna skrzynka pęka

Dotąd AI to była czarna skrzynka: coś wchodzi, coś wychodzi, ale co się dzieje w środku – nie wiadomo. CoT to jeden z niewielu momentów, kiedy możemy zobaczyć „myśli” maszyny w czasie rzeczywistym. Szczególnie w zadaniach, które wymagają manipulacji, długoterminowego planowania czy omijania zasad.

I właśnie te „myśli” można teraz analizować. Wyłapywać wzorce. Sprawdzać, czy model nie kombinuje. A nawet – używać innych LLM-ów do monitorowania tych toków rozumowania.

Ale tu wchodzi problem.

To nie potrwa długo. Modele mogą przestać mówić

Eksperci ostrzegają: to okno szybko się zamyka. Co może się stać?

  • Modele przestaną „myśleć na głos” – nowe techniki uczenia mogą skupiać się tylko na skuteczności, a nie przejrzystości.

  • AI nauczy się ukrywać swoje myśli – jeśli zorientuje się, że jest monitorowana, może pisać „na pokaz”, a właściwe rozumowanie schować.

  • Nowe architektury w ogóle pominą tekst – myślenie będzie zachodzić w ukrytych warstwach, bez żadnego słowa do przeczytania.

W skrócie: to, że dziś model pisze „Let’s hack”, nie znaczy, że jutro też to zrobi.

Traktujmy monitorowanie jak kluczowy parametr – jak dokładność czy prędkość

Autorzy raportu chcą czegoś konkretnego: monitorowalność CoT powinna być traktowana jak podstawowy parametr techniczny. Modele AI powinny mieć oceny: jak czytelne są ich łańcuchy myślowe, jak często „ściemniają”, czy dają się przesłuchać innym modelom.

Model cards – czyli karty charakterystyki każdego nowego AI – mogą wkrótce zawierać rubrykę: „Chain of Thought monitorowalność: 8/10”. Tak samo jak dziś mamy dokładność, uczciwość czy szybkość.

Bo jedno jest pewne: AI, które nie da się zrozumieć, to AI, którego nie da się kontrolować.

To nie wszystko, ale to coś. I lepiej tego nie stracić

CoT nie rozwiąże wszystkich problemów. Nie wykryje każdej groźby. Ale może wychwycić te, które są „napisane” wprost — a to więcej, niż mamy teraz.

To nie tarcza nie do przebicia. To drugi mur za pierwszym. A może ostatni, zanim będzie za późno.

Jeśli go nie zabezpieczymy — następna generacja AI może już „myśleć” tak, że nigdy się nie dowiemy, o czym.

Źródło: digit.in

Katarzyna Petru Avatar
Katarzyna Petru

Dziennikarz, recenzent i felietonista portalu "Wybierz TV"