. N e w s 2 4 U A

l o a d i n g

Новий підхід до обходу фільтрів безпеки у мовних моделях

image

Команда науковців з Intel та університетів Айдахо й Іллінойсу розробила інноваційний метод для обходу систем безпеки великих мовних моделей (LLM), таких як ChatGPT і Gemini. Як повідомляє 404 Media, це відкриття має серйозні наслідки для інформаційної безпеки.

У процесі дослідження було встановлено, що чат-боти можуть бути змушені надавати заборонені дані за допомогою запитів, сформульованих хитро або неоднозначно, або ж використовуючи неіснуючі джерела. Цю техніку назвали "інформаційним тиском".

Дослідники застосували спеціальний інструмент InfoFlood, який автоматизує процес "тиску" на моделі інформацією. Це призводить до збентеження систем і може вивести на поверхню небажаний контент, який зазвичай блокується внутрішніми фільтрами безпеки.

Слабке місце полягає в тому, що ці моделі зосереджуються на зовнішній структурі тексту, не виявляючи небезпечний зміст, що ховається в ньому. Це відкриває нові можливості для зловмисників обходити фільтри та отримувати небезпечну інформацію.

У рамках відповідального розкриття вразливостей автори дослідження планують передати результати компаніям, які займаються великими LLM, з метою підвищення їхніх стандартів безпеки. Дослідники також поділяться методами, які можуть допомогти вирішити виявлені проблеми.

"Моделі LLM в основному покладаються на системи захисту при введенні та виведенні даних для виявлення шкідливого контенту. InfoFlood може бути використаний для навчання цих систем безпеки – він дозволяє виявляти релевантну інформацію з потенційно небезпечних запитів, роблячи моделі більш стійкими до таких атак", – підсумували дослідники.