. N e w s 2 4 U A

l o a d i n g

Аналіз вразливостей тестів безпеки штучного інтелекту

image

Дослідники виявили недоліки в сотнях тестів, які оцінюють безпеку та ефективність нових технологій штучного інтелекту. Про це йдеться у звіті, представленому The Guardian.
Фахівці з Інституту безпеки штучного інтелекту Великої Британії разом з експертами з університетів Стенфорда, Берклі та Оксфорда проаналізували більше 440 тестів, які перевіряють систему безпеки ШІ.
Вони виявили, що багато з цих тестів мають недоліки, які можуть підірвати довіру до отриманих результатів, і що практично всі тести мають проблеми у принаймні одній сфері, що робить їх результати 'неактуальними або навіть оманливими'.
Дослідник з Оксфордського інституту, Ендрю Бін, зазначив, що багато з цих тестів використовуються для оцінки нових моделей ШІ від великих технологічних компаній.
В умовах відсутності єдиного регулювання ШІ у Великій Британії та США, ці тести слугують для перевірки безпеки нових моделей та їх відповідності потребам суспільства, а також їх здатності досягати заявлених результатів у математиці, аргументації та програмуванні.
'Тести є основою всіх заяв про досягнення в галузі штучного інтелекту. Але без чітких визначень і надійних методів вимірювання складно зрозуміти, чи дійсно моделі вдосконалюються, або це лише ілюзія', - підкреслив Бін.
Дослідження зосередилося на загальнодоступних тестах, але відзначає, що провідні ІТ-компанії також використовують свої внутрішні тести, які не були проаналізовані.
Ендрю Бін підкреслив, що 'шокуючим відкриттям стало те, що лише 16% тестів використовували статистичні методи для оцінки точності критеріїв. У багатьох випадках визначення критеріїв для оцінки характеристик ШІ, таких як 'нешкідливість', було нечітким, що знижувало їхню корисність.
Висновки дослідження вказують на 'нагальну потребу у стандартах та найкращих практиках' у сфері штучного інтелекту.