OpenAI представила дві нові моделі штучного інтелекту з логічним мисленням — gpt-oss-120b та gpt-oss-20b, які стали першими open-weight моделями компанії після GPT-2, випущеної понад п’ять років тому. Обидві доступні безкоштовно на Hugging Face та орієнтовані на розробників і дослідників, що прагнуть будувати власні рішення на базі відкритих моделей.
Моделі відрізняються потужністю та вимогами до обладнання:
- gpt-oss-120b — більша й продуктивніша модель, яка може працювати на одній GPU NVIDIA;
- gpt-oss-20b — легка версія, здатна запускатися на звичайному ноутбуку з 16 ГБ пам’яті.
Мета OpenAI — запропонувати американську відкриту ШІ-платформу як альтернативу зростаючому впливу китайських лабораторій DeepSeek, Qwen (Alibaba) та Moonshot AI, які активно розвивають потужні відкриті моделі.
Щодо тестування, то на конкурентному кодингу Codeforces 120b набрала 2622 бали, 20b — 2516, перевищивши DeepSeek R1, але поступившись закритим моделям o3 та o4-mini. На складному тесті Humanity’s Last Exam (HLE) 120b досягла 19%, а 20b — 17,3%, що краще за інші відкриті моделі, але нижче за o3.
Нові моделі тренувалися за методологією, близькою до закритих моделей OpenAI. Вони використовують mixture-of-experts (MoE), активуючи лише частину параметрів для кожного токена, що підвищує ефективність. Додаткове RL-посленавчання дозволило навчити моделі будувати ланцюги логічного мислення та викликати інструменти на кшталт вебпошуку або виконання Python-коду.
Моделі працюють лише з текстом, не генерують зображень чи аудіо. Вони розповсюджуються під ліцензією Apache 2.0, яка дозволяє комерційне використання без погодження з OpenAI, хоча навчальні дані залишаються закритими через ризики авторських позовів.
Запуск gpt-oss покликаний одночасно зміцнити позиції OpenAI у спільноті розробників та відповісти на політичний тиск США, які прагнуть посилити роль відкритих американських моделей у глобальній конкуренції.