Новини

Україна створить власну національну AI-модель: Мінцифри та Київстар обрали базу

Україна створить власну національну AI-модель: Мінцифри та Київстар обрали базу

Ілюстрація: Мінцифри

Мінцифра разом із «Київстар» обрали технологію, на якій тренуватимуть першу національну українську велику мовну модель (LLM). Основою стане Gemma 3 — відкрита модель Google, яку адаптують спеціально під українську мову.

LLM: чому це важливо

LLM — це «великий мозок» штучного інтелекту, який вміє розуміти та створювати текст. Щоб у нас була своя, якісна й безпечна AI-модель, її потрібно тренувати на українських текстах, враховувати мовні особливості та зменшувати ризики помилок.

Фахівці шукали модель, яка вже добре працює з українською й дозволяє гнучко її донавчати. Gemma 3 підходить найкраще, бо:

  • підтримує понад 140 мов, включно з українською;
  • має «довгу пам’ять» — може опрацьовувати великі обсяги тексту (до 128 тисяч токенів);
  • є мультимодальною, тобто розуміє не лише текст, а й зображення;
  • має відкритий код, що дозволяє адаптувати її під потреби держави та бізнесу;
  • показала хороші результати у вже створених українських AI-проєктах — MamayLM та Lapa LLM.

«Вибір Gemma забезпечує оптимальний баланс між продуктивністю та ресурсами, а також високу якість навчання української LLM. Модель підтримує понад 140 мов, включно з українською, має до 128 000 токенів, мультимодальні можливості та гнучку архітектуру, що дозволяє адаптувати її під різні завдання», — пояснив директор з розробки диджитал-продуктів «Київстар» Михайло Нестор.

Gemma: як модель адаптують під Україну

Команда Мінцифри планує:

  • Вдосконалити український токенайзер — це частина моделі, яка «розбиває» текст на частини, щоб AI краще розумів слова. Це зменшить помилки та зробить модель більш «україномовною».
  • Донавчити Gemma на унікальних українських текстах — зараз їх збирають фахівці.
  • Створити бенчмарки — спеціальні тести, які дозволять перевіряти якість та налаштовувати модель під різні задачі.

У Мінцифрі пояснюють: контрольованість та якість української моделі — пріоритет. А в Google відзначають, що Gemma вже стала базою для сильних українських AI-розробок.

Завантажити ще...