Безпека залишається постійним викликом – у Мінцифри пояснили, як працюють з персональними даними при створенні національної LLM-моделі та Дія.AI

11:55, 23 вересня 2025
На Мінцифри лежить збір даних для тренування національної LLM-моделі.
Безпека залишається постійним викликом – у Мінцифри пояснили, як працюють з персональними даними при створенні національної LLM-моделі та Дія.AI
Слідкуйте за найактуальнішими новинами в наших групах Facebook та Telegram.

Міністерство цифрової трансформації активно працює над створенням національної мовної моделі (LLM) та чат-бота Дія.AI, однак наголошує, що усі персональні дані маскуються під час цих процесів. Про це розповів керівник відповідної команди при Мінцифри Дмитро Овчаренко в інтерв’ю для DOU.

Так, він зазначив, що на Мінцифри лежить збір даних для тренування національної LLM-моделі.

«Нині ми на етапі внутрішнього збору даних. Від міністерства запустили опитувальник до центральних органів виконавчої влади та інших держустанов щодо корпусів даних, які вони мають.

Перший драфт моделі ми зможемо зарелізити, коли визначимося з архітектурою, попрацюємо з даними, потестуємо, доопрацюємо дані за культурно-історичними, етичними та іншими критеріями. І нагадаю, що ми не робимо національну LLM з нуля, а беремо опенсорсну модель з відкритими вагами і попередньо тренуємо її на великому корпусі українських даних», зазначив він.

Також Овчаренко назвав найбільшим викликом реалізувати Дія.AI в мобільному застосунку.

«Якщо хоча б 25% користувачів скористаються AI-помічником, навантаження буде величезним. Найбільший виклик — у масштабуванні архітектури, інтеграції з реєстрами, навантаженні та головне — безпеці.

Для прикладу: один з наших сервісів обробляє близько 8 мільйонів запитів на рік і потребує кількох етапів опрацювання. Будь-яка модель, яка забезпечує цей процес, запускається або на нашій інфраструктурі, або в хмарі. У будь-якому випадку це значні витрати. Ми не використовуємо бюджетні кошти для підтримки таких моделей, і саме це питання потребує окремого вирішення. Загалом AI буде всюди.

Наразі у чату понад 27 тисяч унікальних користувачів і 950 замовлених довідок про доходи», підкреслив він.

Щодо захисту персональних даних, то як зазначив Овчаренко, до процесу залучені як зовнішні інститути, так і внутрішні команди.

За його словами очільник Мінцифри Михайло Федоров особисто на кожній нараді наголошував: «Хлопці, персональні дані. Ви впевнені, що протестували? Покажіть результати, репорти, як відреагували».

«Найбільше занепокоєння викликає те, що модель працює у «хмарі». Проте політика Google декларує: дані користувачів (промпти й запити) не використовуються для донавчання. Ми будували систему за принципом zero trust. Навіть якщо модель розташована у нашій інфраструктурі, вона все одно не має доступу до реальних PII-даних.

У нашому контурі перед мовною моделлю працюють окремі натреновані класифікаційні моделі — своєрідні guardrails. Вони виявляють та маскують персональні дані. Тобто, якщо в запиті є, наприклад, ІПН, у Google Gemini він передається вже як тег [ІПН]. Модель розуміє, що це ідентифікатор, але оперує лише тегом, а не самим значенням. На рівні бекенду ми підставляємо реальні дані вже після отримання відповіді, щоб користувач отримав коректний результат.

Історія чатів зберігається у базі даних, але з дотриманням усіх сучасних практик: encryption at rest, додаткове шифрування кожного запису унікальним ключем користувача. Тобто навіть у випадку компрометації бази без ключа відновити інформацію неможливо. Модель ніколи не бачить персональних даних. Усі запити проходять попередню й подальшу обробку», зазначив Овчаренко.

Він підкреслив, що безпека залишається постійним викликом.

«Це і інтеграція з державними реєстрами, і здатність самих реєстрів витримувати додаткове навантаження, і розвиток guardrail-моделей. Останні, до речі, погано працюють з українською мовою, тож нам довелося розробляти власне рішення та розгортати його в Україні. Я думаю, це був найбільший челендж», додав він.

Крім того, одним з напрямів роботи є аналіз нормативних актів.

«Мінцифри є органом цифрової експертизи: усі зміни до законодавства проходять через відповідний директорат. Ми маємо готувати аналітику для різних міністерств. Якщо раніше перевірка нормативно-правового акта займала 3–10 днів, то тепер аналіз готуємо максимум за 72 години.

Ми запустили це рішення п’ять місяців тому: юристи самі створюють промпти.

Загалом технічна продуктова команда на всі напрями налічує 15 людей. ШІ поступово стає ключовим фокусом і для інших міністерств, тож частина нашої команди, можливо, допомагатиме й там.

Ми вже синхронізували роботу з іншими міністерствами за системою OKR. Це працює чудово: буде спільний дашборд із прописаними цілями, де кожен зможе бачити, хто що виконав, а що ще в роботі», зауважив він.

Раніше він розповідав, що мовну модель можна використовувати для аналізу нормативних актів.

«Наприклад, у Мінцифри ми перевіряємо нормативні акти на наявність цифрових аспектів — згадки про бази даних, обробку інформації, застосунки. Уже зараз ми інтегруємо асистента в систему документообігу АСКОД, який виділяє важливі моменти й пояснює, чому на них варто звернути увагу. Це економить час експертів і прискорює ухвалення рішень», пояснив керівник команди.

Автор: Наталя Мамченко

Підписуйтесь на наш Telegram-канал t.me/sudua та на Google Новини SUD.UA, а також на наш VIBER, сторінку у Facebook та в Instagram, щоб бути в курсі найважливіших подій.

Ростислав Шурма пояснив, чи скасують в Україні обіг готівки та що для цього треба
Ростислав Шурма пояснив, чи скасують в Україні обіг готівки та що для цього треба
Головне за день
Сьогодні день народження святкують
  • Лариса Кулеша
    Лариса Кулеша
    суддя Хмельницького апеляційного суду
  • Наталія Баргаміна
    Наталія Баргаміна
    суддя Чернігівського окружного адміністративного суду
  • Володимир Гребенюк
    Володимир Гребенюк
    суддя Подільського районного суду міста Києва