WINWIN AI Center of Excellence при Мінцифрі та «Київстар», найбільший оператор електронних комунікацій України, розпочинають розробку національної великої мовної моделі (LLM). Сторони підписали відповідний меморандум та готуються до старту роботи. Редакція Scroll.media розповідає, що відомо про проект.
Українська LLM
Мінцифрі від самого початку, коли почала говорити про національну LLM, прямо говорила, що шукає партнерів, які допоможуть реалізувати задумане. Відгукнулася компанія «Київстар» – найбільший телеком-оператор країни.

Сторони поділяти між собою обов’язки, при цьому готове рішення обіцяють зробити Open Source, незважаючи на те, що ресурси для створення LLM дасть «Київстар». Розподіл ролей відбудеться таким чином:
- Мінцифра координуватиме процес розробки моделі та формуватиме технологічну та етичну візію створення LLM. Зокрема створити всі ключові структури для якісної розробки моделі — координаційний комітет і етичний та технічний борді.
- Координаційний комітет відповідатиме за візію та стратегію розробки, до нього ввійдуть представники Мінцифри, зокрема WINWIN AI Center of Excellence, інших профільних державних інституцій, Київстар, технічного та етичного бордів. Етичний борд відстежуватиме відповідність законодавству та етичність моделі, а технічний борд відповідатиме за архітектуру, тренування моделі на даних тощо.
- Київстар виступає операційним виконавцем процесу і формуватиме проектний офіс для розробки моделі: підбиратиме команду, забезпечити обчислювальні потужності для попереднього навчання (pre-train) української моделі тощо.
У Мінцифрі стверджують, що залучення «Київстару» та експертиза компанії дозволять швидко розпочати проект. Очікується, що від старту до отримання перших результатів пройде до 9 місяців.
Команда, яку збиратимуть для роботи — це 10-15 людей, додатково розглядають можливість залучення лінгвістів. Людей готові наймати не лише в Україні, подавати кандидатуру можна, відправивши CV сюди — ai@thedigital.gov.ua .
Після запуску LLM буде на етапі бета-тестування. Очікується, що під час цього періоду державні, громадські, наукові, освітні та інші організації зможуть завантажити модель і першими спробувати її роботу. Після тестового періоду модель буде передана державі та доступна open source.
Представники Мінцифрі також повідомили, що на початку це буде текстова версія, а потім розпочати роботу над голосовою. Цілком можливо, що у фіналі ми також побачимо чатбот.
Фінансування
За словами представників «Київстар», реалізація проекту може вартувати від $1,5 млн до $2 млн. Якщо вартість виросте — компанія готова до додаткових інвестицій.

Кошти підуть на оренду необхідної інфраструктури, а також фонд оплати праці. Будувати власну інфраструктуру на цей момент не планують, оскільки це дорого, і довго по годині. А стартувати хочуть якнайшвидше.
Усі витрати на собі бере «Київстар», держава проект не фінансує.
Навіщо це компанії? Як пояснили представники «Київстар», вони також за потреби зможуть користуватися надбанням opensource-розробки, крім того — це можливість отримати експертизу для розвитку AI-рішень у середині компаній.
Навіщо це державі?
Запит держави — зрозумілий: на базі мовної моделі держава має на меті створення AI-сервісів для громадян та інструментів для оптимізації внутрішніх процесів. У планах Мінцифри та WINWIN AI Center of Excellence — запуск AI-ассистента у Дії, AI-інструментів для аналізу нормативно-правових актів та роботи з європейським законодавством, AI-інструментів у «Мрії» для створення індивідуальних освітніх траєкторій для школярів тощо. Загалом це понад 10 продуктів на базі ШІ.
Україна LLM надаватиме більш релевантні та точні відповіді для користувачів, ніж глобальні моделі, оскільки буде додатково натренована (pre-trained) на українських даних. Завдяки глибшому розумінню мовної специфіки (діалектів, термінології та контексту) вона краще орієнтуватиметься на багатьох темах, зокрема пов’язаних з українською історією, культурою та громадським досвідом. Це забезпечить не лише лінгвістичну, а й змістовну точність відповідей.
Національна LLM дає змогу зберігати та обробляти дані всередині країни, що стратегічно важливо для використання ШІ в обороні, урядових організаціях, медицині та фінансовому секторі. Так, LLM забезпечить захист персональних даних та національної безпеки України під час інтеграції AI у різні сектори.

Ще одне перевага – фінансова. Очікується, що використання українськомовної моделі буде коштувати дешевше для українських користувачів порівняно з англомовними аналогами.
Дані та приватність
За доступ до даних відповідатиме Мінцифра, міністерство також буде забезпечувати збір даних для навчання моделі, для чого буде залучати державні та приватні інституції, а саме університети, профільні спільноти тощо.
Модель буде натренована на даних з відкритих джерел на українській мові, зібраних у датасетах. Потенційно розглядають «Малюк» (113 гігабайтів вичищеного тексту), NER-UK, UA-GEC тощо.
Також міністерство залучатиме університети, наукові структури, національні бібліотеки та інтелектуальні фонди до збору даних для тренування моделі.
Щодо доступу приватної компанії до даних.
- Етичні та технічні борди сформують організаційні, технічні та юридичні умови для надання даних. Жодна компанія чи організація зможе використовувати їх у своїх цілях.
- Набори корпусів не містять персональних та сенситивних даних, оскільки дані будуть превентивно деперсоналізуватися. Усі потенційно чутливі дані будуть проходити обов’язкову автоматичну анонімізацію з використанням сучасних інструментів.
- Контроль за цим процесом здійснюватиметься на трьох рівнях: юридично — через спеціальні угоди; технічно — через захищення pipeline очищення даних; етично — через незалежну етичну раду, що перевірятиме відповідність дій стандартам етики та законодавства.
Важливо, що серед цих даних будуть відсутні персональні дані, дані з реєстрів та будь-яка інша сенситивна інформація. Також редактору Scroll.media додатково уточнили, що вся секретна/закрита інформація для навчання не використовуватиметься, у цьому просто немає сенсу. У майбутньому вже готову модель можна буде використовувати локально.
Добавить комментарий