В последние годы большие языковые модели (LLM — Large Language Models) стали основой многих инновационных решений в области искусственного интеллекта. Они демонстрируют высокий уровень понимания и генерации текста, открывая новые горизонты для цифровых технологий. В этом контексте актуальной задачей для Казахстана становится создание и развитие больших языковых моделей, способных поддерживать и продвигать казахский язык в цифровом пространстве. Об этом ИА El.kz рассказал Генеральный директор Центра поддержки цифрового правительства Рустем Бигари.
- Рустем Айдарбекулы, расскажите, что такое большие языковые модели?
- Большие языковые модели представляют собой искусственные нейронные сети, обученные на огромных объёмах текстовых данных. Эти модели могут выполнять широкий спектр задач: от генерации связного текста и ответов на вопросы до перевода, анализа тональности и автоматического реферирования документов. Развитие таких моделей позволяет ИИ приближаться к более естественному взаимодействию с людьми.
- Почему важна казахская языковая модель?
- Для сохранения языкового и культурного наследия Казахстана крайне важно, чтобы казахский язык был представлен в цифровой среде. Без качественной языковой модели казахский язык рискует остаться на периферии технологических достижений, что усложнит его использование в будущем. Большая казахская языковая модель поможет в решении сразу нескольких задач:
- Какие Вы можете выделить текущие вызовы при создании казахской модели?
- Создание полноценной большой модели для казахского языка сопряжено с рядом сложностей. Основные из них:
- Можете привести примеры успешных проектов.
- Несмотря на вызовы, в Казахстане предпринимаются усилия по развитию казахской языковой модели. Инициативы включают проекты с открытым исходным кодом и участие в глобальных научных коллаборациях. Большая казахская языковая модель может стать не только инструментом для улучшения пользовательского опыта, но и драйвером для инновационного развития экономики.
Среди перспективных направлений использования модели:
- Что предстоит сделать нашей стране в этом направлении?
- Для успешной реализации казахской языковой модели необходимы инвестиции в науку, сотрудничество между государственными органами и частными компаниями, а также активное участие сообщества разработчиков и лингвистов. Становится очевидным, что развитие таких технологий будет способствовать укреплению казахского языка в обществе и его популяризации среди молодежи.
Создание и развитие казахской языковой модели также имеет стратегическое значение для обеспечения цифрового суверенитета страны. В будущем Казахстан сможет не только использовать модели на основе ИИ, но и экспортировать свои решения на другие рынки, демонстрируя пример эффективного интеграции культуры и технологий.
В Казахстане ведётся активная работа по созданию и развитию казахской языковой модели, направленной на поддержку и продвижение государственного языка в цифровой среде. Одним из ключевых проектов является IrbisGPT — первая национальная языковая модель с открытым исходным кодом, которая уже доступна для использования. Модель обучалась на 20 гигабайтах данных, включая статьи и новости на казахском языке. Тем не менее, разработчики подчеркивают необходимость в дополнительных данных от государственных органов для дальнейшего совершенствования проекта
Ещё одним значимым проектом является KazLLM, разрабатываемый Назарбаев Университетом и АО «Национальные информационные технологии ». Цель проекта — создать масштабную модель на основе 100 миллиардов токенов, используя данные из государственных архивов и других источников. Для сбора необходимых текстовых данных планируется национальная кампания на платформе Hugging Face. Первая версия KazLLM ожидается уже к концу 2024 года, а в долгосрочной перспективе проект призван поддерживать не только язык, но и ИИ-инновации в стране
- Какова роль консорциумов в разработке KazLLM?
- Ключевую роль в развитии больших языковых моделей в Казахстане играют консорциумы — объединения университетов, частных компаний и государственных организаций. Эти партнёрства позволяют использовать синергетический подход к созданию инфраструктуры и сбору данных.
В рамках проекта Всемирного банка KazLLM был создан Центр компетенций, объединяющий всех участников консорциума: АО “Национальные информационные технологии”, Центр поддержки цифрового правительства и Тіл-Қазына.
- Как происходит сбор и подготовка данных?
- Для разработки KazLLM организован масштабный сбор данных на базе АО «НИТ», которое выделило специальное хранилище данных. На данный момент собрано более 1,5 млрд слов на казахском языке. В процессе сбора задействованы следующие источники:
Для расширения корпуса данных письма направлены во все государственные и квазигосударственные органы, а также в организации, где могут находиться релевантные датасеты, например, Книжную палату и Казахскую энциклопедию.
Проводится работа в Национальной библиотеке, где в электронный формат оцифровываются книги и периодическая литература на казахском языке. Проведен анализ 553 591 файла, включающих 205 481 557 словоупотреблений, с целью их классификации по тематическим категориям. В ходе работы выявлено и расшифровано 3001 аббревиатура и разработан алгоритм деперсонификации данных на основе Named Entity Recognition (NER).
- Как проводился лингвистический анализ и подготовка токенайзеров?
- Для лингвистического анализа применены NLP-системы с открытым исходным кодом, такие как UDPipe и Stanza, для токенизации и разметки текстов. Корпус данных включает 153 760 предложений из 1 512 документов, содержащих материалы с платформы eGov.kz. Проведенный анализ подтвердил высокую морфологическую сложность казахского языка: показатель Morphemes per Word (MPW) составил более 2.5, что указывает на сложную структуру слов в языке.
Также был проведен анализ Type-To-Token Ratio (TTR) и Named Entity to Token Ratio (NTR) для оценки лексического разнообразия. По частоте использования лидируют географические названия, юридические термины и контактная информация.
В рамках подготовки модели подобраны и обучены два токенайзера: Moses Tokenizer для предварительной обработки данных и основной токенайзер на основе Byte-Pair Encoding (BPE). Эти токенайзеры оптимизированы под задачи проекта для повышения эффективности обработки данных
- Было ли проведено обучение и тестирование модели?
- Для обучения KazLLM исследованы различные фреймворки и стратегии, включая Axolotl и Unsloth, что позволило ускорить обучение модели. В процессе используются методы дообучения, такие как LoRA и QLoRA. На базе консорциума подготовлена стратегия сбора дополнительных данных и начато обучение модели на LLAMA-3. Ожидается, что модель пройдёт тестирование с использованием популярных метрик (BLEU, ROUGEL, METEOR) и наборов данных для проверки функциональности, таких как ARC, BoolQ и MATH.
Эти проекты — лишь начало масштабного плана по развитию ИИ и внедрению его в различные секторы экономики. Государство также создало Комитет искусственного интеллекта и развития инноваций для поддержки подобных инициатив, акцентируя внимание на этичном использовании ИИ и создании условий для роста предпринимательской активности в ИТ-сфере
Большие языковые модели становятся фундаментом новой цифровой реальности, в которой языки и технологии идут рука об руку. Казахстан, развивая свою собственную казахскую языковую модель, получает уникальную возможность сохранить своё культурное наследие и ускорить технологическое развитие. Этот путь требует усилий, но он обещает принести значительные плоды как для общества, так и для экономики страны.
- Благодарим за беседу!