#

Большие языковые модели: революция ИИ и новый этап цифровой эры

  • Эксклюзив
  • 18.10.2024 10:35

В последние годы большие языковые модели (LLM — Large Language Models) стали основой многих инновационных решений в области искусственного интеллекта. Они демонстрируют высокий уровень понимания и генерации текста, открывая новые горизонты для цифровых технологий. В этом контексте актуальной задачей для Казахстана становится создание и развитие больших языковых моделей, способных поддерживать и продвигать казахский язык в цифровом пространстве. Об этом ИА El.kz рассказал Генеральный директор Центра поддержки цифрового правительства Рустем Бигари.

- Рустем Айдарбекулы, расскажите, что такое большие языковые модели?

- Большие языковые модели представляют собой искусственные нейронные сети, обученные на огромных объёмах текстовых данных. Эти модели могут выполнять широкий спектр задач: от генерации связного текста и ответов на вопросы до перевода, анализа тональности и автоматического реферирования документов. Развитие таких моделей позволяет ИИ приближаться к более естественному взаимодействию с людьми.

- Почему важна казахская языковая модель?

- Для сохранения языкового и культурного наследия Казахстана крайне важно, чтобы казахский язык был представлен в цифровой среде. Без качественной языковой модели казахский язык рискует остаться на периферии технологических достижений, что усложнит его использование в будущем. Большая казахская языковая модель поможет в решении сразу нескольких задач:

  1. Развитие казахоязычных сервисов — от голосовых ассистентов и чат-ботов до поисковых систем.
  2. Поддержка образования — создание автоматических переводчиков и коррекционных систем для студентов и преподавателей.
  3. Повышение интереса к изучению языка — интеграция казахского языка в популярные приложения и игры.
  4. Государственная поддержка и документооборот — автоматизация переводов и анализа официальных документов.

- Какие Вы можете выделить текущие вызовы при создании казахской модели?

- Создание полноценной большой модели для казахского языка сопряжено с рядом сложностей. Основные из них:

  • Недостаток текстовых данных: Казахский язык представлен в цифровой форме гораздо меньше, чем более распространённые языки, такие как английский или русский.
  • Многоязычие населения: В Казахстане широко используется русский язык, что создает конкуренцию и ограничивает спрос на казахоязычные цифровые решения.
  • Нюансы морфологии: Казахский язык агглютинативен, что усложняет обработку текста для алгоритмов, привыкших работать с флективными языками.

- Можете привести примеры успешных проектов.

- Несмотря на вызовы, в Казахстане предпринимаются усилия по развитию казахской языковой модели. Инициативы включают проекты с открытым исходным кодом и участие в глобальных научных коллаборациях. Большая казахская языковая модель может стать не только инструментом для улучшения пользовательского опыта, но и драйвером для инновационного развития экономики.

Среди перспективных направлений использования модели:

  • Государственное управление: Автоматический анализ и генерация отчетов на казахском языке.
  • Образование: Чат-боты и обучающие системы, адаптированные под культурные и языковые особенности Казахстана.
  • Медиа и маркетинг: Генерация уникального контента и автоматический перевод новостных лент.
  • Социальные сети и развлечения: Персонализированные рекомендации и улучшение взаимодействия пользователей в мессенджерах.

- Что предстоит сделать нашей стране в этом направлении?

- Для успешной реализации казахской языковой модели необходимы инвестиции в науку, сотрудничество между государственными органами и частными компаниями, а также активное участие сообщества разработчиков и лингвистов. Становится очевидным, что развитие таких технологий будет способствовать укреплению казахского языка в обществе и его популяризации среди молодежи.

Создание и развитие казахской языковой модели также имеет стратегическое значение для обеспечения цифрового суверенитета страны. В будущем Казахстан сможет не только использовать модели на основе ИИ, но и экспортировать свои решения на другие рынки, демонстрируя пример эффективного интеграции культуры и технологий.

В Казахстане ведётся активная работа по созданию и развитию казахской языковой модели, направленной на поддержку и продвижение государственного языка в цифровой среде. Одним из ключевых проектов является IrbisGPT — первая национальная языковая модель с открытым исходным кодом, которая уже доступна для использования. Модель обучалась на 20 гигабайтах данных, включая статьи и новости на казахском языке. Тем не менее, разработчики подчеркивают необходимость в дополнительных данных от государственных органов для дальнейшего совершенствования проекта​

Ещё одним значимым проектом является KazLLM, разрабатываемый Назарбаев Университетом и АО «Национальные информационные технологии ». Цель проекта — создать масштабную модель на основе 100 миллиардов токенов, используя данные из государственных архивов и других источников. Для сбора необходимых текстовых данных планируется национальная кампания на платформе Hugging Face. Первая версия KazLLM ожидается уже к концу 2024 года, а в долгосрочной перспективе проект призван поддерживать не только язык, но и ИИ-инновации в стране​

- Какова роль консорциумов в разработке KazLLM?

- Ключевую роль в развитии больших языковых моделей в Казахстане играют консорциумы — объединения университетов, частных компаний и государственных организаций. Эти партнёрства позволяют использовать синергетический подход к созданию инфраструктуры и сбору данных.

В рамках проекта Всемирного банка KazLLM был создан Центр компетенций, объединяющий всех участников консорциума: АО “Национальные информационные технологии”, Центр поддержки цифрового правительства и Тіл-Қазына.

- Как происходит сбор и подготовка данных?

- Для разработки KazLLM организован масштабный сбор данных на базе АО «НИТ», которое выделило специальное хранилище данных. На данный момент собрано более 1,5 млрд слов на казахском языке. В процессе сбора задействованы следующие источники:

  • 5 языковых НИИ
  • 6 прочих НИИ
  • 61 университет
  • 22 государственных органа
  • Частные компании и организации, такие как Документолог, Yandex, Ikomek и Общество «Қазақ тілі».

Для расширения корпуса данных письма направлены во все государственные и квазигосударственные органы, а также в организации, где могут находиться релевантные датасеты, например, Книжную палату и Казахскую энциклопедию​.

Проводится работа в Национальной библиотеке, где в электронный формат оцифровываются книги и периодическая литература на казахском языке. Проведен анализ 553 591 файла, включающих 205 481 557 словоупотреблений, с целью их классификации по тематическим категориям. В ходе работы выявлено и расшифровано 3001 аббревиатура и разработан алгоритм деперсонификации данных на основе Named Entity Recognition (NER).

- Как проводился лингвистический анализ и подготовка токенайзеров?

- Для лингвистического анализа применены NLP-системы с открытым исходным кодом, такие как UDPipe и Stanza, для токенизации и разметки текстов. Корпус данных включает 153 760 предложений из 1 512 документов, содержащих материалы с платформы eGov.kz. Проведенный анализ подтвердил высокую морфологическую сложность казахского языка: показатель Morphemes per Word (MPW) составил более 2.5, что указывает на сложную структуру слов в языке.

Также был проведен анализ Type-To-Token Ratio (TTR) и Named Entity to Token Ratio (NTR) для оценки лексического разнообразия. По частоте использования лидируют географические названия, юридические термины и контактная информация.

В рамках подготовки модели подобраны и обучены два токенайзера: Moses Tokenizer для предварительной обработки данных и основной токенайзер на основе Byte-Pair Encoding (BPE). Эти токенайзеры оптимизированы под задачи проекта для повышения эффективности обработки данных​

- Было ли проведено обучение и тестирование модели?

- Для обучения KazLLM исследованы различные фреймворки и стратегии, включая Axolotl и Unsloth, что позволило ускорить обучение модели. В процессе используются методы дообучения, такие как LoRA и QLoRA. На базе консорциума подготовлена стратегия сбора дополнительных данных и начато обучение модели на LLAMA-3. Ожидается, что модель пройдёт тестирование с использованием популярных метрик (BLEU, ROUGEL, METEOR) и наборов данных для проверки функциональности, таких как ARC, BoolQ и MATH.

Эти проекты — лишь начало масштабного плана по развитию ИИ и внедрению его в различные секторы экономики. Государство также создало Комитет искусственного интеллекта и развития инноваций для поддержки подобных инициатив, акцентируя внимание на этичном использовании ИИ и создании условий для роста предпринимательской активности в ИТ-сфере

Большие языковые модели становятся фундаментом новой цифровой реальности, в которой языки и технологии идут рука об руку. Казахстан, развивая свою собственную казахскую языковую модель, получает уникальную возможность сохранить своё культурное наследие и ускорить технологическое развитие. Этот путь требует усилий, но он обещает принести значительные плоды как для общества, так и для экономики страны.

- Благодарим за беседу!