Поскольку искусственный интеллект продолжает изменять отрасли по всему миру, развитие местных технологий, учитывающих культурные особенности, набирает обороты. В ОАЭ одна компания решает давнюю задачу: точное распознавание арабской речи. Компания CNTXT AI, базирующаяся в Дубае, недавно представила Munsit — модель преобразования речи в текст, разработанную специально для арабского языка и основанную на тысячах часов региональных аудиоданных. Мы поговорили с Мохаммадом Абу Шейхом, генеральным директором CNTXT AI, о том, почему важно внедрять эту технологию в ОАЭ, о сложностях арабских диалектов и о том, что это значит для будущего искусственного интеллекта в регионе.
Что вдохновило вас на создание модели распознавания арабской речи здесь, в ОАЭ, когда мировые гиганты уже доминируют в этой области?
Мы создали Munsit, потому что мировые технологические гиганты не решали нашу проблему. Технологии арабской озвучки долгое время пользовались недостаточным спросом. Большинство моделей разработаны для английского языка, а затем адаптированы для арабского, что приводит к низкой точности и неправильному пониманию диалектов. Мы увидели очевидную необходимость и почувствовали ответственность за свои действия. ОАЭ, с их концепцией и инфраструктурой, ориентированной в первую очередь на искусственный интеллект, стали идеальной стартовой площадкой. Это страна, которая стремится не просто внедрять искусственный интеллект, но и развивать его.
Именно это привело к созданию Munsit: модели, разработанной с нуля для арабского языка, отражающей наши диалекты, наши данные и наш регион. Мы хотели ускорить переход от использования искусственного интеллекта к его производству.
Многие говорят об ограничениях арабского языка в сфере технологий, но мало кто решал эту проблему в таком масштабе. С какими языковыми или культурными проблемами вы столкнулись и как вы их преодолели?
Хотя многие считают арабский слишком сложным для ИИ, мы рассматриваем его как стратегическую возможность. Настоящей проблемой был не язык, а данные. Менее 5% онлайн-контента на арабском языке, и еще меньше его можно использовать для обучения. Если данные — это новое масло, то неструктурированные данные – это неочищенное масло, они полны потенциала, но бесполезны до тех пор, пока не будут обработаны. Без высококачественных данных вы не сможете создавать высокопроизводительные модели, поэтому мы решили эту проблему самостоятельно.
Мы разработали конвейер обработки данных с нуля, используя weak supervision — масштабируемый алгоритмический подход, который позволил обработать более 30 000 часов необработанного арабского аудио и преобразовать его в чистый высококачественный набор данных, готовый для масштабного обучения. Это дало нам основу для обучения манситов тому, как на самом деле говорят по-арабски, со скоростью и затратами, с которыми традиционные методы просто не могли сравниться.
Как вам удалось собрать такой большой и репрезентативный набор данных по арабскому языку и что вы узнали о мнениях жителей региона в ходе этого процесса?
Мы создали наш набор данных об арабской речи с нуля, используя голоса из широкого спектра реальных источников – новостных передач, случайных разговоров, публичных архивов и повседневных взаимодействий по всему региону. Мы зафиксировали диалектные вариации и быстро поняли, что документируем жизненный опыт, лежащий в основе языка. Эти различия, обусловленные историей, географией и культурой, являются не только лингвистическими. Они являются выражением идентичности и принадлежности.
CNTXT AI называет это “суверенной технологией” — что это означает для места ОАЭ в мировом развитии искусственного интеллекта?
Суверенный ИИ означает полное владение данными, инфраструктурой и результатами. В ОАЭ это означает национальные инвестиции и готовность к ИИ на всех уровнях. Munsit – это результат такого видения: он создан на местном уровне, надежно развернут и соответствует цифровым приоритетам страны.
ОАЭ определяют свой собственный путь в области искусственного интеллекта, создавая модели, отражающие региональную специфику и отвечающие местным потребностям. Суверенитет данных занимает центральное место в этой миссии. Данные ценны, и они должны оставаться в наших руках. Именно так ОАЭ превращаются из участника в глобального разработчика стандартов в области искусственного интеллекта, экспортируя надежные, основанные на культурных традициях технологии.
Что означает этот прорыв для обычных носителей арабского языка, особенно в сфере образования, государственных услуг или создания контента?
У носителей арабского языка теперь есть модель, которая понимает их в режиме реального времени, с точностью и скоростью, зависящими от контекста. В сфере образования это позволяет использовать инструменты, учитывающие диалекты, для начинающих учащихся и неграмотных пользователей. Представьте себе эмиратские электронные платформы, предлагающие голосовую обратную связь, отражающую то, как на самом деле говорят учащиеся. В государственных органах это позволяет учитывать разнообразие диалектов, особенно в судебных органах, где перевод может быть затруднен. Munsit обнаруживает эти различия, точно расшифровывает и переводит данные в форматы, подобные арабскому эмиратскому. Он обеспечивает быструю, масштабируемую транскрипцию и индексацию в средствах массовой информации, облегчая поиск, распространение и монетизацию арабского контента.
Насколько велика роль местных талантов в создании Munsit, и считаете ли вы это поворотным моментом для молодых разработчиков искусственного интеллекта в ОАЭ?
Munsit был создан местными талантами — каждый уровень отражает интересы региона. И да, это поворотный момент. Вам не нужно покидать регион, чтобы создать прорывной искусственный интеллект. Инфраструктура здесь. Столица здесь. Амбиции здесь. Экосистема готова. Вы можете изобретать, а не просто внедрять, в своем регионе и лидировать во всем мире. Это подтверждение для следующего поколения: искусственный интеллект мирового класса может быть создан и будет создан прямо здесь.
Что будет дальше с Munsit и арабским голосовым ИИ в целом?
Что дальше? Новое поколение продуктов, разработанных на арабском языке, разработано здесь и внедрено по всему миру. Munsit служит голосовым связующим звеном в нашем более широком стеке ИИ, наряду с инструментами для подготовки, тестирования и развертывания ИИ независимым образом. Основываясь на этом, мы быстро расширяемся: появились голосовые агенты для конкретных доменов и возможность переключения между несколькими языками. Одна из самых интересных разработок: наш пакет преобразования арабского текста в речь, который запускается с использованием диалектов эмирати и Саудовской Аравии. С привлечением местных специалистов по голосовой связи мы предоставляем самые быстрые и точные в регионе арабские TTS, что является важным шагом на пути к полноценной голосовой инфраструктуре.
Что бы вы сказали молодому разработчику или лингвисту в ОАЭ, который мечтает создавать технологии мирового уровня прямо здесь?
Начните прямо сейчас. Действуйте быстро. Вам не нужно разрешение. Вы уже находитесь в одной из самых развитых стран с искусственным интеллектом на земле. Так что создавайте. Не мечтайте просто догнать других. Мечтайте о лидерстве. Потому что если мы не будем строить будущее на нашем языке, решая наши собственные проблемы, то кто это сделает?