HTP logotype.

Кыргызстан в топе AI: Kani TTS 2 вошла в тренды мирового каталога AI моделей

Она может генерировать до 40 секунд речи на кыргызском и других языках.

Кыргызстанские разработчики вновь заявили о себе на международной технологической арене. Команда стартапа NineNineSix представила новую версию модели синтеза речи - Kani TTS2, которая уже вошла в число самых популярных TTS-моделей на платформе Hugging Face - крупнейшем мировом каталоге моделей искусственного интеллекта.

Kani TTS 2 стала логичным продолжением предыдущих разработок команды и показала серьёзный технологический скачок: теперь модель способна стабильно генерировать до 40 секунд живой речи за один проход, что более чем в два раза превышает возможности первой версии.

Для полностью открытой модели из Кыргызстана попадание в топ-3 TTS на Hugging Face - редкое и значимое достижение.

Кто такие NineNineSix

NineNineSix - кыргызстанская команда разработчиков в области искусственного интеллекта, известная своими проектами в сфере языковых технологий.

Ранее команда представила первую версию Kani TTS, а также разработала голосовую колонку и AI-ассистента AkylAi, ставшую первым искусственным интеллектом, говорящим на кыргызском языке.

Голос для малопредставленных языков

Большинство крупных AI-компаний фокусируются на английском и других глобальных языках. Малоресурсные языки часто остаются за пределами технологического прогресса. NineNineSix пошли другим путём.

Kani TTS 2 уже поддерживает английский, испанский и кыргызский языки, а архитектура модели позволяет обучать её для любых других языков, акцентов и диалектов.

Особенность проекта в том, что команда опубликовала полный код предварительного обучения. Это означает, что любая страна или исследовательская группа может создать собственную голосовую модель на базе Kani TTS 2.

«Kani TTS 2 - это следующий шаг после нашей первой версии: мы сделали генерацию речи стабильнее и научили модель выдавать длинные фрагменты. Мы делаем ставку на компактные и открытые модели - их проще запускать и адаптировать под разные языки и акценты, включая малоресурсные. Для нас важно показать, что технологии мирового уровня можно создавать в Кыргызстане, поэтому мы открыли не только веса модели, но и весь код для pretrain - чтобы любая команда могла обучить TTS с нуля под свой язык», - отметил Нурсултан Бакашов, сооснователь nineninesix.ai.

Что нового в Kani TTS 2

Главные улучшения:

·   До 40 секунд стабильной генерации речи за один проход

·   Поддержка zero-shot voice cloning - клонирование голоса по короткому аудио фрагменту

·   Полностью открытая архитектура и код обучения

·   Вхождение в топ-3 TTS-моделей на Hugging Face

Модель содержит около 400 миллионов параметров, была предобучена на примерно 10 000 часов речевых данных и может работать на GPU с около 3 ГБ видеопамяти, что делает её доступной для локального и серверного использования.

“Kani TTS 2 - это не просто очередная AI-модель. Это доказательство того, что кыргызстанские специалисты способны создавать технологии мирового уровня и конкурировать на глобальном рынке искусственного интеллекта. NineNineSix демонстрирует, что Кыргызстан может быть не только потребителем, но и создателем передовых AI-решений”, - сообщили в Парке высоких технологий Кыргызстана.

Ссылки на проект

Pretrained модель:

https://huggingface.co/nineninesix/kani-tts-2-pt

English модель:

https://huggingface.co/nineninesix/kani-tts-2-en

Код для pretrain:

https://github.com/nineninesix-ai/kani-tts-2-pretrain

HF Spaces:

https://huggingface.co/spaces/nineninesix/kani-tts-2-pt

https://huggingface.co/spaces/nineninesix/kanitts-2-en

Discord сообщество:https://discord.com/invite/NzP3rjB4SB