Говорилка: истории из жизни, советы, новости, юмор и картинки — Горячее

Всем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.

Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А еще я сам собрал портативную версию Qwen3-TTS под win11 и успел её как следует протестировать.

Главная особенность системы в том, что она умеет не только озвучивать текст готовыми голосами, но и клонировать любой голос по короткому образцу, а ещё создавать новые голоса по текстовому описанию.

И всё это с нативной поддержкой русского языка.

Как это работает

В основе Qwen3-TTS лежит End-to-End архитектура с дискретным многоканальным токенизатором речи (12.5 Гц, 16 слоёв). В отличие от традиционных систем, которые работают по цепочке "текст → фонемы → звук" и теряют информацию на каждом этапе, здесь всё обрабатывается одним махом.

Такой подход полностью исключает эффект "роботизированности" и каскадные ошибки генерации. Модель сохраняет интонации, эмоции и особенности тембра.

Работает очень быстро даже на старшей модели 1.7B.

Поддерживаемые языки

Qwen3-TTS работает с 10 языками:

Китайский (включая пекинский и сычуаньский диалекты)
Английский
Японский
Корейский
Немецкий
Французский
Русский
Португальский
Испанский
Итальянский

Возможности

Синтез с готовыми голосами (CustomVoice)

9 встроенных голосов разных типов — молодые и зрелые, мужские и женские. Можно управлять эмоциями и стилем речи через текстовые инструкции.

Создание голоса по описанию (VoiceDesign)

Описываете словами, какой голос нужен — модель его генерирует. Например: "молодой женский голос, игривый, с высоким тоном". Лучше работает если писать промпты на голос на английском.

Клонирование голоса (Voice Clone)

Загружаете аудио от 3 секунд — получаете синтез этим голосом. По бенчмаркам качество клонирования превосходит ElevenLabs и MiniMax по показателям сходства спикеров. Оно и правда веского качества, уровень VibeVoice, но гораздо легче по ресурсам.

Multi-Speaker режим

Создание диалогов и подкастов с несколькими спикерами одновременно (до 4 голосов).

Можно эмулировать разговор между друзьями, актерами, персонажами из игры, все теперь ограничивается только вашей фантазией.

Кому пригодится

Создателям контента — озвучка роликов, подкастов, стримов.

Разработчикам игр — озвучка персонажей без найма актёров, особенно актуально для инди.

Аудиокнигам — разные голоса для персонажей.

Автоматизации — голосовые уведомления, IVR-системы, ассистенты.

Как попробовать

Онлайн-демо

Тут в демо меньше возможностей и нет локализации, но тоже отлично работает.

Hugging Face Demo — https://huggingface.co/spaces/Qwen/Qwen3-TTS

Официальный GitHub

Можно попробовать установить самостоятельность с гитхаб, но это потребует опыта и навыков.

GitHub: https://github.com/QwenLM/Qwen3-TTS

API

Официальное API от Alibaba для production-интеграции.

Ссылка: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-realtime

Портативная версия

Я с каналом Нейро-Софт подготовил улучшенную портативную сборку Qwen3-TTS Portable PRO, видео выше как раз из неё и записаны. А еще там:

Русифицированный интерфейс
Установка в один клик (install.bat)
50+ готовых голосов в комплекте
700+ дополнительных голосов для скачивания из интерфейса
Multi-Speaker режим до 4 спикеров
Поддержка NVIDIA GPU и CPU

Скачать: https://github.com/timoncool/Qwen3-TTS_portable_rus

Системные требования

NVIDIA GPU с 8+ ГБ видеопамяти (или CPU, но медленнее)
Windows 10/11 64-bit
16 ГБ оперативной памяти
20 ГБ свободного места на диске

Текущие ограничения

Ударения иногда расставляются неправильно
С длинными текстами могут быть проблемы
Инструкции для VoiceDesign лучше писать на английском

Распакуйте в корень диска (путь без кириллицы), запустите install.bat. Модели скачаются при первом запуске. А если будут сложности в установкой в посте в канале найдете версию с уже установленным env (окружением).

Я рассказываю больше о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке. Ну и на канал Нейро-Софт тоже подпишитесь, чтобы не пропустить полезные репаки. Всех обнял и удачных генераций!

Показать полностью 2 7

[моё] Нейронные сети Искусственный интеллект Синтез речи Озвучка Tts Qwen Open Source Windows Говорилка Text-to-speech Машинное обучение IT Видео Вертикальное видео Короткие видео Длиннопост

340

FCSMLife

Discord - тема актуальная и печальная, но есть Discord-заменители⁠⁠

1 год назад

Да, функционал у них хуже, согласен, но все же не Skapy..

Для тех, кто давно в теме все и так понятно, кто только подключился? встречайте :

TeamSpeak 3.

Говорилка

А так же его друг(хуже, но все же) : ventrilo :

Понимаю, сомнительные замены, как замена живой женщины на искусственную, но это все же то, до чего РНК еще не добрались и наверное неспособны добраться.

Показать полностью 2

Discord РНК Teamspeak Говорилка Игры

JohnRed1

Сервис

Первая запись на pikabu⁠⁠

1 год назад

Всем читателям привет! Давно уже заметил что поиски в поисковиках того или иного содержания приводят в Pikabu. Много разной и полезной информации можно подчерпнуть, одна из статей про покупки с маркетплейса Озон помогла мне вернуть деньги за поддельный товар, это был ноутбук, который заказывал сестре на день рождение, но об этом подробно расписывать не буду ибо как оказалось таких примеров предостаточно, конечно если будут вопросы то отвечу. А в целом во многом маркетплейс площадки упрощают поиск и приобретение товара, так было прошлой зимой когда со скидкой приобретал дизельный отопитель (фен) салона в микроавтобус, цена около 9000 руб. установка много времени не заняла, плюс был дистанционный пульт для запуска и регулировки скорости потока, теперь можно и в морозы комфортно передвигаться.

[моё] Пикабу Говорилка OZON Маркетплейс Текст

user5753846

Озвучка

Юмор

Подскажите программу озвучку⁠⁠

2 года назад

Привет , народ.

Можете подсказать годную программу для озвучки текста узнаваемыми голосами? Например голосом дроздова или мэджик гуди (...кожаный мешок) . Желательно для андроида. Это так для приколов, для души))) 🙃

Android Озвучка Говорилка Юмор Текст

LadyLFish

Дома в гостях⁠⁠

2 года назад

Я дома. Но в гостях.
Обсудим?

Дом Истории из жизни Жизненно Обсуждение Обсуждаемое Говорят Говорит Говорилка Текст

164

forest.river

Дети и родители

Неприличные слова⁠⁠

2 года назад

У моей двухлетней дочери в лексиконе есть два неприличных слова, за которые на публике приходится краснеть. Это слова: "письки" и "сиськи". Первое означает птички, второе - шишки.

[моё] Дети Речь Говорилка Неприлично Текст

Посты не найдены

1 2 3 4 5

Как это работает

Поддерживаемые языки

Возможности

Кому пригодится

Как попробовать

Портативная версия

Системные требования

Текущие ограничения

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества