- Готовим поляну
- Лучшие нейросети для озвучки текста
- Zvukogram
- Voicegenerator.io
- Cybervoice.io
- Speechactors
- Voicemaker
- Сервис texttospeech.ru
- AI от Apihost
- Resemble.AI
- Podcastle Ai
- Naturalreaders
- Нейросети генерирующие голос в 2023 году
- Oddcast
- Rapidtables
- Unitools
- Яндекс Алиса
- Yandex Speechkit
- Microsoft Azure
- Acapela
- Нейросети для озвучки текста на английском
- NaturalReaders
- Murf.AI
- bigspeak ai
- Respeecher
- Uberduck AI
- Библиотека pyttsx3
- Как озвучить системное время в Windows и Linux
- Обертка для eSpeak NG
- Управляем речью через Speech Dispatcher в Linux
- Модуль Google TTS — голоса из интернета
Готовим поляну
Прежде чем писать и тестировать код, давайте удостоверимся, что операционная система готова к синтезу речи, в том числе и на русском языке.
Чтобы компьютер заговорил, нужно:
- голосовой движок (синтезатор речи) с поддержкой нужных нам языков,
- голоса объявлений для этого двигателя.
Windows имеет встроенный Microsoft Speech API (SAPI). Голоса пока выпускают, помимо Microsoft, сторонние производители: Nuance Communications, Loquendo, Acapela Group, IVONA Software.
Также существуют бесплатные кроссплатформенные речевые движки:
- RHVoice Ольги Яковлевой — имеет четыре голоса для русского языка (один мужской и три женских), а также поддерживает татарский, украинский, грузинский, кыргызский, эсперанто и английский языки. Работает на Windows, GNU/Linux и Android.
- eSpeak и его ответвление — eSpeak NG — с поддержкой более 100 языков и диалектов, включая латынь. NG означает новое поколение. Эта версия разрабатывалась сообществом с тех пор, как автор оригинального eSpeak прекратил общение. Система прочитает ваш текст в Windows, Android, Linux, Mac, BSD. При этом старый eSpeak стабильно работает в Windows 7 и XP, тогда как eSpeak NG совместим с Windows 8 и 10.
В статье я ориентируюсь только на перечисленные бесплатные синтезаторы, чтобы мы могли писать код для разных платформ и не привязываться к проприетарному ПО.
Что касается качества голоса, то RHVoice неплох и к нему быстро привыкаешь, а вот eSpeak очень специфичен и имеет акцент. А вот eSpeak работает на любом железе и подходит в крайнем случае, когда ничего другого не работает или не установлено пользователем.
Установка речевых движков, голосов и модулей в Windows
Не должно возникнуть проблем с установкой синтезаторов в Windows. Единственный нюанс — для русской озвучки eSpeak и eSpeak NG нужно скачать расширенный словарь произношения. Распакуйте архив в подкаталог espeak-data или espeak-ng-data в каталоге программы. Теперь замените старый словарь новым: переименуйте ru_dict-48 в ru_dict, предварительно удалив существующий файл с таким же именем (ru_dict).
Теперь установите модули pywin32, python-espeak и py-espeak-ng, которые нам нужны для доступа к функциям TTS:
pip установить pywin32 python-espeak pyttsx3 py-espeak-ng
Если на вашем компьютере одновременно установлены Python 2 и 3, введите «pip3» в дальнейшем и «python3» при запуске скриптов».
Установка eSpeak(NG) в Linux
Создать «пингвина» с eSpeak, включая NG, можно за минуту:
sudo apt-get установить espeak-ng python-espeak
pip3 установить py-espeak-ng pyttsx3
Далее скачиваем и извлекаем словарь ru_dict с официального сайта:
wget http://espeak.sourceforge.net/data/ru_dict-48.zip
распаковать en_dict-48.zip
Теперь ищем адрес каталога espeak-data (или espeak-ng-data) где-нибудь в /usr/lib/ и перемещаем туда словарь. В моем случае команда перемещения выглядела так:
sudo mv ru_dict-48 /usr/lib/i386-linux-gnu/espeak-data/ru_dict
Обратите внимание: вместо «i386» в вашей системе может быть «x86_64…» или что-то другое. Если не уверены, воспользуйтесь поиском:
найти /usr/lib/ имя «espeak-данные»
RHVoice в Linux
Например, вы можете найти инструкции по установке RHVoice в Linux в начале этой статьи. Ничего сложного, но это занимает больше времени, ведь вам придется скачать несколько сотен мегабайт.
Суть в том, что мы клонируем репозиторий git и через scons собираем нужные компоненты.
Для экспериментов на Windows и Linux я использую одни и те же русские голоса: стандартное «ru» в eSpeak и «Александр» в RHVoice.
Как проверить работоспособность синтезатора
Перед доступом к двигателю убедитесь, что он установлен и работает правильно.
Проще всего проверить работу eSpeak в Windows через графический интерфейс — достаточно запустить TTSApp.exe в папке с программой. Затем откройте список голосов, выберите eSpeak-RU, введите текст в поле редактирования и нажмите кнопку «Говорить.
Вы также можете получить доступ к espeak из терминала. Основные консольные команды для eSpeak и NG одинаковы — вам просто нужно добавить или удалить «-ng» после «espeak»:
espeak -v ru -f D:my.txt
espeak-ng -v no «Летят журавли»
echo «Да, от души. Замечательно. Восхитительно» |RHVoice-test -p Александр
Лучшие нейросети для озвучки текста
В этом разделе собраны лучшие нейроны, проверенные экспертами и популярные у блогеров и других известных личностей.
Zvukogram
Этот сайт за несколько секунд конвертирует загруженный текст в саундтрек с профессиональной озвучкой. Он отличается своим качеством и возможностью расставить нужные акценты. У нейросети много возможностей: озвучка на 14 языках, выбор между более чем 25 языками, выбор настроения и многое другое.
У сервиса есть бесплатный пакет — 2000 символов с премиальной озвучкой. Минимальный пакет стоит 150 рублей, максимальный 3000 рублей. Плюсы и минусы практичного визуального редактора; возможность создания диалогов; наличие словаря, куда можно добавлять слова. Некоторые голоса слишком роботизированы.
Voicegenerator.io
Бесплатная платформа, не требующая регистрации и скачивания. Он предназначен для генерации текста в аудиоформате. В процессе преобразования используются голосовые комбинации, встроенные в ваш браузер. Поэтому никто точно не может сказать, какая озвучка будет в вашем конкретном случае. Диапазон настроек ограничен. По сути, пользователь может изменить высоту и возраст голоса.
Плюсы и минусы не нужно платить, скорость работы, не нужно скачивать программу, возможность работать офлайн, очень посредственный результат; ограниченные настройки.
Cybervoice.io
В настоящее время проект сменил название на SteosVoice. Он представляет голосовые связки ИИ живых NPC в играх. Его также можно использовать для дублирования видео, выполнения озвучки и других действий в аудиосегменте.
Пользователи могут создавать озвучку своим голосом или использовать базу данных, которая содержит различные варианты голоса. Для работы с сервисом необходима регистрация на официальном сайте.
Плюсы и минусы Наличие Telegram-бота; доступ к бесплатной версии; широкий выбор тарифов; сложная система начала сотрудничества (пользовательское соглашение, регистрация, выбор пакета и так далее).
Пользовательские характеристики напрямую зависят от тарифа. В среднем цена варьируется от 100 до 3000 рублей. Но есть и эксклюзивные пакеты, где стоимость обсуждается индивидуально.
Speechactors
Крутой продукт на основе нейросети, которая в несколько движений преобразует текст в звук. Набор настроек включает более трехсот голосов, около 130 языков, возможность наложения музыки и выбора эмоциональной окраски текста.
Преимущества и недостатки Новичок может работать с 2 текстами бесплатно; каждое слово можно исправить вручную; естественный звук без механических нот. Платные пакеты имеют ограничения по количеству символов.
Подписка на сервис стоит от 50 до 100 долларов, причем оплата взимается не ежемесячно, а один раз.
Voicemaker
Довольно приличный инструмент для преобразования текста в речь. Он также способен преобразовывать язык SSML в аудиофайл. Набор настроек широк, в него входят такие параметры, как высота голоса, эмоциональная окраска, тембр, возраст и многое другое. База данных содержит огромный список мужских, женских и детских голосов.
Плюсы и минусы загрузки mp3, ogg и wav файлов; множество дополнительных голосовых эффектов (шепот, дыхание и т д.); наличие бесплатной версии; создание уникального пользовательского голоса; возможность создавать аудиокниги и создавать подкасты; удобный интерфейс требует регистрации, очень ограниченный функционал для бесплатной версии.
Сервис texttospeech.ru
Синтез речи на основе нейронной сети. Имеет очень простой интерфейс, запустить озвучку можно сразу с главной страницы. Также есть редактор, который содержит типичные для этих инструментов настройки: высота тона, громкость, скорость и прочее.
Плюсы и минусы Наличие бесплатной пробной версии; Простая рабочая система; в основу голосования входят довольно необычные варианты (Дед Мороз, Баба Яга или, например, Ленин). Отсутствие мобильного приложения; Сложное выставление счетов.
Выплата рассчитывается не по символам, а по категории голосов. На стандарте с вас возьмут один рубль за 1000 символов, на премиуме за такое же количество символов вам отдадут уже 7 рублей.
AI от Apihost
Достойная нейросеть, выполняющая различные манипуляции с текстовыми и аудиофайлами. Вы можете озвучить их, исправить ранее записанную речь, изменить голос, записать голос и многое другое.
Преимущества и недостатки удобный интерфейс; наличие безлимитных тарифов; деньги списываются с баланса по голосованию акции голоса собираются в пакеты; сложно сразу понять, какой тариф вам нужен.
На лимитированных пакетах 1000 символов стоят от 60 копеек до 6,5 рублей. Цена на безлимит начинается от 5000 рублей.
Resemble.AI
Интересная программа, предназначенная для озвучивания текстовых файлов. Он также создает клоны всех голосов и позволяет вносить коррективы в готовые аудиофайлы. Работа может выполняться на нескольких языках, пользователям доступен набор иностранных языков. Настройки стандартные: скорость, эмоциональная окраска, возраст, тембр и так далее.
Плюсы и минусы Простота встраивания в другие ресурсы Поддержка API Актуальность для разработчиков игр
Чтобы воспользоваться услугами нейросети, необходимо заполнить заявку. Только после этого вы будете знать условия сотрудничества и тарифные планы.
Podcastle Ai
Современный и продвинутый сервис, позволяющий создавать почти профессиональную озвучку. С его помощью вы сможете улучшать качество уже записанного звука, делать многодорожечные записи, превращать текст в речь и наоборот. ИИ работает быстро и радует высоким качеством, так как предназначен для работы с подкастами.
Плюсы и минусы широкий набор настроек редактирования звука (нейтрализуются лишние паузы, паразитные слова и прочее); возможность транскрипции; бесплатный доступ к базовому набору функций; возможность интеллектуальной коррекции звукового файла; очень простое редакционное ограничение при покупке подписки.
Базовая версия стоит 12 долларов в месяц, профессиональный план — 25 долларов.
Naturalreaders
Интересный сервис, предлагающий два направления работы — прослушивание текста и его озвучка. Первый подойдет тем, кто привык воспринимать информацию на слух. А также для изучения иностранных языков, так как программа распознает 16 языков.
Озвучка сделана максимально реалистично. В редакторе длинный список настроек: возраст, тон, этническая принадлежность, паузы, эмоциональная окраска и прочее.
Достоинства и недостатки качественный результат; доступен в трех версиях (десктопная версия, приложение для смартфона, расширение для Google Chrome); большой выбор настроек. Голос не на 100% человеческий.
У сервиса есть бесплатная пробная версия и два платных пакета (49 и 79 долларов).
Нейросети генерирующие голос в 2023 году
Собранные здесь нейронные сети моментально преобразуют текст в речь и позволяют прослушать готовый результат. Работать с ними легко и интуитивно понятно.
Oddcast
Одна из самых популярных программ, позволяющая мгновенно озвучить 600 символов текста. Количество языков превышает три десятка. На русском можно выбрать варианты — два типа женских голосов и мужской. Набор настроек стандартный: скорость речи, тональность, дополнительные звуковые эффекты.
Плюсы и минусы Анимированный динамик; возможность изменить внешний вид динамика; подключение к онлайн-API; наличие бесплатной версии. Дорогая подписка.
Бесплатная версия действует 2 недели. Подписка стоит около 100 долларов и ее хватает в среднем на 40 000 минут записи.
Rapidtables
Синтезатор свободной речи, умеющий работать на русском и английском языках в двух реализациях — американской и английской. Озвучка делается онлайн, трансформация моментальная.
Плюсы и минусы не требует оплаты, не требует регистрации, речь синтезируется нажатием кнопки, никаких настроек, очень роботизированный и неприятный голос.
Unitools
Еще один простой сервис с хорошим набором настроек: выбор скорости, тональности, эмоциональной окраски и прочего. Готовый результат можно скачать в нескольких форматах на выбор. Трансформация происходит очень быстро — текст вводится сразу на главной странице.
Преимущества и недостатки простой интерфейс; оптимальный набор настроек; в бесплатном режиме можно голосовать за 1000 символов ежедневного среднего качества аудиофайла; стоимость текста при превышении лимита рассчитывается индивидуально для каждой работы.
Яндекс Алиса
Алиса, которая уже всем известна, способна озвучить выбранный вами текст. Она «читает» как весь текст, так и выбранные вами фрагменты. Работа выполнена онлайн, озвучка среднего качества.
Плюсы и минусы Не нужно ничего скачивать; быстрое голосовое сопровождение; легко использовать. Подходит только для прослушивания текстов, не для профессионального озвучивания текстов.
Yandex Speechkit
Простой сервис от Яндекс. Он предназначен для распознавания голоса и их синтеза. Основные настройки: голос, скорость речи и настроение. Сервис работает бесплатно, после генерации выступления вы можете его прослушать, а затем скачать.
Преимущества и недостатки простота; оптимальный набор настроек; наличие расширенной платной версии. Скачать только в формате ogg; платный пакет очень дорогой.
Услуга также доступна в брендированном варианте — необходимо создать индивидуальный голос по запросу. Но стоит такая услуга от 150 000 рублей в месяц.
Microsoft Azure
Облачная платформа Microsoft функциональна и поддерживает преобразование текста в речь. Он хорошо подходит для создания приложений, ботов и различных сервисов. База сервиса содержит почти 150 голосов и диалектов, выбор настроек широк и позволяет создать хороший результат.
Преимущества и недостатки возможности создать индивидуальный голос для вашего бренда; качество; работать в облаке, локально или в контейнерах на периферии; гибкие настройки; невозможность сразу определить затраты на сотрудничество.
Acapela
Очень простой сервис, позволяющий голосовать за текст в онлайн-формате. Это бесплатно и работает на нескольких языках. В категории «Русский» вам будет доступно два типа голосов — простой и премиум.
За плюсы и минусы платить не надо: простой алгоритм работы; мгновенное преобразование текста в голос; некачественная озвучка; не подходит для озвучивания презентаций или видео.
Нейросети для озвучки текста на английском
(Несколько слов о самом сервисе или нейроне, ключевые характеристики, наличие, цена, скриншот с сервиса, параметры и разрешенные настройки — до 1100 символов по каждому пункту)
NaturalReaders
Профессиональная программа, дающая качественный результат. Он позволяет преобразовывать текст в речь на нескольких языках за считанные минуты. Редактирование упрощается благодаря возможности делиться ссылками, то есть любой, с кем вы делитесь ссылкой, может выполнять эту работу.
Преимущества:
- наличие бесплатной версии;
- возможность добавить сервис в качестве расширения Google Chrome;
- возможность прослушивания писем и других файлов;
- преобразование аудио в mp3.
Минусы:
- бесплатная версия очень ограничена в возможностях.
Murf.AI
Простой сервис для озвучивания текста и редактирования готовых аудиофайлов. Он находится в свободном доступе, поэтому быстро становится популярным. Редактор очень хороший. Содержит в базе 20 языков, предлагает выбрать возраст, диалект, пол. Вы можете самостоятельно расставлять паузы, задавать эмоциональную окраску и другие параметры озвучки.
Преимущества:
- широкий выбор настроек;
- хорошее исполнение — голос действительно живой;
- записанная речь корректируется в форматах mp3 и mp4;
- три тарифных плана на выбор.
Минусы:
- не лучшая бесплатная демоверсия.
Подписка на сервис стоит от 29 до 59 долларов. Самый дорогой пакет позволяет подключить к нему команду из 4 человек.
bigspeak ai
Простейшая программа, позволяющая озвучивать тексты на английском языке разными голосами: Великобритания, США, Австралия. Также доступен набор базовых настроек, делающих голос более человечным. В бесплатном режиме вы можете проголосовать за 300 символов текста, после регистрации количество символов увеличивается до 3000.
Преимущества:
- простая работа;
- хороший выбор настроек и голосов;
- хороший бесплатный пакет.
Минусы:
- голос остается излишне роботизированным.
Премиум-пакет стоит 20 долларов в месяц.
Respeecher
Уникальный проект на основе нейронной сети, обученной системе преобразования речи в речь. У нее почти идеальный голос Deep Fake. В результате даже специалист не различит, кто произносит слова — человек или робот. Программа с высокой точностью копирует предложенный голос: интонацию, тембр, скорость и т.д.
Просто не могу получить доступ к сервису. Сначала необходимо создать и отправить заявку. Вы также можете заказать демонстрацию возможностей программы.
Преимущества:
- подходит для разработчиков игр;
- сотрудничество с различными проектами;
- качественный результат.
Минусы:
- бесплатного доступа к программе нет.
Uberduck AI
Интересная нейросеть с открытым исходным кодом. Он предлагает озвучку для более чем 5000 голосов. Спектр возможностей программы велик. Например, с его помощью можно создавать полноценные приложения. В бесплатной версии вы получите набор из 4000 голосов и право на создание и сохранение 4 аудиофайлов.
Преимущества:
- продвинутая нейронная сеть;
- актуальность для профессионального использования;
- возможность клонировать свой голос;
- несколько платных пакетов.
Минусы:
- не все пользователи имеют доступ к программному обеспечению с открытым исходным кодом.
Минимальная стоимость тарифа $96, максимальная $300.
Библиотека pyttsx3
PyTTSx3 — удобная кроссплатформенная библиотека для реализации TTS в приложениях Python 3. Он использует разные системы синтеза речи в зависимости от текущей операционной системы:
- в Windows — SAPI5,
- в Mac OS X — нссс,
- на Linux и других платформах — eSpeak.
Это очень удобно: один раз написал код и он работает везде. В остальном eSpeak NG поддерживается на том же уровне, что и исходная версия.
Каждый голос имеет несколько параметров, с которыми вы можете работать:
- id (идентификатор в операционной системе),
- имя (имя),
- язык (поддерживаемые языки),
- пол (пол),
- возраст (возраст).
Первый вопрос всегда заключается в том, какие голоса установлены на стороне пользователя. Поэтому мы создадим скрипт, отображающий все доступные голоса, их имена и идентификаторы. Дадим файлу имя, например, list_voices.py:
импортировать pyttsx3
Активный движок имеет параметр «голоса» по умолчанию, который содержит список всех голосов, доступных для этого движка. Вот что нам нужно:
голоса = tts.getProperty(‘голоса’)
Читайте также: Как восстановить Алису, восстановления голосового помощника на ноутбуке
Как озвучить системное время в Windows и Linux
Это небольшое приложение каждую минуту считывает текущее время с системных часов. Точнее, сообщает время при каждой минутной смене. Например, если запустить скрипт в 14:59:59, программа заговорит через одну секунду.
Давайте создадим новый файл с именем time_tts.py. Всего того, что мы проанализировали выше, должно быть достаточно, чтобы вы без проблем прочитали и поняли следующий код:
# «Говорящие часы» — программа показывает системное время
Программа будет отслеживать и называть время, пока вы не остановите ее с помощью сочетания клавиш Ctrl+Break или Ctrl+C (в Windows и Linux соответственно).
Посмотрите на алгоритм: чтобы зафиксировать минутное изменение, мы отслеживаем значение секунд и ждем, пока оно не станет равным нулю. После этого объявляем время, и для экономии оперативной памяти отправляем программу в спящий режим на 55 секунд. После этого он снова начнет проверять текущее время и ждать ноль секунд.
Для дальнейшего изучения библиотеки pyttsx3 ознакомьтесь с документацией на английском языке, включая справку по классам и примеры. А пока давайте посмотрим на другие инструменты.
Обертка для eSpeak NG
Модуль называется py-epeak-ng. Это альтернатива pyttsx3 для случаев, когда вам нужен или доступен только один синтезатор — eSpeak NG. Не дай бог, конечно. Однако он очень подходит для быстрых экспериментов с голосом. Принцип использования покажется вам знакомым:
из espeakng импортировать ESPeakNG
двигатель = ESPeakNG()
частота вращения двигателя = 150
engine.say(«Я бы хотел оказаться под водой. В саду осьминогов, в тени!», sync=True)
частота вращения двигателя = 95
шаг двигателя = 32
engine.voice = ‘английский’
engine.say(‘Теперь Горбатый!’, sync=True)
Обратите внимание на параметр синхронизации реплики sync=True. Без него синтезатор начнет читать все фразы сразу — вперемешку. В отличие от pyttsx3, оболочка espeakng не использует команду runAndWait(), а отсутствие параметра синхронизации уничтожает очередь чтения.
Чтение текста из файла
Не будем довольствоваться текстами в программном коде — пора научиться брать их извне. Более того, это очень просто. В папке, где хранится только что рассмотренный нами скрипт, создайте файл test.txt с текстом на русском языке и в кодировке UTF-8. Теперь добавьте этот блок в конец кода:
text_file = открыть («test.txt», «r»)
данные = text_file.read()
tts.say(данные, синхронизация=Истина)
text_file.close()
Открываем файл на чтение, передаем его содержимое в переменную data, затем озвучиваем все, что в нем оказалось, и закрываем файл.
Управляем речью через Speech Dispatcher в Linux
До сих пор наш код Linux создавал грубый eSpeak. Пришло время позаботиться о друзьях Такса и порадовать их относительно реалистичными голосами RHVoice. Для этого нам понадобится Speech Dispatcher — аналог MS SAPI. Он позволяет управлять всеми голосовыми движками, установленными в системе, и вызывать любой из них по мере необходимости.
Скорее всего, в вашей системе по умолчанию установлен Speech Dispatcher. Чтобы получить к нему доступ из кода Python, вам необходимо установить модуль voiced:
sudo apt установить python3-speechd
Пробуем выбрать синтезатор RHVoice с помощью «диспетчера» и читаем текст:
импортная речь
tts_d = речь.SSIPClient(‘тест’)
tts_d.set_output_module(‘rhvoice’)
tts_d.set_language(‘ru’)
tts_d.set_rate(50)
tts_d.set_punctuation(speechd.PunctuationMode.SOME)
tts_d.speak(‘И мягкий вкус родной речи холодит такие чистые губы’)
tts_d.close()
Ура! Наконец, наше приложение для Linux говорит человеческим голосом. Обратите внимание на метод .set_output_module() — он позволяет выбрать любой установленный движок, будь то espeak, rhvoice или фестиваль. После этого синтезатор прочитает текст голосом, прописанным для этого движка по умолчанию. Если указан только язык, голос по умолчанию используется для этого языка.
Получается, что для создания кроссплатформенного приложения с поддержкой синтезатора RHVoice нужно совместить pyttsx3 и speechd: проверить, на какой системе работает наш код, и выбрать SAPI или Speech Dispatcher. И в любой непонятной ситуации — откатиться на некрасивый, но вездеходный eSpeak.
Но для этого программе нужно знать, где она работает. Определить текущую операционную систему и ее разрядность очень просто! Лично я предпочитаю использовать для этого модуль платформы по умолчанию, который не нужно устанавливать:
импортная платформа
system = platform.system() # Возвращает тип системы.
bit = platform.architecture() # Возвращает кортеж, где битовая ширина равна нулю элемента
печать (система)
печать (бит 0)
Кстати, не обязательно все решать за пользователя. На основе pyttsx3 можно дополнительно создать меню выбора голоса с возможностью управления такими параметрами, как высота голоса, громкость и скорость речи.
Модуль Google TTS — голоса из интернета
Google предлагает онлайн-озвучку текста с записью результата в mp3-файл. Это не для всех задач:
- постоянно нужен быстрый интернет;
- вы не можете воспроизводить аудио, используя gtts;
- скорость обработки текста ниже, чем у автономных синтезаторов.
Что касается голосов, английский и французский звучат очень реалистично. Русская озвучка Google — это девушка, которая немного картавит и тоже произносит «ц» как «ч». По этой причине лучше не доверять ей чтение аудиокниг, имён и географических названий.
Еще один нюанс. Экспериментируя с кодом, не называйте файл «gtts.py» — он не будет работать! Выберите другое имя, например use_gtts.py.
Самый простой код, сохраняющий русский текст в аудиофайл:
из gtts импортировать gtts
tts = gTTS(‘Иван Федорович Крузенштерн. Человек и корабль!’, lang=’ru’)
tts.save(‘tts_output.mp3’)
После запуска этого кода в каталоге, где находится скрипт, появится запись. Чтобы воспроизвести файл «на месте», вам нужно использовать другой модуль или фреймворк pygame или pyglet.
Вот список программ, которые считывают текстовые файлы построчно, используя gtts и PyGame. Я заметил, что для корректной работы этого скрипта текст из text.txt должен быть закодирован в Windows-1251 (ANSI).