Распознавание речи офлайн

SAB · 03.Апрель.2025 16:49:58

В надежде, что кто то на форуме занимался данной темой. Может на готовых китайских модулях, может на спецчипах. Но хотелось бы на ESP32. Поискал в инете, инфы очень мало. Вопрос возник в свете последних трабл в инете. У некоторых (и у меня) моих клиентов, голосовые помошники начали тупить при управлении модулями умного дома. Вот и думаю, может отказаться от гугловских серверов распознавания, и перейти в офлайн. Вроде скорости хватает, памяти тоже у современных контроллеров. Если есть какие то наметки по данной теме в плане готовых библиотек или скетчей или идей, прошу намекнуть, если не жалко. Наверняка голоса 5-6 человек в семье можно уместить во флеше в плане обучения. Может даже данный вопрос будет уместен и в теме Что бы такое интересное изготовить?

KindMan · 03.Апрель.2025 17:41:43

Я только для HA видел в YTубе ролик для голосового помошника оффлайн на ESPS3. Но всё равно, медленнее Алисы и Салюта, и то, только узкие настройки.
А как вы используете гугловские сервера распознавания для УД?

andycat · 03.Апрель.2025 17:42:47

Orange pi или малинку купите, там все есть под Linux.

BOOM · 03.Апрель.2025 17:49:19

На древних мк было, правда не совсем распознание, скорее «вычленение последовательности звуков», но работало как то))

SAB · 03.Апрель.2025 18:23:50

Использования этих серверов всё равно онлайн, но в обход всяких алис и прочих голосовых помощников. А использовал когда то через приложение для андроида написанное в мит инверторе. Там встроенная поддержка есть. Можно написать фразу, которую надо распознать, и просто идёт сравнение распознанного и прописанного текста и выполняется действие. У меня такая штука работала больше года, управляя всеми функциями умного дома через старенький смартфон, пока не приобрёл Алису.

SAB · 03.Апрель.2025 18:29:15

И что, с малинкой именно офлайн идёт распознавание речи? Вы первый, кто советует расбери. Поисковики ни слова об этом.

BABOS · 03.Апрель.2025 22:17:27

https://jasperproject.github.io/
есть наверное и куча каких то готовых программ, которые голос преобразуют в текст, и далее с помощью питон скрипта можно вывести в компорт ардуины… но я их не качал…
ну и ограниченный модуль можно попытаться улучшить наверное))) https://wiki.iarduino.ru/page/voice_recognition_module/ но он плохо срабатывает на чужие голоса…(по этому 1 команду надо озвучить каждому члену семьи) но если пару команд то может пригодится))) а на esp… вот, но не тестил… https://www.instructables.com/Speech-Recognition-With-an-Arduino-Nano/

Fogos · 04.Апрель.2025 01:47:47

Тоже захотелось оффлайн распознавалку. Нагуглился такой модуль (не тестировал): https://roboshop.spb.ru/modules/audio-i-video-moduli/audio-moduli/voice-recognition-module-v3

Потом узнал про малинку (Raspberry PI 5) и оффлайн распознавалку голоса VOSK - потестил на ПК, работает моментально. Минимальная модель VOSK - 90мб, максимальная - 3.6гб. Сразу же себе заказал. Мануал настройки VOSK: https://dzen.ru/a/YkxAXdHdnTLrrrnu

Еще есть интересный синтез речи: Мы Опубликовали Качественный, Простой, Доступный и Быстрый Синтез Речи / Хабр

Kakmyc · 04.Апрель.2025 06:15:58

А я помню, лет 20 назад на ПК была софтина “Горыныч”. Точно оффлайн и точно системные требования адекватные, были …
Потому как тогда средний ПК был по производительности на уровне нынешней Малинки.

Andrey12 · 04.Апрель.2025 08:16:04

Тоже помню такое.
Помню приобретал несколько разных дисков, помните такие где набор всяческих полезных программ и утилит был.
Но у меня с коллегами так и не удалось заставить работать эту программу адекватно.

vvb333007 · 04.Апрель.2025 08:30:39

У меня друг занимается этой темой. Обсуждали с ним как раз тему распознавания одного ключевого слова. Короче, говорит, что НЕСКОЛЬКО слов распознавать - это легко и непринужденно, требования к памяти - микроконтроллерные, ну почти.

Говорил, что самое простое решение для “ок гугол”, “включи свет” – TinyML

Мишутк · 04.Апрель.2025 09:24:37

Как раз сами голосовые ассистенты умеют определенные фразы (управляющие) распознавать оффлайн. Именно предопределенные. Переводить в текст произвольную речь не умеют. Мощностей им хватает. Если умное устройство должно работать с предопределенным ограниченным словарем, то задачка интересная и решаемая на таких мощностях. Тоже хочется прикоснуться к данной реализации.

Это смотрели?
https://habr.com/ru/companies/neuronet/articles/568838/

kalapanga · 04.Апрель.2025 11:19:26

Чисто для коллекции свеженькое Управление голосом и наклоном «пульта» для робота CrowBot
На ESP распознаёт набор голосовых команд. Но именно эта часть, увы, закрытая.

WladDrakula · 04.Апрель.2025 13:12:57

Нынешняя Малинка это 4 ядра и 4-8 Гигов. Это уровень топового ПК 20 лет назад. Не среднего никак.