В надежде, что кто то на форуме занимался данной темой. Может на готовых китайских модулях, может на спецчипах. Но хотелось бы на ESP32. Поискал в инете, инфы очень мало. Вопрос возник в свете последних трабл в инете. У некоторых (и у меня) моих клиентов, голосовые помошники начали тупить при управлении модулями умного дома. Вот и думаю, может отказаться от гугловских серверов распознавания, и перейти в офлайн. Вроде скорости хватает, памяти тоже у современных контроллеров. Если есть какие то наметки по данной теме в плане готовых библиотек или скетчей или идей, прошу намекнуть, если не жалко. Наверняка голоса 5-6 человек в семье можно уместить во флеше в плане обучения. Может даже данный вопрос будет уместен и в теме Что бы такое интересное изготовить?
Я только для HA видел в YTубе ролик для голосового помошника оффлайн на ESPS3. Но всё равно, медленнее Алисы и Салюта, и то, только узкие настройки.
А как вы используете гугловские сервера распознавания для УД?
Orange pi или малинку купите, там все есть под Linux.
На древних мк было, правда не совсем распознание, скорее «вычленение последовательности звуков», но работало как то))
Использования этих серверов всё равно онлайн, но в обход всяких алис и прочих голосовых помощников. А использовал когда то через приложение для андроида написанное в мит инверторе. Там встроенная поддержка есть. Можно написать фразу, которую надо распознать, и просто идёт сравнение распознанного и прописанного текста и выполняется действие. У меня такая штука работала больше года, управляя всеми функциями умного дома через старенький смартфон, пока не приобрёл Алису.
И что, с малинкой именно офлайн идёт распознавание речи? Вы первый, кто советует расбери. Поисковики ни слова об этом.
https://jasperproject.github.io/
есть наверное и куча каких то готовых программ, которые голос преобразуют в текст, и далее с помощью питон скрипта можно вывести в компорт ардуины… но я их не качал…
ну и ограниченный модуль можно попытаться улучшить наверное))) https://wiki.iarduino.ru/page/voice_recognition_module/ но он плохо срабатывает на чужие голоса…(по этому 1 команду надо озвучить каждому члену семьи) но если пару команд то может пригодится))) а на esp… вот, но не тестил… https://www.instructables.com/Speech-Recognition-With-an-Arduino-Nano/
Тоже захотелось оффлайн распознавалку. Нагуглился такой модуль (не тестировал): https://roboshop.spb.ru/modules/audio-i-video-moduli/audio-moduli/voice-recognition-module-v3
Потом узнал про малинку (Raspberry PI 5) и оффлайн распознавалку голоса VOSK - потестил на ПК, работает моментально. Минимальная модель VOSK - 90мб, максимальная - 3.6гб. Сразу же себе заказал. Мануал настройки VOSK: https://dzen.ru/a/YkxAXdHdnTLrrrnu
Еще есть интересный синтез речи: Мы Опубликовали Качественный, Простой, Доступный и Быстрый Синтез Речи / Хабр
А я помню, лет 20 назад на ПК была софтина “Горыныч”. Точно оффлайн и точно системные требования адекватные, были …
Потому как тогда средний ПК был по производительности на уровне нынешней Малинки.
Тоже помню такое.
Помню приобретал несколько разных дисков, помните такие где набор всяческих полезных программ и утилит был.
Но у меня с коллегами так и не удалось заставить работать эту программу адекватно.
У меня друг занимается этой темой. Обсуждали с ним как раз тему распознавания одного ключевого слова. Короче, говорит, что НЕСКОЛЬКО слов распознавать - это легко и непринужденно, требования к памяти - микроконтроллерные, ну почти.
Говорил, что самое простое решение для “ок гугол”, “включи свет” – TinyML
Как раз сами голосовые ассистенты умеют определенные фразы (управляющие) распознавать оффлайн. Именно предопределенные. Переводить в текст произвольную речь не умеют. Мощностей им хватает. Если умное устройство должно работать с предопределенным ограниченным словарем, то задачка интересная и решаемая на таких мощностях. Тоже хочется прикоснуться к данной реализации.
Это смотрели?
https://habr.com/ru/companies/neuronet/articles/568838/