Тоже захотелось оффлайн распознавалку. Нагуглился такой модуль (не тестировал): https://roboshop.spb.ru/modules/audio-i-video-moduli/audio-moduli/voice-recognition-module-v3
Потом узнал про малинку (Raspberry PI 5) и оффлайн распознавалку голоса VOSK - потестил на ПК, работает моментально. Минимальная модель VOSK - 90мб, максимальная - 3.6гб. Сразу же себе заказал. Мануал настройки VOSK: https://dzen.ru/a/YkxAXdHdnTLrrrnu
Еще есть интересный синтез речи: Мы Опубликовали Качественный, Простой, Доступный и Быстрый Синтез Речи / Хабр