Offline speech-to-text conversion using Vosk local model; input audio file path, output transcript text.
メディアスキルをすべて見る