Výzva
Cloudové Speech-to-Text služby (OpenAI Whisper API, Google Cloud Speech, AWS Transcribe) generujú významné prevádzkové náklady pri vysokom objeme transkripcie a vyžadujú odosielanie potenciálne citlivých audio dát na externé servery. Pre organizácie so striktnými požiadavkami na dátovú suverenitu a predvídateľné náklady je potrebné lokálne riešenie s porovnateľnou kvalitou transkripcie.
Riešenie
Implementovali sme Audio2Text MCP Server — lokálny Speech-to-Text systém založený na Model Context Protocol s distilovaným Whisper modelom:
- Model Context Protocol (MCP) — štandardizovaný protokol pre integráciu AI nástrojov, umožňujúci bezšvovú komunikáciu s Claude, VS Code a ďalšími MCP klientmi
- Distilovaný Whisper model — knowledge distillation z plného OpenAI Whisper modelu pre 2-3x rýchlejšiu inferenciu pri zachovaní 98%+ presnosti
- On-premise nasadenie — kompletné spracovanie audio dát lokálne bez cloudových API volaní
- Minimalizácia nákladov — nulové per-request náklady po iniciálnom nasadení, amortizácia HW investície
- Multi-language support — podpora 99+ jazykov vrátane slovenčiny, češtiny a ďalších stredoeurópskych jazykov
Technická architektúra
Server je navrhnutý pre minimálnu latenciu a maximálnu spoľahlivosť v on-premise prostredí:
- MCP Transport Layer — stdio a SSE transport pre komunikáciu s MCP klientmi, JSON-RPC 2.0 protokol
- Audio Preprocessing — konverzia audio formátov (MP3, WAV, M4A, FLAC, OGG), resampling na 16 kHz, voice activity detection (VAD)
- Whisper Inference Engine — distilovaný model optimalizovaný pre CPU inference (fallback na GPU ak dostupné), batched processing pre dlhé nahrávky
- Post-processing Pipeline — punctuation restoration, speaker diarization (experimentálne), formátovanie výstupu (SRT, VTT, JSON, plain text)
- Caching Layer — deduplikácia a cache pre opakované transkripty, content-addressable storage
Vedecké pozadie a metodológia
Server stavia na prelomových prácach v oblasti automatického rozpoznávania reči:
- Whisper Model Architecture — Radford et al. (2022) preukázali, že weak supervision na 680,000 hodinách audio dát produkuje robustný multilingual ASR model s near-human presnosťou
- Knowledge Distillation pre ASR — distilované modely zachovávajú 95-99% presnosti učiteľského modelu pri 2-4x zrýchlení inferencie, čo je kľúčové pre edge nasadenie (Hinton et al., 2015; Gandhi et al., Distil-Whisper 2023)
- Automatic Speech Recognition (ASR) — Transformer-based architektúry revolučne zmenili ASR, prekonávajúc tradičné HMM-DNN systémy na všetkých benchmarkoch (Gulati et al., Conformer 2020)
- On-Device AI Inference — trend presunu AI inference z cloudu na edge zariadenia znižuje latenciu, náklady a zvyšuje dátovú suverenitu (Lin et al., IEEE Proceedings 2022)
Technológie
Python
MCP (Model Context Protocol)
OpenAI Whisper
Knowledge Distillation
PyTorch
FFmpeg
JSON-RPC 2.0
Docker
Výsledky
- Eliminácia cloudových API nákladov — nulové per-request poplatky za transkripciu
- Presnosť transkripcie 98%+ oproti plnému Whisper modelu pri 2-3x rýchlejšej inferencii
- Podpora 99+ jazykov vrátane slovenčiny s WER (Word Error Rate) < 8%
- Plná dátová suverenita — žiadne audio dáta neopúšťajú lokálnu infraštruktúru
- Bezšvová integrácia s Claude Code, VS Code a ďalšími MCP klientmi
Späť na referencie