Audio2Text MCP Server — Lokálny AI Speech-to-Text

Typ projektu

MCP Server

Odvetvie

AI Infrastructure

Nasadenie

On-Premise / Edge

Výzva

Cloudové Speech-to-Text služby (OpenAI Whisper API, Google Cloud Speech, AWS Transcribe) generujú významné prevádzkové náklady pri vysokom objeme transkripcie a vyžadujú odosielanie potenciálne citlivých audio dát na externé servery. Pre organizácie so striktnými požiadavkami na dátovú suverenitu a predvídateľné náklady je potrebné lokálne riešenie s porovnateľnou kvalitou transkripcie.

Riešenie

Implementovali sme Audio2Text MCP Server — lokálny Speech-to-Text systém založený na Model Context Protocol s distilovaným Whisper modelom:

Model Context Protocol (MCP) — štandardizovaný protokol pre integráciu AI nástrojov, umožňujúci bezšvovú komunikáciu s Claude, VS Code a ďalšími MCP klientmi
Distilovaný Whisper model — knowledge distillation z plného OpenAI Whisper modelu pre 2-3x rýchlejšiu inferenciu pri zachovaní 98%+ presnosti
On-premise nasadenie — kompletné spracovanie audio dát lokálne bez cloudových API volaní
Minimalizácia nákladov — nulové per-request náklady po iniciálnom nasadení, amortizácia HW investície
Multi-language support — podpora 99+ jazykov vrátane slovenčiny, češtiny a ďalších stredoeurópskych jazykov

Technická architektúra

Server je navrhnutý pre minimálnu latenciu a maximálnu spoľahlivosť v on-premise prostredí:

MCP Transport Layer — stdio a SSE transport pre komunikáciu s MCP klientmi, JSON-RPC 2.0 protokol
Audio Preprocessing — konverzia audio formátov (MP3, WAV, M4A, FLAC, OGG), resampling na 16 kHz, voice activity detection (VAD)
Whisper Inference Engine — distilovaný model optimalizovaný pre CPU inference (fallback na GPU ak dostupné), batched processing pre dlhé nahrávky
Post-processing Pipeline — punctuation restoration, speaker diarization (experimentálne), formátovanie výstupu (SRT, VTT, JSON, plain text)
Caching Layer — deduplikácia a cache pre opakované transkripty, content-addressable storage

Vedecké pozadie a metodológia

Server stavia na prelomových prácach v oblasti automatického rozpoznávania reči:

Whisper Model Architecture — Radford et al. (2022) preukázali, že weak supervision na 680,000 hodinách audio dát produkuje robustný multilingual ASR model s near-human presnosťou
Knowledge Distillation pre ASR — distilované modely zachovávajú 95-99% presnosti učiteľského modelu pri 2-4x zrýchlení inferencie, čo je kľúčové pre edge nasadenie (Hinton et al., 2015; Gandhi et al., Distil-Whisper 2023)
Automatic Speech Recognition (ASR) — Transformer-based architektúry revolučne zmenili ASR, prekonávajúc tradičné HMM-DNN systémy na všetkých benchmarkoch (Gulati et al., Conformer 2020)
On-Device AI Inference — trend presunu AI inference z cloudu na edge zariadenia znižuje latenciu, náklady a zvyšuje dátovú suverenitu (Lin et al., IEEE Proceedings 2022)

Technológie

Python MCP (Model Context Protocol) OpenAI Whisper Knowledge Distillation PyTorch FFmpeg JSON-RPC 2.0 Docker

Výsledky

Eliminácia cloudových API nákladov — nulové per-request poplatky za transkripciu
Presnosť transkripcie 98%+ oproti plnému Whisper modelu pri 2-3x rýchlejšej inferencii
Podpora 99+ jazykov vrátane slovenčiny s WER (Word Error Rate) < 8%
Plná dátová suverenita — žiadne audio dáta neopúšťajú lokálnu infraštruktúru
Bezšvová integrácia s Claude Code, VS Code a ďalšími MCP klientmi

RESEARCH STUDY

On-Premise Speech-to-Text for Slovak: Whisper Model Comparison

WER 11.2%, 2.8x real-time on CPU, 6 Whisper variants benchmarked, Slovak error analysis. Full academic paper.

View Study Download PDF

Späť na referencie