Switch to faster-whisper

2026-02-07 15:21:33 -03:00 · 2026-02-07 15:21:33 -03:00 · bb7780c461
commit bb7780c461
parent ae557afc50
4 changed files with 51 additions and 21 deletions
--- a/README.md
+++ b/README.md
@ -6,18 +6,18 @@ Python X11 transcription daemon that records audio, runs Whisper, logs the trans
 - X11 (not Wayland)
 - `ffmpeg`
- `whisper` (OpenAI Whisper CLI)
+- `faster-whisper`
 - `xclip`
 - `xdotool`
 - Tray icon deps: `libappindicator3` and `gtk3` (required by `systray`)
- Python deps: `pystray`, `pillow`, `python-xlib`, `ollama`, `openai-whisper`
+- Python deps: `pystray`, `pillow`, `python-xlib`, `ollama`, `faster-whisper`
 ## Python Daemon
 Install Python deps:
 ```bash
-pip install -r src/requirements.txt
+pip install -r requirements.txt
 ```
 Run:
--- a/requirements.txt
+++ b/requirements.txt
@ -1,4 +1,4 @@
-openai-whisper
+faster-whisper
 ollama
 pystray
 pillow
--- a/src/leld.py
+++ b/src/leld.py
@ -11,7 +11,7 @@ from pathlib import Path
 from config import Config, load, redacted_dict
 from recorder import start_recording, stop_recording
-from stt import WhisperSTT
+from stt import FasterWhisperSTT, STTConfig
 from aiprocess import AIConfig, build_processor
 from inject import inject
 from x11_hotkey import listen
@ -34,7 +34,14 @@ class Daemon:
        self.proc = None
        self.record = None
        self.timer = None
-        self.stt = WhisperSTT(cfg.whisper_model, cfg.whisper_lang, cfg.whisper_device)
+        self.stt = FasterWhisperSTT(
            STTConfig(
                model=cfg.whisper_model,
                language=cfg.whisper_lang,
                device=cfg.whisper_device,
                vad_filter=True,
            )
        )
        self.ai = None
        if cfg.ai_enabled:
            self.ai = build_processor(
--- a/src/stt.py
+++ b/src/stt.py
@ -1,25 +1,48 @@
-import os
+from __future__ import annotations
-import whisper
+
 from dataclasses import dataclass
 from faster_whisper import WhisperModel
-def _force_cpu():
+@dataclass
-    os.environ.setdefault("CUDA_VISIBLE_DEVICES", "")
+class STTConfig:
    model: str
    language: str | None
    device: str
    vad_filter: bool
-class WhisperSTT:
+def _compute_type(device: str) -> str:
-    def __init__(self, model: str, language: str | None = None, device: str = "cpu"):
+    dev = (device or "cpu").lower()
-        self.model_name = model
+    if dev == "cuda":
-        self.language = language
+        return "float16"
-        self.device = (device or "cpu").lower()
+    return "int8"
-        self._model = None
+
 class FasterWhisperSTT:
    def __init__(self, cfg: STTConfig):
        self.cfg = cfg
        self._model: WhisperModel | None = None
    def _load(self):
        if self._model is None:
-            if self.device == "cpu":
+            self._model = WhisperModel(
-                _force_cpu()
+                self.cfg.model,
-            self._model = whisper.load_model(self.model_name, device=self.device)
+                device=self.cfg.device or "cpu",
                compute_type=_compute_type(self.cfg.device),
            )
    def transcribe(self, wav_path: str) -> str:
        self._load()
-        result = self._model.transcribe(wav_path, language=self.language)
+        segments, _info = self._model.transcribe(
-        return (result.get("text") or "").strip()
+            wav_path,
            language=self.cfg.language,
            vad_filter=self.cfg.vad_filter,
        )
        parts = []
        for seg in segments:
            text = (seg.text or "").strip()
            if text:
                parts.append(text)
        return " ".join(parts).strip()