Switch local TTS to Kokoro ONNX

This commit is contained in:
2026-04-30 03:51:08 +09:00
parent 178283be61
commit 18369ea7cb
10 changed files with 112 additions and 49 deletions

View File

@@ -6,7 +6,7 @@
- STT: `faster-whisper` + Whisper multilingual
- LLM: `Ollama` + `qwen3:0.6b`
- TTS: `MeloTTS` Korean
- TTS: `kokoro-onnx` + `misaki[ko]`
- VAD: `avr-vad`
외부 유료 API나 무료 한도형 API는 쓰지 않습니다.
@@ -88,6 +88,8 @@ Discord 모드에서만 필수:
- `LOCAL_STT_DEVICE`
- `LOCAL_STT_COMPUTE_TYPE`
- `LOCAL_STT_BEAM_SIZE`
- `LOCAL_TTS_MODEL_PATH`
- `LOCAL_TTS_VOICES_PATH`
- `LOCAL_TTS_LANGUAGE`
- `LOCAL_TTS_SPEAKER`
- `LOCAL_TTS_DEVICE`
@@ -118,6 +120,7 @@ Discord 모드에서만 필수:
- STT 기본 모델은 `tiny`
- LLM 기본 모델은 `qwen3:0.6b`
- TTS 기본 보이스는 `af_heart`
- TTS 기본 속도는 `1.12`
정확도가 아쉬우면:
@@ -142,6 +145,7 @@ OLLAMA_MODEL=qwen3:1.7b
- `bun run devices` 와 Windows 로컬 녹음은 `ffmpeg`가 필요합니다.
- 출력 장치 직접 선택은 아직 미구현이라 시스템 기본 출력 장치로 재생됩니다.
- Python 탐지가 안 되면 `.env``LOCAL_AI_PYTHON=python` 또는 `LOCAL_AI_PYTHON=py -3` 를 넣으면 됩니다.
- `setup:local-ai`는 Kokoro ONNX 모델 파일도 자동으로 내려받습니다.
## 설계 메모