Switch local TTS to Kokoro ONNX

2026-04-30 03:51:08 +09:00
parent 178283be61
commit 18369ea7cb
10 changed files with 112 additions and 49 deletions
--- a/README.md
+++ b/README.md
@@ -6,7 +6,7 @@

 - STT: `faster-whisper` + Whisper multilingual
 - LLM: `Ollama` + `qwen3:0.6b`
- TTS: `MeloTTS` Korean
+- TTS: `kokoro-onnx` + `misaki[ko]`
 - VAD: `avr-vad`

 외부 유료 API나 무료 한도형 API는 쓰지 않습니다.
@@ -88,6 +88,8 @@ Discord 모드에서만 필수:
 - `LOCAL_STT_DEVICE`
 - `LOCAL_STT_COMPUTE_TYPE`
 - `LOCAL_STT_BEAM_SIZE`
+- `LOCAL_TTS_MODEL_PATH`
+- `LOCAL_TTS_VOICES_PATH`
 - `LOCAL_TTS_LANGUAGE`
 - `LOCAL_TTS_SPEAKER`
 - `LOCAL_TTS_DEVICE`
@@ -118,6 +120,7 @@ Discord 모드에서만 필수:

 - STT 기본 모델은 `tiny`
 - LLM 기본 모델은 `qwen3:0.6b`
+- TTS 기본 보이스는 `af_heart`
 - TTS 기본 속도는 `1.12`

 정확도가 아쉬우면:
@@ -142,6 +145,7 @@ OLLAMA_MODEL=qwen3:1.7b
 - `bun run devices` 와 Windows 로컬 녹음은 `ffmpeg`가 필요합니다.
 - 출력 장치 직접 선택은 아직 미구현이라 시스템 기본 출력 장치로 재생됩니다.
 - Python 탐지가 안 되면 `.env` 에 `LOCAL_AI_PYTHON=python` 또는 `LOCAL_AI_PYTHON=py -3` 를 넣으면 됩니다.
+- `setup:local-ai`는 Kokoro ONNX 모델 파일도 자동으로 내려받습니다.

 ## 설계 메모