Switch local TTS to Kokoro ONNX
This commit is contained in:
@@ -6,7 +6,7 @@
|
||||
|
||||
- STT: `faster-whisper` + Whisper multilingual
|
||||
- LLM: `Ollama` + `qwen3:0.6b`
|
||||
- TTS: `MeloTTS` Korean
|
||||
- TTS: `kokoro-onnx` + `misaki[ko]`
|
||||
- VAD: `avr-vad`
|
||||
|
||||
외부 유료 API나 무료 한도형 API는 쓰지 않습니다.
|
||||
@@ -88,6 +88,8 @@ Discord 모드에서만 필수:
|
||||
- `LOCAL_STT_DEVICE`
|
||||
- `LOCAL_STT_COMPUTE_TYPE`
|
||||
- `LOCAL_STT_BEAM_SIZE`
|
||||
- `LOCAL_TTS_MODEL_PATH`
|
||||
- `LOCAL_TTS_VOICES_PATH`
|
||||
- `LOCAL_TTS_LANGUAGE`
|
||||
- `LOCAL_TTS_SPEAKER`
|
||||
- `LOCAL_TTS_DEVICE`
|
||||
@@ -118,6 +120,7 @@ Discord 모드에서만 필수:
|
||||
|
||||
- STT 기본 모델은 `tiny`
|
||||
- LLM 기본 모델은 `qwen3:0.6b`
|
||||
- TTS 기본 보이스는 `af_heart`
|
||||
- TTS 기본 속도는 `1.12`
|
||||
|
||||
정확도가 아쉬우면:
|
||||
@@ -142,6 +145,7 @@ OLLAMA_MODEL=qwen3:1.7b
|
||||
- `bun run devices` 와 Windows 로컬 녹음은 `ffmpeg`가 필요합니다.
|
||||
- 출력 장치 직접 선택은 아직 미구현이라 시스템 기본 출력 장치로 재생됩니다.
|
||||
- Python 탐지가 안 되면 `.env` 에 `LOCAL_AI_PYTHON=python` 또는 `LOCAL_AI_PYTHON=py -3` 를 넣으면 됩니다.
|
||||
- `setup:local-ai`는 Kokoro ONNX 모델 파일도 자동으로 내려받습니다.
|
||||
|
||||
## 설계 메모
|
||||
|
||||
|
||||
Reference in New Issue
Block a user