Add local MeloTTS support

2026-05-03 01:56:09 +09:00
parent 3360015179
commit ad357a6ede
13 changed files with 396 additions and 3 deletions
--- a/.env.example
+++ b/.env.example
@@ -7,6 +7,14 @@ LOCAL_AI_PYTHON=python
 AUDIO_SOURCE=
 DEBUG=false
 TTS_ENABLED=true
 TTS_IMAGE=realtime-voice-bot-melotts:v0.1.2
 TTS_LANGUAGE=KR
 TTS_SPEAKER=KR
 TTS_DEVICE=cpu
 TTS_SPEED=1
 TTS_CACHE_DIR=.local-ai/tts-cache
 TTS_OUTPUT_DIR=.local-ai/tts-output
 OLLAMA_BASE_URL=http://127.0.0.1:11434
 OLLAMA_MODEL=qwen3:8b
 OLLAMA_KEEP_ALIVE=5m
--- a/README.md
+++ b/README.md
@@ -14,6 +14,7 @@
 - STT 전용 테스트
 - STT 결과에 대해 답변 가치 판단 후 필요할 때만 LLM 답변하는 통합 테스트
 - 로컬 `Ollama` LLM 에이전트 CLI 테스트
 - 무료 로컬 `MeloTTS` 기반 음성 출력 테스트
 ## 빠른 시작
@@ -47,6 +48,12 @@ LLM 단독 테스트:
 bun run test:llm
 ```
 TTS 단독 테스트:
 ```bat
 bun run test:tts -- "안녕하세요. 로컬 티티에스 테스트입니다."
 ```
 ## 환경 변수
 - `AUDIO_SOURCE`
@@ -61,6 +68,19 @@ bun run test:llm
  - 기본값 `http://127.0.0.1:11434`
 - `OLLAMA_MODEL`
  - 기본값 `qwen3:8b`
 - `TTS_ENABLED`
  - 기본값 `true`
 - `TTS_IMAGE`
  - 기본값 `realtime-voice-bot-melotts:v0.1.2`
 - `TTS_LANGUAGE`
  - 기본값 `KR`
 - `TTS_SPEAKER`
  - 기본값 `KR`
 - `TTS_DEVICE`
  - 기본값 `cpu`
  - Docker GPU passthrough를 쓸 때만 `cuda`로 바꿉니다
 - `TTS_SPEED`
  - 기본값 `1`
 - `OLLAMA_KEEP_ALIVE`
  - 기본값 `5m`
 - `MAX_CONVERSATION_TURNS`
@@ -84,12 +104,15 @@ bun run test:llm
 ## 메모
 - 이 버전은 `STT`, `STT+LLM`, `LLM` 테스트를 따로 제공합니다.
 - `test:sttllm`에서 TTS가 켜져 있으면 답변을 스피커로 읽어줍니다.
 - `test:sttllm`에서는 자기 음성을 다시 전사하지 않도록 TTS 재생 중에는 캡처를 잠시 멈춥니다.
 - LLM 프롬프트는 `prompts/*.md` 에 분리되어 있습니다.
 - 최소 지연을 위해 파일 저장은 하지 않습니다.
 - VAD는 현재 모델 기반이 아니라 진폭 기반 단순 분리입니다.
 - Windows에서는 보통 출력 루프백이 가능한 장치나 `Stereo Mix`, 오디오 인터페이스 loopback 채널을 `AUDIO_SOURCE`로 잡아야 합니다.
 - 단순히 스피커 이름을 넣는 구조가 아니라, **루프백/캡처 가능한 입력 장치 이름**을 넣어야 합니다.
 - `ffmpeg`가 PATH에 잡혀 있어야 합니다.
 - TTS는 Windows에서 Docker Desktop이 필요합니다. MeloTTS 공식 문서도 Windows/macOS에서는 Docker 실행을 권장합니다.
 - `cmd` 기준으로 `.env`는 `copy .env.example .env`로 만들면 됩니다.
 ## Windows 테스트 순서
@@ -105,8 +128,9 @@ bun run test:llm
 ## Windows STT+LLM 통합 테스트 순서
 1. `bun run setup:llm`
-2. `bun run test:sttllm`
+2. `bun run setup:tts`
-3. 유튜브, 디스코드 통화, 동영상 같은 소리를 재생해서 전사와 답변 확인
+3. `bun run test:sttllm`
 4. 유튜브, 디스코드 통화, 동영상 같은 소리를 재생해서 전사와 답변, 음성 출력 확인
 ## Windows LLM 테스트 순서
@@ -115,6 +139,12 @@ bun run test:llm
 3. 콘솔에 직접 문장을 입력하고 답변 확인
 4. `/reset` 으로 문맥 초기화, `/exit` 로 종료
 ## Windows TTS 테스트 순서
 1. Docker Desktop 실행
 2. `bun run setup:tts`
 3. `bun run test:tts -- "안녕하세요. 로컬 티티에스 테스트입니다."`
 현재 `test:llm` 에이전트 도구:
 - 현재 시간 조회
 - 현재 런타임 설정 조회
@@ -141,6 +171,14 @@ bun run test:llm
 LOCAL_AI_PYTHON=python
 AUDIO_SOURCE=
 DEBUG=false
 TTS_ENABLED=true
 TTS_IMAGE=realtime-voice-bot-melotts:v0.1.2
 TTS_LANGUAGE=KR
 TTS_SPEAKER=KR
 TTS_DEVICE=cpu
 TTS_SPEED=1
 TTS_CACHE_DIR=.local-ai/tts-cache
 TTS_OUTPUT_DIR=.local-ai/tts-output
 OLLAMA_BASE_URL=http://127.0.0.1:11434
 OLLAMA_MODEL=qwen3:8b
 OLLAMA_KEEP_ALIVE=5m
--- a/docker/melotts/Dockerfile
+++ b/docker/melotts/Dockerfile
@@ -0,0 +1,18 @@
 FROM python:3.9-slim
 ENV PYTHONUNBUFFERED=1
 WORKDIR /opt/realtime-voice-bot
 RUN apt-get update && apt-get install -y --no-install-recommends \
  build-essential \
  git \
  libsndfile1 \
  && rm -rf /var/lib/apt/lists/*
 RUN pip install --no-cache-dir git+https://github.com/myshell-ai/MeloTTS.git@v0.1.2
 RUN python -m unidic download
 COPY melo_tts_cli.py /opt/realtime-voice-bot/melo_tts_cli.py
 ENTRYPOINT ["python", "/opt/realtime-voice-bot/melo_tts_cli.py"]
--- a/docker/melotts/melo_tts_cli.py
+++ b/docker/melotts/melo_tts_cli.py
@@ -0,0 +1,36 @@
 import argparse
 from pathlib import Path
 from melo.api import TTS
 def main() -> None:
    parser = argparse.ArgumentParser()
    parser.add_argument("--text", required=True)
    parser.add_argument("--output", required=True)
    parser.add_argument("--language", default="KR")
    parser.add_argument("--speaker", default="KR")
    parser.add_argument("--speed", type=float, default=1.0)
    parser.add_argument("--device", default="cpu")
    args = parser.parse_args()
    output_path = Path(args.output)
    output_path.parent.mkdir(parents=True, exist_ok=True)
    model = TTS(language=args.language, device=args.device)
    speaker_ids = model.hps.data.spk2id
    if args.speaker not in speaker_ids:
        supported = ", ".join(sorted(speaker_ids.keys()))
        raise SystemExit(f"지원하지 않는 speaker 입니다: {args.speaker}. 사용 가능: {supported}")
    model.tts_to_file(
        args.text,
        speaker_ids[args.speaker],
        str(output_path),
        speed=args.speed,
    )
 if __name__ == "__main__":
    main()
--- a/package.json
+++ b/package.json
@@ -7,10 +7,12 @@
    "setup": "bun src/setup.ts",
    "setup:stt": "bun src/setup-python.ts",
    "setup:llm": "bun src/setup-llm.ts",
    "setup:tts": "bun src/setup-tts.ts",
    "setup:python": "bun run setup:stt",
    "test:stt": "bun src/index.ts test-stt",
    "test:sttllm": "bun src/index.ts test-sttllm",
    "test:llm": "bun src/index.ts test-llm",
    "test:tts": "bun src/index.ts test-tts",
    "devices": "bun src/index.ts devices",
    "check": "tsc --noEmit",
    "build": "tsc -p tsconfig.json"
--- a/src/audio/realtime-segmenter.ts
+++ b/src/audio/realtime-segmenter.ts
@@ -55,6 +55,15 @@ export class RealtimeSegmenter {
    }
  }
  reset(): void {
    this.pendingSamples.splice(0, this.pendingSamples.length);
    this.preRoll.splice(0, this.preRoll.length);
    this.speech.splice(0, this.speech.length);
    this.speechActive = false;
    this.speechCandidateFrames = 0;
    this.silenceFrames = 0;
  }
  private processFrame(frame: Int16Array): void {
    let peak = 0;
    for (const sample of frame) {
--- a/src/config.ts
+++ b/src/config.ts
@@ -15,6 +15,17 @@ const envSchema = z.object({
  LOCAL_AI_VENV_PATH: z.string().min(1).default(".local-ai/.venv"),
  LOCAL_AI_PYTHON: emptyToUndefined,
  AUDIO_SOURCE: emptyToUndefined,
  TTS_ENABLED: z
    .string()
    .optional()
    .transform((value) => value?.trim().toLowerCase() !== "false"),
  TTS_IMAGE: z.string().min(1).default("realtime-voice-bot-melotts:v0.1.2"),
  TTS_LANGUAGE: z.string().min(1).default("KR"),
  TTS_SPEAKER: z.string().min(1).default("KR"),
  TTS_DEVICE: z.string().min(1).default("cpu"),
  TTS_SPEED: z.coerce.number().min(0.5).max(2).default(1),
  TTS_CACHE_DIR: z.string().min(1).default(".local-ai/tts-cache"),
  TTS_OUTPUT_DIR: z.string().min(1).default(".local-ai/tts-output"),
  DEBUG: z
    .string()
    .optional()
--- a/src/index.ts
+++ b/src/index.ts
@@ -6,6 +6,7 @@ import { Logger } from "./logger.js";
 import { printAudioDevices, spawnLoopbackCapture } from "./audio/capture.js";
 import { RealtimeSegmenter } from "./audio/realtime-segmenter.js";
 import { FasterWhisperSttService } from "./services/faster-whisper-stt.js";
 import { MeloTtsService } from "./services/melo-tts.js";
 import { OllamaLlmService } from "./services/ollama-llm.js";
 const mode = process.argv[2] ?? "test-stt";
@@ -15,8 +16,10 @@ async function runSttTest(enableLlm: boolean): Promise<void> {
  const logger = new Logger(config.DEBUG ? config.LOG_LEVEL : "error");
  const stt = new FasterWhisperSttService(config, logger);
  const llm = enableLlm ? new OllamaLlmService(config, logger) : null;
  let tts = enableLlm && config.TTS_ENABLED ? new MeloTtsService(config, logger) : null;
  let capture = null as ReturnType<typeof spawnLoopbackCapture> | null;
  let shuttingDown: Promise<void> | null = null;
  let suppressCapture = false;
  let receivedChunks = 0;
  let receivedBytes = 0;
  let maxPeak = 0;
@@ -79,6 +82,22 @@ async function runSttTest(enableLlm: boolean): Promise<void> {
    logger.info("LLM warmup finished");
    console.log("LLM 준비 완료");
  }
  if (tts) {
    console.log("TTS 준비중...");
    try {
      await tts.warmup();
      logger.info("TTS warmup finished", {
        image: config.TTS_IMAGE,
        language: config.TTS_LANGUAGE,
        speaker: config.TTS_SPEAKER,
      });
      console.log("TTS 준비 완료");
    } catch (error) {
      logger.warn("TTS warmup failed", error);
      console.log("TTS 비활성화: bun run setup:tts 를 먼저 실행하세요.");
      tts = null;
    }
  }
  const transcriptionQueue: Array<{ pcm16: Buffer; queuedAt: number; index: number }> = [];
  let transcribing = false;
@@ -155,6 +174,20 @@ async function runSttTest(enableLlm: boolean): Promise<void> {
          } else {
            console.log(`답변> ${reply}`);
          }
          if (tts) {
            suppressCapture = true;
            segmenter.reset();
            try {
              await tts.speak(reply);
            } catch (error) {
              logger.warn("TTS playback failed", error);
            } finally {
              suppressCapture = false;
              sawSpeechStart = false;
              maxPeak = 0;
            }
          }
        }
      }
    } catch (error) {
@@ -227,6 +260,9 @@ async function runSttTest(enableLlm: boolean): Promise<void> {
    receivedChunks += 1;
    receivedBytes += chunk.length;
    lastChunkAt = Date.now();
    if (suppressCapture) {
      return;
    }
    segmenter.pushChunk(chunk);
  });
  capture.stderr.on("data", (chunk: Buffer) => {
@@ -330,6 +366,19 @@ async function runLlmCli(): Promise<void> {
  });
 }
 async function runTtsTest(): Promise<void> {
  const text = process.argv.slice(3).join(" ").trim() || "안녕하세요. 로컬 티티에스 테스트입니다.";
  const config = loadConfig();
  const logger = new Logger(config.DEBUG ? config.LOG_LEVEL : "error");
  const tts = new MeloTtsService(config, logger);
  console.log("TTS 준비중...");
  await tts.warmup();
  console.log("TTS 준비 완료");
  console.log(`재생 문장: ${text}`);
  await tts.speak(text);
 }
 async function main(): Promise<void> {
  switch (mode) {
    case "devices":
@@ -344,8 +393,11 @@ async function main(): Promise<void> {
    case "test-llm":
      await runLlmCli();
      return;
    case "test-tts":
      await runTtsTest();
      return;
    default:
-      throw new Error(`알 수 없는 실행 모드입니다: ${mode}. 사용 가능: test-stt, test-sttllm, test-llm, devices`);
+      throw new Error(`알 수 없는 실행 모드입니다: ${mode}. 사용 가능: test-stt, test-sttllm, test-llm, test-tts, devices`);
  }
 }
--- a/src/services/audio-playback.ts
+++ b/src/services/audio-playback.ts
@@ -0,0 +1,42 @@
 import { spawn } from "node:child_process";
 import process from "node:process";
 async function run(command: string, args: string[]): Promise<void> {
  await new Promise<void>((resolve, reject) => {
    const child = spawn(command, args, {
      stdio: ["ignore", "inherit", "inherit"],
      windowsHide: true,
    });
    child.on("error", reject);
    child.on("exit", (code) => {
      if (code === 0) {
        resolve();
        return;
      }
      reject(new Error(`${command} ${args.join(" ")} exited with code ${code ?? "null"}`));
    });
  });
 }
 export async function playWavFile(filePath: string): Promise<void> {
  if (process.platform === "win32") {
    await run("powershell.exe", [
      "-NoProfile",
      "-NonInteractive",
      "-ExecutionPolicy",
      "Bypass",
      "-Command",
      [
        "$path = $args[0]",
        "$player = New-Object System.Media.SoundPlayer $path",
        "$player.Load()",
        "$player.PlaySync()",
      ].join("; "),
      filePath,
    ]);
    return;
  }
  throw new Error(`지원하지 않는 플랫폼입니다: ${process.platform}`);
 }
--- a/src/services/melo-tts.ts
+++ b/src/services/melo-tts.ts
@@ -0,0 +1,113 @@
 import { spawn } from "node:child_process";
 import { randomUUID } from "node:crypto";
 import { mkdir, rm } from "node:fs/promises";
 import path from "node:path";
 import type { AppConfig } from "../config.js";
 import type { Logger } from "../logger.js";
 import { playWavFile } from "./audio-playback.js";
 async function run(command: string, args: string[], stdio: "ignore" | "inherit" = "ignore"): Promise<void> {
  await new Promise<void>((resolve, reject) => {
    const child = spawn(command, args, {
      stdio: ["ignore", stdio, "inherit"],
      windowsHide: true,
    });
    child.on("error", reject);
    child.on("exit", (code) => {
      if (code === 0) {
        resolve();
        return;
      }
      reject(new Error(`${command} ${args.join(" ")} exited with code ${code ?? "null"}`));
    });
  });
 }
 export class MeloTtsService {
  constructor(
    private readonly config: AppConfig,
    private readonly logger: Logger,
  ) {}
  async warmup(): Promise<void> {
    await mkdir(path.resolve(process.cwd(), this.config.TTS_CACHE_DIR), { recursive: true });
    await mkdir(path.resolve(process.cwd(), this.config.TTS_OUTPUT_DIR), { recursive: true });
    await run("docker", ["--version"]);
    await run("docker", ["image", "inspect", this.config.TTS_IMAGE]);
  }
  async speak(text: string): Promise<void> {
    const trimmed = text.trim();
    if (!trimmed) {
      return;
    }
    const fileName = `tts-${Date.now()}-${randomUUID()}.wav`;
    const targetPath = path.resolve(process.cwd(), this.config.TTS_OUTPUT_DIR, fileName);
    try {
      await this.synthesizeToFile(trimmed, targetPath);
      await playWavFile(targetPath);
    } finally {
      await rm(targetPath, { force: true }).catch(() => undefined);
    }
  }
  async synthesizeToFile(text: string, targetPath: string): Promise<void> {
    await this.warmup();
    const outputDir = path.dirname(targetPath);
    const cacheDir = path.resolve(process.cwd(), this.config.TTS_CACHE_DIR);
    const fileName = path.basename(targetPath);
    await mkdir(outputDir, { recursive: true });
    const args = [
      "run",
      "--rm",
      "-v",
      `${outputDir}:/work/output`,
      "-v",
      `${cacheDir}:/cache`,
      "-e",
      "HF_HOME=/cache/huggingface",
      "-e",
      "HF_HUB_CACHE=/cache/huggingface/hub",
      "-e",
      "TRANSFORMERS_CACHE=/cache/transformers",
    ];
    if (this.config.TTS_DEVICE !== "cpu") {
      args.push("--gpus", "all");
    }
    args.push(
      this.config.TTS_IMAGE,
      "--text",
      text,
      "--output",
      `/work/output/${fileName}`,
      "--language",
      this.config.TTS_LANGUAGE,
      "--speaker",
      this.config.TTS_SPEAKER,
      "--speed",
      String(this.config.TTS_SPEED),
      "--device",
      this.config.TTS_DEVICE,
    );
    this.logger.info("Starting MeloTTS synthesis", {
      image: this.config.TTS_IMAGE,
      language: this.config.TTS_LANGUAGE,
      speaker: this.config.TTS_SPEAKER,
      speed: this.config.TTS_SPEED,
      device: this.config.TTS_DEVICE,
    });
    await run("docker", args, "inherit");
  }
 }
--- a/src/services/ollama-llm.ts
+++ b/src/services/ollama-llm.ts
@@ -374,10 +374,12 @@ export class OllamaLlmService {
        "bun run setup",
        "bun run setup:stt",
        "bun run setup:llm",
        "bun run setup:tts",
        "bun run devices",
        "bun run test:stt",
        "bun run test:sttllm",
        "bun run test:llm",
        "bun run test:tts -- \"안녕하세요\"",
      ],
    };
  }
--- a/src/setup-tts.ts
+++ b/src/setup-tts.ts
@@ -0,0 +1,60 @@
 import process from "node:process";
 import { mkdir, rm } from "node:fs/promises";
 import path from "node:path";
 import { spawn } from "node:child_process";
 import { loadConfig } from "./config.js";
 import { Logger } from "./logger.js";
 import { MeloTtsService } from "./services/melo-tts.js";
 async function run(command: string, args: string[], cwd = process.cwd()): Promise<void> {
  await new Promise<void>((resolve, reject) => {
    const child = spawn(command, args, {
      cwd,
      stdio: "inherit",
      windowsHide: true,
    });
    child.on("error", reject);
    child.on("exit", (code) => {
      if (code === 0) {
        resolve();
        return;
      }
      reject(new Error(`${command} ${args.join(" ")} exited with code ${code ?? "null"}`));
    });
  });
 }
 export async function setupTts(): Promise<void> {
  const config = loadConfig();
  const logger = new Logger(config.DEBUG ? config.LOG_LEVEL : "error");
  const dockerContext = path.resolve(process.cwd(), "docker", "melotts");
  const cacheDir = path.resolve(process.cwd(), config.TTS_CACHE_DIR);
  const outputDir = path.resolve(process.cwd(), config.TTS_OUTPUT_DIR);
  await mkdir(cacheDir, { recursive: true });
  await mkdir(outputDir, { recursive: true });
  console.log(`MeloTTS Docker 이미지 빌드: ${config.TTS_IMAGE}`);
  await run("docker", ["build", "-t", config.TTS_IMAGE, dockerContext]);
  const tts = new MeloTtsService(config, logger);
  const warmupPath = path.join(outputDir, "warmup.wav");
  console.log("MeloTTS 모델 워밍업...");
  try {
    await tts.synthesizeToFile("안녕하세요. 로컬 티티에스 준비 테스트입니다.", warmupPath);
  } finally {
    await rm(warmupPath, { force: true }).catch(() => undefined);
  }
  console.log("로컬 TTS 환경 준비 완료");
 }
 if (import.meta.main) {
  void setupTts().catch((error) => {
    console.error(error instanceof Error ? error.message : String(error));
    process.exit(1);
  });
 }
--- a/src/setup.ts
+++ b/src/setup.ts
@@ -2,10 +2,12 @@ import process from "node:process";
 import { setupLlm } from "./setup-llm.js";
 import { setupSttPython } from "./setup-python.js";
 import { setupTts } from "./setup-tts.js";
 async function main(): Promise<void> {
  await setupSttPython();
  await setupLlm();
  await setupTts();
 }
 if (import.meta.main) {