Add separate STT and LLM test commands

This commit is contained in:
2026-05-03 00:44:26 +09:00
parent 48937c684b
commit 7e59013fa4
9 changed files with 274 additions and 22 deletions

View File

@@ -1,6 +1,6 @@
# realtime_voice_bot
출력장치로 재생되는 소리를 파일 저장 없이 바로 받아서, 메모리 버퍼에서 발화 구간을 나눈 뒤 `faster-whisper`로 STT 는 최소 프로토타입입니다.
출력장치로 재생되는 소리를 파일 저장 없이 바로 받아서 `faster-whisper`로 STT 테스트를 하고, 별도로 `Ollama` LLM CLI 테스트를 할 수 있는 최소 프로토타입입니다.
현재 문서는 **Windows PC에서 실행하는 기준**으로 적었습니다.
@@ -11,12 +11,13 @@
- 메모리 버퍼 기반 간단한 저지연 발화 분리
- 미리 로드한 `faster-whisper` 워커에 PCM 직접 전달
- 디스크에 WAV 저장 없이 바로 전사
- 로컬 `Ollama` LLM CLI 테스트
## 빠른 시작
```bat
bun install
bun run setup:python
bun run setup
copy .env.example .env
```
@@ -29,7 +30,13 @@ bun run devices
실행:
```bat
bun run start:loopback
bun run test:stt
```
LLM 단독 테스트:
```bat
bun run test:llm
```
## 환경 변수
@@ -42,6 +49,15 @@ bun run start:loopback
- `false`면 전사 결과만 출력
- `WHISPER_MODEL`
- 기본값 `large-v3-turbo`
- `OLLAMA_BASE_URL`
- 기본값 `http://127.0.0.1:11434`
- `OLLAMA_MODEL`
- 기본값 `qwen3:8b`
- `OLLAMA_KEEP_ALIVE`
- 기본값 `5m`
- `MAX_CONVERSATION_TURNS`
- 기본값 `6`
- 최근 대화 몇 턴까지 LLM 문맥으로 넘길지 정합니다
- `WHISPER_LANGUAGE`
- 기본값 `ko`
- `WHISPER_DEVICE`
@@ -59,7 +75,7 @@ bun run start:loopback
## 메모
- 이 버전은 일단 `STT` 합니다.
- 이 버전은 `STT` 테스트와 `LLM` 테스트를 따로 합니다.
- 최소 지연을 위해 파일 저장은 하지 않습니다.
- VAD는 현재 모델 기반이 아니라 진폭 기반 단순 분리입니다.
- Windows에서는 보통 출력 루프백이 가능한 장치나 `Stereo Mix`, 오디오 인터페이스 loopback 채널을 `AUDIO_SOURCE`로 잡아야 합니다.
@@ -70,12 +86,19 @@ bun run start:loopback
## Windows 테스트 순서
1. `bun install`
2. `bun run setup:python`
2. `bun run setup:stt`
3. `copy .env.example .env`
4. `bun run devices`
5. `.env`에서 `AUDIO_SOURCE=`에 루프백 장치 이름 입력
6. `bun run start:loopback`
7. 유튜브, 디스코드 통화, 동영상 같은 소리를 재생해서 전사 로그 확인
6. `bun run test:stt`
7. 유튜브, 디스코드 통화, 동영상 같은 소리를 재생해서 전사 확인
## Windows LLM 테스트 순서
1. `bun run setup:llm`
2. `bun run test:llm`
3. 콘솔에 직접 문장을 입력하고 답변 확인
4. `/reset` 으로 문맥 초기화, `/exit` 로 종료
## Windows용 .env 예시
@@ -83,6 +106,10 @@ bun run start:loopback
LOCAL_AI_PYTHON=python
AUDIO_SOURCE=
DEBUG=false
OLLAMA_BASE_URL=http://127.0.0.1:11434
OLLAMA_MODEL=qwen3:8b
OLLAMA_KEEP_ALIVE=5m
MAX_CONVERSATION_TURNS=6
WHISPER_MODEL=large-v3-turbo
WHISPER_LANGUAGE=ko
WHISPER_DEVICE=auto