Integrate LLM into STT flow with reply gating

2026-05-03 01:00:44 +09:00
parent b28f163217
commit c53dcc853d
3 changed files with 171 additions and 9 deletions
--- a/README.md
+++ b/README.md
@@ -11,6 +11,7 @@
 - 메모리 버퍼 기반 간단한 저지연 발화 분리
 - 미리 로드한 `faster-whisper` 워커에 PCM 직접 전달
 - 디스크에 WAV 저장 없이 바로 전사
+- STT 결과에 대해 답변 가치 판단 후 필요할 때만 LLM 답변
 - 로컬 `Ollama` LLM 에이전트 CLI 테스트

 ## 빠른 시작
@@ -91,7 +92,7 @@ bun run test:llm
 4. `bun run devices`
 5. `.env`에서 `AUDIO_SOURCE=`에 루프백 장치 이름 입력
 6. `bun run test:stt`
-7. 유튜브, 디스코드 통화, 동영상 같은 소리를 재생해서 전사 확인
+7. 유튜브, 디스코드 통화, 동영상 같은 소리를 재생해서 전사와 LLM 답변 확인

 ## Windows LLM 테스트 순서

@@ -111,6 +112,8 @@ bun run test:llm
 동작 원칙:
 - 일반 대화는 로컬 LLM만 답변
 - 최신 정보, 뉴스, 사실 확인, 검색 요청일 때만 웹 도구 사용
+- STT 경로에서는 먼저 "대답할 가치가 있는 텍스트인지" 판정한 뒤 필요할 때만 답변
+- 웹 검색이 실제로 시작되면 결과 전에 `검색해볼게요.` 같은 진행 메시지를 먼저 출력

 ## Windows용 .env 예시