1.5 KiB
1.5 KiB
realtime_voice_bot
출력장치로 재생되는 소리를 파일 저장 없이 바로 받아서, 메모리 버퍼에서 발화 구간을 나눈 뒤 faster-whisper로 STT 하는 최소 프로토타입입니다.
현재 범위
- Node.js + TypeScript 메인 프로세스
- 출력 오디오 실시간 캡처
- 메모리 버퍼 기반 간단한 저지연 발화 분리
- 미리 로드한
faster-whisper워커에 PCM 직접 전달 - 디스크에 WAV 저장 없이 바로 전사
빠른 시작
bun install
bun run setup:python
cp .env.example .env
장치 목록 확인:
bun run devices
실행:
bun run start:loopback
환경 변수
AUDIO_SOURCE- Windows:
bun run devices에서 보이는ffmpeg dshow오디오 장치 이름 - Linux:
pactl list sources short에서 보이는 monitor/source 이름
- Windows:
WHISPER_MODEL- 기본값
large-v3-turbo
- 기본값
WHISPER_LANGUAGE- 기본값
ko
- 기본값
WHISPER_DEVICEauto,cuda,cpu
WHISPER_COMPUTE_TYPEauto,float16,int8_float16,int8,float32
WHISPER_BEAM_SIZE- 기본값
1
- 기본값
메모
- 이 버전은 일단
STT만 합니다. - 최소 지연을 위해 파일 저장은 하지 않습니다.
- VAD는 현재 모델 기반이 아니라 진폭 기반 단순 분리입니다.
- Windows에서는 보통 출력 루프백이 가능한 장치나
Stereo Mix, 오디오 인터페이스 loopback 채널을AUDIO_SOURCE로 잡아야 합니다.