Files
luke_scribe/samples/README.md
T
lukehemmin 45690371c3 docs: add samples/ bench dataset spec (KO+EN) + broaden audio gitignore
Document the exact format for the KO+EN labeled clips that the bench gate
needs (manifest.jsonl + ground-truth text + optional entities). Ignore
audio/video under samples/** while keeping manifests tracked.

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-07 15:12:20 +09:00

1.6 KiB

samples/ — bench 데이터셋 (KO+EN 도메인)

bench 게이트(turbo vs large-v3 의 R-WER · entity 보존율)와 혼용어 정확도(AC-4) 검증의 입력입니다. 이 데이터가 있어야 설계 모호도 마지막 ~5%(하이브리드→단일 확정)를 측정으로 닫을 수 있습니다.

무엇이 필요한가

  1. 오디오/영상 클립 — wav/flac/mp3/m4a/mp4 등(엔진이 ffmpeg로 디코딩). 560초 권장, **520개부터** 시작 가능.
  2. 정답 전사(ground truth) — 각 클립의 올바른 한국어 텍스트. 영문 기술용어는 영문 그대로(예: vLLM, API, Kubernetes).
  3. (선택) 도메인 엔티티 목록 — entity 보존율 측정용.

배치 형식

samples/ko_en/
  clips/0001.wav
  clips/0002.wav
  manifest.jsonl     # 클립 ↔ 정답 매핑 (한 줄당 1 클립)
  entities.txt       # (선택) 한 줄당 도메인 용어

manifest.jsonl 예:

{"audio": "clips/0001.wav", "text": "그 API 서빙할 때 vLLM 쓰면 성능 대박이야", "lang": "ko"}
{"audio": "clips/0002.wav", "text": "FastAPI로 엔드포인트 만들고 Kubernetes에 배포했어", "lang": "ko"}

entities.txt 예(선택):

vLLM
FastAPI
Kubernetes
CTranslate2
GPU

주의

  • 오디오/영상 파일은 .gitignore커밋 제외(용량·프라이버시). manifest.jsonl·entities.txt·이 README만 추적.
  • entity 보존율은 정답 텍스트의 영문 표기를 기준으로 계산하니 표기를 정확히.
  • bench 구현 시 이 형식을 그대로 소비합니다: uv run luke-scribe bench --samples samples/ko_en/.