목표: 이미지 1장 → 10~20초 말하는 영상 → 본인 목소리 복제 → 립싱크 품질 최우선
스크립트는 Claude/ChatGPT에서 작성, 비용 제한 없이 최고 품질 기준으로.
최고 품질 추천 워크플로우
1
Claude/ChatGPT에서 스크립트 작성
10초 영상 = 약 25~35단어 / 20초 영상 = 약 50~70단어 기준으로 요청
10초 영상 = 약 25~35단어 / 20초 영상 = 약 50~70단어 기준으로 요청
2
ElevenLabs에서 내 목소리로 음성 생성
1~3분 분량의 내 목소리 녹음 업로드 → 음성 클론 생성 → 스크립트 입력 → MP3 다운로드
1~3분 분량의 내 목소리 녹음 업로드 → 음성 클론 생성 → 스크립트 입력 → MP3 다운로드
3
HeyGen에 이미지 업로드
사용할 이미지 1장을 HeyGen에 업로드, Photo Avatar 또는 Talking Photo 기능 선택
사용할 이미지 1장을 HeyGen에 업로드, Photo Avatar 또는 Talking Photo 기능 선택
4
ElevenLabs 음성 파일 업로드 → 립싱크 영상 생성
HeyGen에서 “Upload Audio” 선택 후 ElevenLabs MP3 업로드 → 립싱크 영상 생성 시작
HeyGen에서 “Upload Audio” 선택 후 ElevenLabs MP3 업로드 → 립싱크 영상 생성 시작
5
완성된 영상 다운로드 및 활용
HeyGen에서 MP4로 export, 필요 시 CapCut·Premiere 등으로 후편집
HeyGen에서 MP4로 export, 필요 시 CapCut·Premiere 등으로 후편집
핵심 도구 소개
HeyGen 1순위
이미지 → 립싱크 영상
사진 1장으로 말하는 영상 생성에 특화. 오디오 파일 업로드 후 자동 립싱크. 품질·자연스러움 모두 최상위권.
ElevenLabs 1순위
목소리 복제 + TTS
업계 최고 수준의 음성 복제. 짧은 녹음으로도 자연스러운 클론 생성. 한국어 지원 우수.
Claude/ChatGPT
스크립트 생성
자연스러운 구어체 스크립트 작성. “10초짜리 제품 소개 스크립트 써줘” 형식으로 요청하면 바로 활용 가능.
D-ID
이미지 → 립싱크 영상
HeyGen과 유사한 기능. 간단하고 빠른 사용이 장점. 최고 자연스러움 기준이면 HeyGen 우선 권장.
솔루션 비교표
표를 좌우로 스크롤하세요
| 도구 | 주요 기능 | 립싱크 품질 | 목소리 복제 | 한국어 지원 | 추천 용도 |
|---|---|---|---|---|---|
| HeyGen | 이미지→말하는 영상 | 최상 | 지원 | 지원 | 립싱크 영상 생성 |
| ElevenLabs | TTS + 음성 클론 | 해당없음 | 최상 | 우수 | 고품질 음성 생성 |
| D-ID | 이미지→말하는 영상 | 양호 | 지원 | 지원 | 빠른 제작, 간단 용도 |
| Claude/ChatGPT | 스크립트 작성 | 해당없음 | 해당없음 | 우수 | 구어체 스크립트 |
스크립트 작성 팁
- 10초 영상 → 약 25~35단어 (한국어 기준 40~55자)
- 15초 영상 → 약 40~50단어 (한국어 기준 60~80자)
- 20초 영상 → 약 50~70단어 (한국어 기준 80~110자)
- Claude/ChatGPT에
"20초짜리 [주제] 소개 영상 스크립트 구어체로 써줘"형식으로 요청 - 문어체보다 구어체로 요청해야 TTS 발음이 더 자연스러움
최종 추천 조합 (품질 최우선)
- 스크립트: Claude/ChatGPT — 구어체 스크립트 요청
- 음성 복제 + TTS: ElevenLabs — 내 목소리 클론 후 MP3 생성
- 립싱크 영상: HeyGen — 이미지 1장 + ElevenLabs MP3 업로드
- 후편집 (선택): CapCut / Adobe Premiere — 자막·배경음악 추가
