티스토리 뷰
부트캠프 참여하면서 예전에 대충 만들었었던 영상 생성 파이프라인에 대한 설계를 다시 시작했다.
프로토타입은 단순히 OpenAI의 API로 프롬프트 프로그래밍으로 만들었다면
이번에는 LangChain을 기반으로 여러 API를 Agent 형식으로 설계해서 좀 제대로 만들어보고자 한다.
이제는 프로젝트를 진행하기 전에 목표, 시나리오, 설명서 등을 작성하고 개발하는 게 편하다.
이전에는 Kiro로 플랜만 만들었었고, 이제는 Antigravity로 기본적인 플랜을 작성한다.
그리고 그걸 기반으로 내가 체크하면서 다시 한번 점검한다.
AI가 기본적으로 잘 작성해주긴 하지만 내 의도와는 다르게 생성되는 부분들이 있기 때문에
반드시 한번 더 체크하면서 내가 생각하는 방향성이 맞는지 체크해주어야 한다.
(방향성은 개발하면서 더 좋은 아이디어로 인해 살짝씩 바뀔수는 있지만 명확한 큰 선은 절대 변하면 안 된다)
이 프로젝트의 목표는 다음과 같다
✅ 사용자가 주제와 스타일을 입력하면 → 장면별 스크립트 → 영상 → 리뷰 → 수정 → 최종 영상 생성
✅ 장르·감정·서사 구조를 반영한 스크립트 생성 모델(RAG 기반)을 포함
✅ 한국 콘텐츠 특화 (K-드라마/영화 스타일)
✅ Multi-Agent 워크플로우
✅ 멀티모달 생성 (텍스트→영상→음악)
사용자가 한 문장 혹은 키워드 한, 두 개만 입력했을 때 기본적인 스크립트가 나오고, 그 스크립트를 기반으로 자동으로 이미지나 영상, 음악, 음성이 생성되는 게 이 프로젝트의 핵심이다.
프로젝트 기술 스택은 다음과 같이 정했다
BackendCore:
|
AI/MLLLM:
|
Frontend
|
일단 중요한 부분이 AI 부분이기에 여기에 시간을 많이 투자하고, 백엔드 서버는 로컬과 Railway로 1차 테스트, 최종 배포는 AWS로 진행하려고 한다(개인적으로는 GCP가 훨씬 손에 익지만 AWS의 점유율이 상대적으로 높으니 취업을 위해 AWS로 갈아타고자 한다)
프런트엔드는 손에 익은 걸로 하고 아마 Antigravity로 설계를 맡기지 않을까 싶다.
예상하는 동작 시나리오는 다음과 같다

분홍색은 백엔드의 동작, 하늘색은 프런트엔드에서 사용자가 진행하거나 자동으로 진행되는 지점들이다.
이 그림은 프로젝트 진행하다가 길을 잃거나 뭘 해야 할지 모를 때 계속 보는 길잡이 같은 역할이 될 것 같다.