[NAVER Cloud] HyperCLOVA X Multimodal LLM 모델 개발 (체험형 인턴)

부서소개 저희 부서는 HyperCLOVA를 기반으로 이미지와 비디오 등 멀티모달 기능 확장을 위한 아키텍처 설계 및 모델 생산을 담당하고 있습니다. 2024년 9월 국내 최초로 HyperCLOVA X에 Vision LLM 기능을 도입해 서비스를 시작하였고, 2025년 4월에는 대한민국 AI 생태계를 위해 상업용 오픈소스 AI 모델을 공개하기도 했습니다. 글로벌 빅테크 기업들과 경쟁하는 것이 어려운 과제임은 분명하지만, 네이버의 방대한 데이터와 HyperCLOVA의 운영 경험, 그리고 우수한 인재 풀이 있기에 가치 있는 도전이라고 생각합니다. 앞으로 남아있는 AI의 여러 challenges 중에 Physical AI 는 이제 더 이상 단순한 hype 문구가 아닙니다. Vision Understanding에서 발전한 Real time video understanding은 VLA 를 통하여 조만간 Physical AI 에 도달할 수 있다고 믿습니다. 도전적인 여정에 함께할 여러분들을 모십니다. 담당업무 • Vision Language Model 의 주기적인 대규모 모델 학습 공정 • Vision MoE, CoT 등 아키텍처 및 기술 탐색 • Video 등의 새로운 모달리티 및 VLA, Computer-Use 등의 추가 시나리오 대응 • Vision MoE, Vision-RLHF • 자원효율화를 위한 Token 효율화 및 Architecture Ablation • 개선된 아키텍처의 개발 및 PoC 지원자격 • 국내/외 정규대학(학사) 재학생 또는 그 이상의 학력을 보유하신 분(기졸업자 지원 가능) • 인턴십 기간(약 3개월) 동안 Full-Time 근무가 가능하신 분 • Vision Language Model (LLaVA, Qwen VL, DeepSeek VL)에 대한 기본적인 지식 및 학습 과정에 대한 구체적인 이해도를 갖추신 분 • Distributed Training에 대한 이해도를 갖추신 분 • Python 활용 능력을 보유하신 분