2024 | ArXiv
✅ Summary
효율적인 Vision-Language 학습을 위한 오픈소스 LMM DeepSeek-VL 제안. 하이브리드 비전 인코더(SigLIP+SAM), 모달리티 워밍업 전략, 최적화된 VL 어댑터 설계를 통해 고해상도 이미지 처리, 언어 능력 유지, 멀티모달 균형 조정을 달성. 다양한 벤치마크에서 기존 오픈소스 모델을 능가하며, 일부 태스크에서 GPT-4V에 근접한 성능을 보임.
1. Introduction
연구배경 및 필요성: 오픈소스 모델과 독점 모델 간 격차
- GPT-4V, Gemini 등 대규모 멀티모달 모델(LMM)이 등장
- 오픈소스 LMM들이 빠르게 발전하고 있지만 실제 성능 및 사용자 경험 측면에서 폐쇄형 모델과 큰 격차 존재.
- 주요원인:
- 사전 훈련(pretraining) 부족:
- LMM의 성능을 확보하려면 광범위한 사전훈련을 통해 모델이 세계 지식과 다양한 문맥을 학습하는 과정이 필요함.
- 대부분의 오픈소스 모델들이 instruction tuning에 과도하게 집중하여 기본적인 사전 훈련이 충분히 이루어지지 않음.
- 벤치마크 중심 최적화:
- Instruction tuning 과정에 학술 데이터셋(academic datasets)을 포함하는 것이 일반적이지만
- 이는 높은 벤치마크 점수에는 도움이 되지만 실제 시나리오에서는 한계를 보임.
- 저해상도 문제:
- 대부분의 멀티모달 모델들은 336×336, 448×448 등의 상대적으로 낮은 해상도에서 이미지를 처리하여 OCR, 작은 객체 인식 등의 태스크에서는 성능 한계.
- 언어 능력 저하:
- 일부 모델이 사전 훈련을 활용하지만, 훈련 과정에서 비전-언어 데이터의 비율이 높아질수록, 기존 언어 능력이 저하되는 현상 발생
- 새로운 모달리티(vision) 개발하면서도 기존의 언어 능력을 유지하는 훈련 전략이 부족함.
- 사전 훈련(pretraining) 부족:
DeepSeek-VL
- DeepSeek 언어 모델 시리즈 기반 오픈소스 LMM 개발
- 실세계에서 높은 성능을 발휘하는 것을 목표로 설계
- 방법론
- 광범위한 사전훈련
- 사용 사례 분류 체계(use case taxonomy) 기반 데이터 선정
- 고해상도 이미지 처리를 위한 모델 아키텍처 설계
- 멀티모달 균형을 유지하는 훈련 전략
- 확장 가능한 모델 설계: 소규모 실험 후 모델 확장
- 결과:
- 유사한 크기의 기존 오픈소스 모델 대비 실세계 성능 우위 확보
- 특정 task에 있어서는 GPT-4V에 근접한 성능
2. Data Construction
데이터셋 구성
- VL Pretraining Data:
- 다양한 출처에서 수집된 시각-텍스트(visual-text) 데이터로
- 모델의 크로스 모달 이해 능력을 강화하는 것이 목표.
- VL Supervised Fine-Tuning Data:
- 작은 규모의 데이터로, 모델이 특정 다운스트림 작업을 수행하도록 학습하는 것이 목표.
훈련과정
- 1단계: VL Adaptor 워밍업 (VL PT 데이터 사용)
- 2단계: Joint Vision-Language Pretraining(VL PT 데이터 사용)
- 3단계: Supervised Fine-tuning (VL SFT 데이터 사용)
2.1 Vision-Language pretraining Data
- 오픈소스 + 독점 데이터
- LMM이 이미지 속 개체를 더 잘 이해하도록 돕는 것을 목표로 함.
2.2 Supervised Fine-tuning Data
- 주요 데이터셋: GPT-4V 기반 공개 데이터, 표 및 차트 데이터, UI 코드 데이터
- 자체 제작(In-house) SFT 데이터
- DeepSeek-LLM의 텍스트 전용 SFT 데이터
자체 제작(In-house) SFT 데이터
- 실제 사용환경을 반영한 고품질 데이터셋
→ 모델이 실제 애플리케이션단에서 유용하게 작동하도록 학습하는것을 목표로 제작되었음. - 구축과정
- 여러 온라인 소스에서 GPT-4V 및 Gemini 관련 실제 테스트 사례(test case) 수집
- 1에서 수집한 사례를 바탕으로 분류체계(taxonomy) 구성
- 인식(recognition), 변환(conversion), 분석(analysis), 추론(reasoning), 평가(evaluation), 안전(safety) 등 다양한 작업이 포함되어 있음.
- 각 분류별 대표 프롬프트 설계
→ 실제 환경에서 보다 정확하고 유용한 응답을 할 수 있도록 하면서 모델 성능평가를 위한 균형잡힌 데이터셋 구성
3. Approach
3.1 Architecture
Hybrid Vision Encoder → 이미지를 보고 중요한 특징을 추출하는 부분
Vision Adaptor → 추출된 정보를 가공해서 언어모델이 이해할 수 있는 형태로 변환하는 부분
Language Model → 최종적으로 사용자의 질문에 답을 생성하는 부분
Hybrid Vision Encoder
이미지를 보고 중요한 정보를 추출하는 역할
SigLIP 인코더의 한계
- CLIP-blind pairs 문제: 시각적으로 다른 이미지가 비슷하게 인코딩되어 구분하지 못하는 문제.
- 저해상도만 다룰수 있음: 세부적인 정보(OCR 등)를 제대로 처리하지 못함.
해결책: 하이브리드 비전 인코더 → 두 개의 다른 인코더를 조합해서 해결
- SAM-B (1024×1024 해상도) + SigLIP-L (384×384 해상도) 결합
- SAM-B: 고해상도 세부 정보 추출 (OCR, 작은 객체 인식)
- SigLIP-L: 전체적인 의미론적 정보 인식
Vision-Language Adaptor
- 비전 인코더에서 뽑은 정보를 언어 모델이 이해할 수 있도록 변환하는 역할
- 고해상도 피처맵과 저해상도 피처맵을 각각 single-layer MLP로 따로 처리
- 그 후 두 정보를 concate하여 MLP 층을 거쳐서 LLM 입력으로 변환
SAM-B가 1024x1024 이미지를 보고, 64x64x256 크기의 피처맵 생성
→ Vision Adaptor가 더 작은 크기(24x24x1024)로 변형
→ SigLIP에서 나온 저해상도 정보(576x1024)랑 결합
→ 최종적으로 2048 차원의 visual token 생성
언어 모델(Language Model)
- Vision Adaptor에서 변환한 visual 토큰을 입력받아서 답을 생성
- DeepSeek LLM을 기반으로 만들어진 언어모델 사용
- LLaMA 구조 기반
- RMSNorm, SwiGLU, Rotary Emb 적용
- DeepSeek-LLM과 동일한 토크나이저 사용
3.2 Training Pipelines
1단계: VL Adaptor 훈련
- 목표: 이미지와 텍스트 간 개념적 연결을 형성
- 훈련방식
- vision encoder와 LLM은 동결frozen
- VL 어댑터만 학습 가능하도록 설정
- 실험
- VL-Adaptor 는 LLM에 비해 모델 용량이 작아 학습할 수 있는 능력을 제한
- Q. 이 단계에서 데이터 규모를 확장하는 것이 효과적인가?
- A. 데이터 규모를 확장해도 성능 향상에 기여하지 않으며, 오히려 성능 저하 가능성이 확인됨
2단계: Joint Vision-Language Pretraining
- 목표: LLM이 멀티모달 입력을 이해할 수 있도록
- 훈련방식:
- vision encoder frozen
- 언어 모델과 VL adaptor최적화
- 문제발생:
- 멀티모달 데이터로 직접 LLM을 훈련했더니 이미지 이해능력은 향상되었지만, 언어능력이 급격히 저하됨.
- 멀티모달과 언어데이터 간의 경쟁으로 언어능력이 catastrophic forgetting 현상 발생
- 원인분석:
- 다중 모달 데이터가 언어 데이터보다 지나치게 단순하여 학습 균형이 맞지 않음
- 모달리티 간 경쟁적인 관계가 존재하는 것으로 보이며 이로인해 언어능력이 손실됨
- 해결책: Joint Language-Multimodal Training
- 멀티모달 데이터뿐만 아니라 대량의 언어데이터도 함께 학습하여 균형 유지
- 다양한 데이터 비율을 실험하여 언어 데이터 7 : 멀티모달 데이터 3 비율이 최적임을 발견
- 결과적으로 언어능력 저하가 방지되고 멀티모달 성능도 유지되면서 균형잡힌 학습이 가능해짐.
Scaling Vision-Language Pretraining
- 문제발생:
- 7B 모델의 사전훈련 비용이 너무 높아서 작은 모델(1.3B)로 먼저 실험한 후 확장하는 방법 시도
- 2단계에서 1.3B 모델의 생성 성능이 불안정하게 변동하여 훈련이 어려움
- 원인분석:
- 1.3B 모델의 용량이 제한적이라 충분한 정보를 학습하기 어려움
- 훈련 데이터에 SFT데이터가 부족하여 정확한 생성이 어려움
- 모델이 이미지를 정확하게 인식한다고 할지라도 용량이 제한적이기 때문에 이해한 바를 바탕으로 정확하게 생성해내는 능력이 떨어짐.
- 해결책:
- 멀티 초이스 PPL(Multi-choice PPL) 기법 도입
- 프롬프트와 이미지뿐만 아니라 정답 후보(A, B, C, D)를 함께 입력
- 각 답변의 혼란도(PPL)를 계산하여 가장 적절한 답을 선택하도록 유도
- 훈련 데이터셋 내 SFT 데이터를 소량추가
- → 모델이 명령을 따르는 능력을 학습하도록 개선
- 멀티 초이스 PPL(Multi-choice PPL) 기법 도입
- 결과: 1.3B 모델의 훈련이 안정적으로 유지됨.
3단계: Supervised Fine-tuning
- 목표: 명령을 따르고 대화를 더 잘할 수 있도록 (DeepSeek-VL-Chat 모델 구축)
- 훈련방식:
- LLM, VL Adaptor, 하이브리드 비전 인코더 최적화
- SAM-B는 GPU 메모리 제한으로 인해 동결(frozen) 상태 유지
- 멀티모달 데이터 + Only 텍스트 대화데이터 혼합하여 훈련
3.3 Hyperparameters and Infrastructures
4. Evaluation
4.1 Public Multimodal Benchmarks Evaluation
DeepSeek-VL-7B 성능
- MMB, MMC, SEEDBench 등 여러 벤치마크에서 우수한 성능을 발휘
- 일부 테스트에서는 DeepSeek-VL이 Close-source 모델과 근접한 성능
- DeepSeek-VL vs. GPT-4V = 70.4 vs. 71.6 (SeedBench 성능 비교)
- Mathematical Logic 평가에서 모든 오픈소스 모델보다 높은 성능
- GPT-4V와 근접한 성능
- 비슷한 크기의 오픈소스 모델보다 높은 성능
DeepSeek-VL-1.3B 성능
- 비슷한 크기의 오픈소스 모델보다 높은 성능
- MMB 벤치마크에서 최상위 오픈소스 모델보다 높은 성능을 발휘하면서도 절반 정도의 파라미터만 사용 (1.3B vs. 2.7B)
- MathVista에서는 7B급 오픈소스 모델과 유사한 성능을 기록
4.2 Public Language Benchmarks Evaluation
- DeepSeek-VL은 대부분의 언어 벤치마크에서 DeepSeek-7B와 유사하거나 더 우수한 성능을 보임
- HellaSwag: 68.4 vs. 68.5 (DeepSeek-VL vs. DeepSeek-7B, 거의 동일한 성능)
- MMLU, AGIEval에서는 DeepSeek-VL이 DeepSeek-7B보다 더 높은 성능 기록 → 멀티모달 훈련이 언어 작업에도 긍정적 영향을 미칠 가능성 시사
- GSM8K(수학 문제)에서는 성능 저하 → 비전과 언어 모달리티 간의 경쟁적 관계로 인해 조화가 어려운 점 확인
- 결론적으로 DeepSeek-VL은 언어 능력 저하를 최소화하면서 멀티모달 훈련의 장점을 활용했다.
4.3 Human Evaluation
- DeepSeek-VL 모델 Human Evaluation 진행
- 데이터셋:
- 연구팀이 직접 100개의 질문을 만들고, 7개 카테고리로 구성된 테스트 데이터셋 구축
- 저작권 없는 이미지 또는 연구진이 직접 촬영한 사진을 활용
- 결과:
- GPT-4V가 전반적으로 가장 뛰어남
- DeepSeek-VL-7B는 Recognition(객체 인식), Conversion(변환), Commonsense Reasoning(상식적 추론)에서 GPT-4V와 근접한 성능
- GPT-4V를 심판으로 활용해서 DeepSeek-VL과 다른 모델의 답변을 GPT-4V에게 비교 평가 요청
- 대부분의 경우 DeepSeek-VL의 답변을 더 높은 품질로 평가
4.4 Ablation Study
Scale Up Projector Training
- Projector Training → VL Adaptor 훈련을 의미
- 1단계(Projector 워밍업)에서 데이터를 확장하여 SFT 진행
- 훈련 데이터의 양을 늘려도 성능향상 효과가 없음 → 프로젝터 자체의 용량 제한 때문에 방대한 데이터를 학습하는데 한계가 있다.
Training Stage
- 각 훈련 단계가 모델 성능에 미치는 영향을 분석
- 1+2+3 >> 1+3 → 멀티모달 pretrain(2단계) 효과입증
- 1+2+3 > 2+3 → VL Adaptor 워밍업(1단계)가 모델 성능에 중요한 역할을 함
Modality Group Training
- 언어 데이터와 멀티모달 데이터를 섞어서(batch level) 훈련하면 훈련 효율이 크게 감소하는 현상이 관찰
- 원인:
- 배치(batch) 단위로 데이터를 섞으면, 각 배치의 그래디언트 역전파가 가장 느린 샘플을 기다려야 함
- 언어 데이터는 처리 속도가 빠른 반면, 멀티모달 샘플은 상대적으로 느림
- 결과적으로 빠르게 처리되는 언어 데이터가 멀티모달 샘플을 기다려야해서 전체 훈련속도가 저하됨
- 해결책: 각 훈련 스텝마다 한 가지 데이터 유형만 사용 (언어 데이터만 or 다중 모달 데이터만)
- 결과
Modality Warmup
- LLM을 기반으로 멀티모달 학습을 수행할 경우 초기부터 Vision-Language 데이터를 고정비율로 혼합하면 모델이 불안정해질 가능성이 있음
- 해결책: 점진적 비율 조정
- 초기에는 언어 데이터 비율을 100%로 설정하여 훈련 시작.
- 이후 점진적으로 비전-언어 데이터 비율을 증가시키며 최종 모델 훈련 시 목표 비율(예: 0.7)에 도달하도록 조정.
- 실험결과: 훈련 초반의 언어능력 저하를 방지하고 최종적으로 언어+멀티모달 성능 모두 향상
Vision Encoder Selection
- 다양한 비전 인코더를 비교하여 훈련 손실(training loss)을 분석.
- 실험결과:
- vision-only self-supervised 인코더를 추가하면 훈련 손실이 크게 개선
- 최종 선택:
- SigLIP과 SAM을 결합한 하이브리드 비전 인코더
- 고해상도(1024×1024) 이미지 처리 성능 강화.
Vision-Language Adaptor Design
- 비전 인코더에서 정보를 효과적으로 추출하고, 토큰 길이 제약을 고려한 최적화된 설계가 필요함
- 시각적 피처를 결합하는 방식 (시각적 피처를 어떻게 결합해야할까?)
- MLP 어댑터 설계 (어떤 MLP 구조가 가장 효율적일까?)
- 실험결과:
- 시각적 피처를 결합하는 방식 (Seq concat vs. Emb concat)
- 시퀀스 차원에서 결합하면 토큰 길이가 증가해서 연산 비용이 증가하며
- 이미지의 너비나 높이차원에서 시각적 피처를 concat하는 방식은 성능 향상에 효과적이지 않음.
- 임베딩 차원(embedding dimension)에서 병합하는 방식이 대부분의 지표에서 더 우수한 성능
- MLP 어댑터 설계
- Hybrid: 각 비전 인코더의 특징을 반영하면서도 공유된 구조
- Shared: 모든 비전 인코더의 출력을 동일한 MLP로 변환
- Separate: 각 비전 인코더에 별도로 MLP 적용
- 시각적 피처를 결합하는 방식 (Seq concat vs. Emb concat)
- 결론: Embedding Concatenation 방식 + Hybrid MLP 어댑터를 적용
5. Conclusion, Limitation, and Future Work
- DeepSeek-VL: 1.3B 및 6.7B 파라미터 규모의 MLLM
- 사전 훈련 데이터셋 구성
- 다양한 출처 + 실세계 시나리오를 반영한 데이터
- 명령 조정(instruction-tuning) 데이터셋 구축: GPT-4V 및 Gemini의 실제 테스트 사례를 수집하여 분류 체계(taxonomy) 구성
- 하이브리드 인코더 설계
- 384×384 텍스트 정렬 인코더 + 1024×1024 해상도 고해상도 인코더
- 최종적으로 1024×1024 해상도의 이미지를 576개의 토큰으로 압축하여 효율성 확보
- 고해상도 시각 입력 최적화 + 고정된 토큰 예산 내 추론 비용 관리
- 언어능력을 유지하는 훈련전략
- 언어 데이터 비율 최소 70% 유지 → 언어 지식 온전성 확보
- "모달리티 워밍업" 전략을 도입
- 초기에는 텍스트 중심 학습 → 점진적으로 비전-언어 데이터 증가
- 균형 잡힌 멀티모달 성능 확보
- 소규모 실험 후 대규모 모델 확장
- 1B 모델이 벤치마크 성능을 충분히 반영하지 못하는 문제 해결
- 평가 프로토콜 변경: 다중 선택 방식 대신 퍼플렉서티(perplexity) 비교 방식 적용
- 사전 훈련 단계에서 소량의 SFT 데이터 혼합 → 성능 저하 방지
- 1B 모델이 벤치마크 성능을 충분히 반영하지 못하는 문제 해결
- Future Works
- DeepSeek-VL을 더 큰 규모로 확장 예정.
- Mixture of Experts (MoE) 기술 적용으로 모델의 효율성과 성능 향상 목표.