Paper Review
[Paper Review] Improved Baselines with Visual Instruction Tuning (LLaVA-1.5)
seunkorea
2025. 2. 23. 22:23
2024 CVPR | Paper
✅ Summary
1. 구조가 간단하고, 적은 데이터로도 높은 성능을 달성한 오픈소스 LMM 모델 LLaVA-1.5 제안.
2. Visual Instruction Tuning, 고해상도 이미지 처리, 환각 문제, Compositional Capabilities 등 LMM 설계와 성능에 영향을 미치는 요소 분석함.
1. Introduction
연구배경
- 대규모 멀티모달 모델(LMM)은 범용 어시스턴트를 목표로 연구되며, 핵심 개념으로 Visual Instruction Tuning이 주목받고 있음.
- LLaVA, MiniGPT-4 등의 모델이 자연스러운 Instruction-Following 능력 및 시각적 추론에서 성과를 보임.
- 기존 연구는 사전 학습 데이터, Instruction-Following 데이터, 시각적 인코더, 언어 모델 확장을 통해 성능을 향상시킴.
- 그러나 기존 연구들이 여러 요소를 통해 성능을 개선했지만, 어떤 요소가 실제 성능 향상의 주요 원인인지 명확하지 않으며 범용 어시스턴트를 훈련하는 최적의 방법론은 밝혀지지 않음.
주요 연구내용
- 기존 LLaVA 모델 분석 및 개선된 모델(LLaVA-1.5) 제안
- 기존 LLaVA 모델이 적은 데이터로 강력한 성능을 낸 것을 참고해서 기존 LLaVA 모델을 개선
- 두 가지 주요 개선을 통해 LLaVA-1.5 제안
- MLP cross-modal connector 도입
- VQA와 같은 학문적 task와 관련된 데이터 통합
- 효율적인 훈련
- InstructBLIP이나 Qwen-VL에서 수백만~수십억 이미지-텍스트 쌍 데이터를 사용해서 복잡한 visual resampler를 훈련시키는 대신
- LLaVA의 간단한 아키텍처를 사용해서 60만개의 이미지-텍스트 쌍 데이터만 사용하여 간단한 fully connected proejction layer만 훈련시킴
- 단일 8-A100 GPU에서 하루 만에 훈련 가능.
- 공개 데이터만 활용
- LMM 설계와 성능에 영향을 미치는 요소 분석
- Scaling to high-resolution image inputs
- LLaVA 모델의 설계는 이미지를 그리드(격자) 형태로 나눠 처리하기 때문에 고해상도 이미지를 입력으로 받을 때도 유연하게 대응가능
- 고해상도 이미지 처리가 가능하기 때문에 세부 인식 능력이 향상되고 환각 문제 감소.
- Compositional Ability
- 서로 다른 작업을 결합해 학습하면 모델의 종합적인 추론 능력과 텍스트 생성 능력이 향상됨.
- 예를 들어, 짧은 시각적 추론(이미지 내 간단한 요소를 분석하는 작업)과 장문 언어 추론(복잡한 텍스트 생성)을 함께 훈련하면, 모델이 멀티모달 질문(이미지와 텍스트가 결합된 질문)에 대해 더 나은 답변이 생성됨.
- Data Efficiency
- LLaVA 모델의 훈련 데이터 중 최대 75%를 무작위로 제거해도 성능이 크게 감소하지 않음을 발견
- 데이터가 꼭 많아야만 좋은 성능을 내는 것이 아니라, 효율적으로 설계된 데이터와 모델 구조가 더 중요한 역할을 할 수 있음.
- Data Augmentation
- 데이터를 잘 설계하고 확장하면 모델 성능이 좋아지고 부작용(hallucination) 없이 안정적으로 개선됨.
- Scaling to high-resolution image inputs
주요성과
LLaVA-1.5는
- 11개 작업에서 SOTA 달성
- 간단한 아키텍처로도 데이터 효율성과 훈련 효율성 극대화
- 공개 데이터만 사용
→ 기존 접근법의 한계를 재고하여 멀티모달 모델 훈련의 효율성과 확장 가능성을 개선하는 새로운 기준선을 제시.
2. Related Works
Instruction-following LMMs
- 모델 아키텍처
- Visual Backbone(~= Encoder): 이미지 같은 시각적 데이터를 이해하는 부분
- LLM: 사용자의 명령을 이해하고 이에 맞는 텍스트 응답을 생성하는 부분.
- Visual-Language Connector: Visual Encoder의 출력과 LLM을 정렬하는 부분
- Instruction-following LMM 훈련과정
- Vision-Language Alignment Pretraining:
이미지-텍스트 쌍 데이터를 사용해서 시각 데이터를 언어 모델이 이해할 수 있는 방식으로 변환. - Visual Instruction Tuning: 모델이 시각정보와 관련된 사용자의 지시를 잘 따르도록 튜닝
- Vision-Language Alignment Pretraining:
- 고해상도 이미지 처리: 이미지를 그리드로 나눠 고해상도 데이터를 효율적으로 처리하는 방법이 연구중.
Multimodal Instruction-following data
- Instruction-following 데이터의 품질이 모델의 Instruction-following 성능에 크게 영향을 미침
- LLaVA의 접근: 기존의 COCO 데이터셋을 GPT-4를 이용해서 대화형 QA, 디테일한 묘사, 복잡한 추론과 같은 데이터 유형의 데이터로 확장
- InstructinBLIP의 접근: 학문적 task를 지향하는 VQA 데이터셋을 사용해서 모델 성능을 강화 → 하지만 단순히 데이터를 합치기만 하면 특정 VQA 데이터셋에 과적합되었음. (자연스러운 대화 성능 저하)
- 이를 해결하기 위해 본 논문에서는 LLaVA 파이프라인을 활용해서 VQA 데이터를 대화형으로 변환하는 방식 사용
- NLP 분야에서 FLAN 연구가 대량의 학문적 task 데이터를 추가해서 모델의 일반화 능력을 향상시킨 것처럼 멀티모달에서도 자연스러운 대화 능력과 학문적 task를 모두 잘 처리하도록 균형을 맞추는 부분을 더 연구해야함.
3. Approach
3.1 Preliminaries
LLaVA의 강점과 한계:
- 강점: 실생활 Visual Instruction task에서 뛰어난 성능을 보임.
- 한계: 단답형 응답(예: 단어 하나)을 요구하는 학문적 벤치마크에서는 성능이 부족하며 학습데이터 부족으로 예/아니오 질문에서 “예”로 답하는 경향이 있음.
InstructBLIP의 강점과 한계:
- 강점: VQA-v2와 같은 학문적 데이터세트를 통합하여 VQA 벤치마크에서 좋은 성능을 발휘.
- 한계: 단답형 데이터에 과적합되어 상세한 응답이 필요한 실생활 시각적 대화 성능은 떨어짐.
- InstructBLIP은 자연스러운 응답과 short-answer을 포함하는 instruction-following 데이터를 사용했으나 두 응답 형식 간의 균형을 잘 맞추지 못하는 문제가 있었음.
3.2 Response Format Prompting
InstructBLIP과 같은 접근 방식이 단답형 응답(short answers)과 장문형 응답(long-form responses) 간의
균형을 유지하지 못하는 이유:
- 응답 포맷에 대한 애매한 프롬프트:
- 원하는 출력 형식을 명확히 지시하지 않아 단답형 응답에 과적합될 가능성이 큼
- LLM 파인튜닝 부족: :
- InstructionBLIP은 Instruction-tuning을 위해 Q-former만 파인튜닝함
- Qformer의 역할 중 하나는 LLM의 응답 길이를 제어하는 것(장문/단답형 응답을 결정하는 것)
- Qformer는 LLM보다 능력이 제한적이기 때문에 Qformer 하나만으로는 응답의 길이나 형식을 제대로 제어하기 어려움.
제안된 방법론
- Response Format Prompting(응답 포맷을 명확하게 나타내는 프롬프트) 사용
- 질문 끝에 “질문에 단어 또는 구를 사용하여 답변하십시오”라는 프롬프트를 추가하여 원하는 출력 형식을 명확히 지시.
- LLM을 이러한 프롬프트로 파인튜닝해서 응답 형식을 상황에 맞게 조정할 수 있도록 개선.
결과
- LLM을 이런 프롬프트로 학습시키면, LLaVA가 사용자의 요청에 맞게 응답 형식을 적절히 조정할 수 있게 됨.
- ChatGPT를 사용해서 데이터를 확장하지 않아도 다양한 데이터 소스를 처리 가능.
- 단순히 VQA v2 데이터만 추가해도, LLaVA의 성능향상 (MME 성능점수: 809.6 → 1328.8, InsturctBLIP보다 111점 높은 점수)
3.3 Scaling the Data and Model
MLP Vision-Language Connector
- 기존: Linear Projection → 변경후 : 이중 레이어 MLP
- 효과: 멀티모달 처리능력 향상
학문 task 지향 데이터(Academic task oriented data) 확장
- InstructBLIP에서 사용된 VQA 및 OCR 데이터 일부를 추가
- 추가로 region-level perception 데이터(Visual Genome, RefCOCO)를 사용해 모델이 세부적인 시각적 정보를 로컬라이징 하는 능력 강화
Additional scaling
- 입력 이미지 해상도를 336²로 확장
- 비전 인코더를 CLIP-ViT-L-336px(현재 CLIP에서 사용 가능한 최고 해상도)로 교체
- 효과: 세부사항 인식 능력을 강화
- GQA 데이터 추가: 추가적인 시각적 정보 소스(visual knowledge source)로 사용
- 비전 인코더와 LLM 파인튜닝, 그 사이의 align 과정에 사용됐다고 이해함.
- ShareGPT 데이터 추가: LLM의 대화능력 향상을 위해 사용
- LLM 13B 확장: 이 경우 가장 큰 성능 향상을 보여주었으며 기본적인 Visual conversation은 베이스 LLM의 능력이 중요함을 시사.
LLaVA-1.5
- 이러한 모든 수정 사항을 포함한 최종 모델을 LLaVA-1.5라고 명명(Table 2의 마지막 두 줄)
Computational Cost
- LLaVA-1.5는 LLaVA와 최대한 학습 조건을 비슷하게 설정했지만
- 이미지 입력 해상도 증가로 학습시간 약 2배 증가
- 사전학습 6시간, Visual instruction tuning 20시간 (8×A100 GPU 사용.)
- 기존: Linear Projection → 변경후 : 이중 레이어 MLP
- 효과: 멀티모달 처리능력 향상
- 사전학습 6시간, Visual instruction tuning 20시간 (8×A100 GPU 사용.)
3.4 Scaling to higher resolutions
- 입력 이미지 해상도를 확장하면 모델의 성능이 향상
- 하지만 기존 오픈소스 CLIP 비전 인코더의 경우 336×336 해상도까지만 지원
- 더 높은 해상도의 이미지를 처리하려면 단순히 인코더를 바꾸는 방식만으로는 해결 불가능
- 일반적으로 ViT 기반 비전 인코더의 해상도를 늘리려면 위치 임베딩 보간(positional embedding interpolation) 방식이나
파인튜닝으로 할 수 있지만 - 이런 방법은 추가 학습 데이터와 시간이 많이 필요하고 추론할 때 고정된 해상도만 지원해서 유연성이 떨어짐
- 제안된 방법: 이미지를 패치로 나눠서 처리
- 이미지를 작은 패치로 나눔
- 각각의 패치를 기존의 비전인코더로 독립적으로 인코딩
- 인코딩된 결과(피처맵)를 합쳐 하나의 큰 이미지 피처맵으로 만듬
- 추가로, 이미지를 패치로 나누면서 생길 수 있는 정보손실이나 부작용을 예방하기 위해 원본 이미지 전체를 다운샘플링해서 인코딩하고 3에 concatenate (글로벌 컨텍스트 추가)
- 합쳐진 피처맵을 LLM 입력으로 사용
→ 효과: 임의의 해상도 이미지처리 가능 및 모델 성능 개선 (LLaVA-1.5-HD라고 명명)
4. Empirical Evaluation
4.1 Benchmarks
- LLaVA-1.5 모델의 성능을 확인하기 위해, 12개의 벤치마크에서 다양한 작업을 평가 진행
- 벤치마크는 크게 두 가지 카테고리로 나뉨:
- academic-task-oriented benchmarks
- LMMs instruction-following benchmarks
- 모델이 학문적 문제 해결과 실생활 대화에서 모두 잘 작동하는지 종합적으로 평가하도록 함
- academic-task-oriented benchmarks
- 주로 단답형 응답이나 특정 작업에 모델이 얼마나 잘 대처하는지 평가
- VQA-v2, GQA (이미지 기반 질문에 대한 단답식 응답), VizWiz(시각장애인 질문데이터로 제로샷 학습 평가), ScienceQA(과학분야 질문 다지선다형), TextVQA(텍스트가 많은 이미지)
- LMMs instruction-following benchmarks
- 모델이 실생활 시각 대화에서 얼마나 잘 작동하는지를 평가.
- POPE, MME-Perception, MMBench, MMBench-CN, SEED-Bench, LLaVA-Bench-in-the-Wild, MM-Vet
4.2 Results
- LLaVA-1.5는 12개의 평가 벤치마크에서 최고의 성능
- LLaVA-1.5-HD는 성능이 더 향상되었으며, 특히 이미지 세부정보를 다루는 OCR 같은 작업에서 큰 폭으로 개선
- 글로벌 컨텍스트 추가시 이미지를 split-and-merge하는 과정에서 발생하는 정보손실 같은 부작용을 줄일 수 있음을 발견
- LLaVA-1.5는 단순한 아키텍처, 일반적인 컴퓨팅 자원, 그리고 공개 데이터로도 최고의 성능을 달성
- → 연구자들이 이 모델을 저비용으로 재현 가능하게 만들어 연구에 큰 도움이 될 수 있음.
- Visual Instruction Tuning이 LMM 성능향상에 중요한 역할을 한다는 점을 입증
- LMM이 대규모의 vision-language alignment 사전학습이 반드시 필요하다는 통념에 의문을 제기
- 왜냐면 이미 비전인코더가 대규모 사전학습이 이루어진 상태니까
- LLaVA-1.5는 80B IDEFICS와 같은 거대 모델보다도 더 높은 성능
- 기존 모델이 사용하던 대규모 데이터 학습이나 vision sampler가 꼭 필요하지 않을 수 있음을 보여줌.
4.3 Emerging Properties
Format instruction generalization
- LLaVA-1.5는 제한된 수의 응답 형식(명령 프롬프트)만 학습했지만, 새로운 응답 형식에도 잘 적응하는 능력을 보여줌.
- VizWiz 데이터셋에는 “답할 수 없음” 이라는 답이 있는 경우가 있는데 모델에 명확한 응답형식과 관련된 프롬프트 제공한 결과 “답할 수 없음”이라고 답하는 비율이 11.1%에서 67.8%로 증가.
- 기타 tricky한 질문에 대한 답변도 성공적으로 수행
- JSON 형식으로 답변하라고 해도 잘함.
다국어 멀티모달 능력
- LLaVA-1.5는 다국어 멀티모달 instruction-following으로 파인튜닝되지 않았음에도 다국어 멀티모달 instruction-following 능력 갖춤
- 원인: ShareGPT 데이터에서 학습한 다국어 언어 명령의 영향
- ShareGPT 데이터는 이미지 없이 텍스트 명령만 포함되었지만 사용자의 언어에 따라 유연하게 대응하는 행동을 학습하도록 도움.
- 이 학습이 시각적 대화에도 전이된 것으로 보임.
- MMBench-CN 벤치마크(질문을 중국어로 변환한 데이터)에서 LLaVA-1.5의 성능을 평가했는데 중국어 instruction-following으로 파인튜닝된 Qwen-VL-Chat 보다 더 성능이 좋음 (63.6% vs 56.7%)
4.4 Ablation on LLM Choices
- 두 가지 LLM 계열 비교
- LLaMA 기반 모델(Vicuna-v1.1, Vicuna-v1.3)
- LLaMA-2 기반 모델(Vicuna-v1.5, LLaMA-2-Chat)
- 결과
- Vicuna-v1.5는 전체적으로 가장 성능이 높음
- LLaMA-2 기반 모델(Vicuna-v1.5, LLaMA-2-Chat)이 LLaMA-1 기반 모델보다 성능이 더 높음
- 결론: language instruction-tuning 데이터세트에 따라 모델의 특정 능력에 영향을 미침.
- 다국어 능력
- 영어로 평가된 MMBench에서는 Vicuna-v1.5와 LLaMA-2-Chat의 성능이 거의 비슷하지만 중국어버전(MMBench-CN)에서는 Vicuna-v1.5의 성능이 더 높음
- 원인:
- LLaMA-2-Chat은 영어 기반 데이터(SFT/RLHF)가 대부분이라 다국어 데이터가 부족
- 반면 Vicuna-v1.5는 ShareGPT로 훈련되었는데 ShareGPT 데이터는 다국어 명령이 포함되어 있어 Vicuna-v1.5의 다국어 능력이 더 우수.
- TextVQA
- TextVQA는 이미지 내부의 텍스트를 인식하고, OCR의 노이즈(잘못된 결과)를 처리해야 하는 작업
- ShareGPT 데이터는 ChatGPT의 실제 사용자 대화 데이터를 기반으로 하므로, 노이즈 처리 경험이 더 많아 TextVQA 같은 작업에서 더 유리
- 다국어 능력
5. Open Problems in LLMs
LLaVA-1.5를 확장하며, 모델 설계와 데이터 활용 방식을 기반으로 여전히 해결되지 않은 문제들을 연구한 결과
5.1 Data Efficiency
- LLaVA-1.5는 데이터를 효율적으로 사용하지만, 학습 시간이 기존 LLaVA보다 2배
- 실험: 데이터를 무작위로 줄여(50%, 30% 등) 학습 성능이 얼마나 유지되는지 테스트.
- 결과
- 50% 데이터만 사용해도 성능이 98% 이상 유지.
- 일부 벤치마크(MMBench, ScienceQA, POPE)에서는 데이터를 줄여도 성능이 전혀 떨어지지 않음.
- MMBench에서는 데이터 축소 후 오히려 성능이 약간 개선되기도 함.
- 의미: 멀티모달 모델에서도 적은 데이터로 더 큰 효과(Less-is-More)를 얻을 가능성이 있음.
5.2 Rethinking Hallucination in LLMs
- LMM에서 환각문제: “이미지를 상세히 설명하라”는 요청에서 잘못된 세부 정보를 생성.
- 발견 및 의미
- 입력 해상도를 448²로 확장하면 환각 문제 크게 감소 → LMMs가 학습 데이터의 몇 가지 오류에 대해 강건할 수 있음을 시사
- 입력 이미지의 품질(해상도)과 학습 데이터의 세부 정보 수준이 일치하지 않는 경우, 특히 이러한 불일치가 많은 데이터에서 발생하게 되면, 모델이 환각을 학습함 → 더 세부적인 데이터 주석을 개선하는 것과 모델이 이러한 세부 사항에서 정보를 적절히 처리할 수 있는 능력 간의 균형이 필요함을 시사
5.3 Compositional Capabilities
- 조합적 능력(Compositional Capabilies): 모델이 독립적으로 학습한 작업을 조합해 새로운 작업을 수행할 수 있는 능력.
- 발견
- ShareGPT 데이터를 학습한 후, 모델의 시각적 대화에서 언어능력이 향상되고 모델이 더 길고 상세한 대답을 생성. (+ 멀티모달 다국어 능력)
- academic-task-oriented datasets를 학습하면서 얻은 추가적인 시각적 지식이 모델을 향상시킴
- 하지만 특정 작업(예: VQA에서 속성 답변과 이미지 설명 연결)에선 성능이 부족하며 한국어 같은 특정 외국어 처리 능력도 여전히 뒤처짐.
- 결론적으로 모든 task에 대한 compositional 데이터 없이도 모델 성능 향상이 가능하다.
6. Conclusion
- LLaVA-1.5
- 복잡하지 않고, 적은 데이터로도 잘 작동하며, 효과적으로 멀티모달 작업을 수행할 수 있는 모델
- 사용자 명령을 더 잘 이해하고 적절히 응답하도록 함 (Visual Instruction Tuning)
- 고해상도 이미지를 다룰 수 있도록 확장
- LMM의 환각 문제를 고해상도 이미지를 사용하거나 데이터 품질을 개선함으로써 해결할 수 있다는 점 발견
- 모델이 독립적으로 학습한 여러 능력을 조합해 새로운 작업을 수행할 수 있는 능력 발견
- 한계
- 고해상도 이미지를 처리할 때 훈련 시간이 길어진다는 점.
- 다중 이미지 이해 능력의 부족.
- 특정 분야에서의 문제 해결 능력이 제한적이라는 점.
- 환각(hallucination)을 생성할 가능성