Paper Review

[Paper Review] Improved Baselines with Visual Instruction Tuning (LLaVA-1.5)

seunkorea 2025. 2. 23. 22:23

 

2024 CVPR | Paper

✅ Summary
1. 구조가 간단하고, 적은 데이터로도 높은 성능을 달성한 오픈소스 LMM 모델 LLaVA-1.5 제안.
2. Visual Instruction Tuning, 고해상도 이미지 처리, 환각 문제, Compositional Capabilities 등 LMM 설계와 성능에 영향을 미치는 요소 분석함.


1. Introduction

연구배경

  • 대규모 멀티모달 모델(LMM)은 범용 어시스턴트를 목표로 연구되며, 핵심 개념으로 Visual Instruction Tuning이 주목받고 있음.
  • LLaVA, MiniGPT-4 등의 모델이 자연스러운 Instruction-Following 능력 및 시각적 추론에서 성과를 보임.
  • 기존 연구는 사전 학습 데이터, Instruction-Following 데이터, 시각적 인코더, 언어 모델 확장을 통해 성능을 향상시킴.
  • 그러나 기존 연구들이 여러 요소를 통해 성능을 개선했지만, 어떤 요소가 실제 성능 향상의 주요 원인인지 명확하지 않으며 범용 어시스턴트를 훈련하는 최적의 방법론은 밝혀지지 않음.

 

주요 연구내용

  1. 기존 LLaVA 모델 분석 및 개선된 모델(LLaVA-1.5) 제안
    • 기존 LLaVA 모델이 적은 데이터로 강력한 성능을 낸 것을 참고해서 기존 LLaVA 모델을 개선
    • 두 가지 주요 개선을 통해 LLaVA-1.5 제안
      1. MLP cross-modal connector 도입
      2. VQA와 같은 학문적 task와 관련된 데이터 통합
  2. 효율적인 훈련
    • InstructBLIP이나 Qwen-VL에서 수백만~수십억 이미지-텍스트 쌍 데이터를 사용해서 복잡한 visual resampler를 훈련시키는 대신
    • LLaVA의 간단한 아키텍처를 사용해서 60만개의 이미지-텍스트 쌍 데이터만 사용하여 간단한 fully connected proejction layer만 훈련시킴
    • 단일 8-A100 GPU에서 하루 만에 훈련 가능.
    • 공개 데이터만 활용
  3. LMM 설계와 성능에 영향을 미치는 요소 분석
    1. Scaling to high-resolution image inputs
      • LLaVA 모델의 설계는 이미지를 그리드(격자) 형태로 나눠 처리하기 때문에 고해상도 이미지를 입력으로 받을 때도 유연하게 대응가능
      • 고해상도 이미지 처리가 가능하기 때문에 세부 인식 능력이 향상되고 환각 문제 감소.
    2. Compositional Ability
      • 서로 다른 작업을 결합해 학습하면 모델의 종합적인 추론 능력텍스트 생성 능력이 향상됨.
      • 예를 들어, 짧은 시각적 추론(이미지 내 간단한 요소를 분석하는 작업)과 장문 언어 추론(복잡한 텍스트 생성)을 함께 훈련하면, 모델이 멀티모달 질문(이미지와 텍스트가 결합된 질문)에 대해 더 나은 답변이 생성됨.
    3. Data Efficiency
      • LLaVA 모델의 훈련 데이터 중 최대 75%를 무작위로 제거해도 성능이 크게 감소하지 않음을 발견
      • 데이터가 꼭 많아야만 좋은 성능을 내는 것이 아니라, 효율적으로 설계된 데이터와 모델 구조가 더 중요한 역할을 할 수 있음.
    4. Data Augmentation
      • 데이터를 잘 설계하고 확장하면 모델 성능이 좋아지고 부작용(hallucination) 없이 안정적으로 개선됨.

 

주요성과

LLaVA-1.5는

  • 11개 작업에서 SOTA 달성
  • 간단한 아키텍처로도 데이터 효율성과 훈련 효율성 극대화
  • 공개 데이터만 사용

→ 기존 접근법의 한계를 재고하여 멀티모달 모델 훈련의 효율성과 확장 가능성을 개선하는 새로운 기준선을 제시.

 


2. Related Works

Instruction-following LMMs

  • 모델 아키텍처
    1. Visual Backbone(~= Encoder): 이미지 같은 시각적 데이터를 이해하는 부분
    2. LLM: 사용자의 명령을 이해하고 이에 맞는 텍스트 응답을 생성하는 부분.
    3. Visual-Language Connector: Visual Encoder의 출력과 LLM을 정렬하는 부분
    → LLaVA 모델은 이런 구조를 가장 간단하게 구현 (이미지 데이터의 크기를 줄이는 Qformer 같은 복잡한 구조를 사용하지 않음)

 

 

  • Instruction-following LMM 훈련과정
    1. Vision-Language Alignment Pretraining:
      이미지-텍스트 쌍 데이터를 사용해서 시각 데이터를 언어 모델이 이해할 수 있는 방식으로 변환.
    2. Visual Instruction Tuning: 모델이 시각정보와 관련된 사용자의 지시를 잘 따르도록 튜닝

 

  • 고해상도 이미지 처리: 이미지를 그리드로 나눠 고해상도 데이터를 효율적으로 처리하는 방법이 연구중.

 

Multimodal Instruction-following data

  • Instruction-following 데이터의 품질이 모델의 Instruction-following 성능에 크게 영향을 미침
  • LLaVA의 접근: 기존의 COCO 데이터셋을 GPT-4를 이용해서 대화형 QA, 디테일한 묘사, 복잡한 추론과 같은 데이터 유형의 데이터로 확장
  • InstructinBLIP의 접근: 학문적 task를 지향하는 VQA 데이터셋을 사용해서 모델 성능을 강화 → 하지만 단순히 데이터를 합치기만 하면 특정 VQA 데이터셋에 과적합되었음. (자연스러운 대화 성능 저하)
  • 이를 해결하기 위해 본 논문에서는 LLaVA 파이프라인을 활용해서 VQA 데이터를 대화형으로 변환하는 방식 사용
  • NLP 분야에서 FLAN 연구가 대량의 학문적 task 데이터를 추가해서 모델의 일반화 능력을 향상시킨 것처럼 멀티모달에서도 자연스러운 대화 능력과 학문적 task를 모두 잘 처리하도록 균형을 맞추는 부분을 더 연구해야함.

3. Approach

3.1 Preliminaries

LLaVA의 강점과 한계:

  • 강점: 실생활 Visual Instruction task에서 뛰어난 성능을 보임.
  • 한계: 단답형 응답(예: 단어 하나)을 요구하는 학문적 벤치마크에서는 성능이 부족하며 학습데이터 부족으로 예/아니오 질문에서 “예”로 답하는 경향이 있음.

InstructBLIP의 강점과 한계:

  • 강점: VQA-v2와 같은 학문적 데이터세트를 통합하여 VQA 벤치마크에서 좋은 성능을 발휘.
  • 한계: 단답형 데이터에 과적합되어 상세한 응답이 필요한 실생활 시각적 대화 성능은 떨어짐.
    • InstructBLIP은 자연스러운 응답과 short-answer을 포함하는 instruction-following 데이터를 사용했으나 두 응답 형식 간의 균형을 잘 맞추지 못하는 문제가 있었음.

 

 

3.2 Response Format Prompting

InstructBLIP과 같은 접근 방식이 단답형 응답(short answers)과 장문형 응답(long-form responses) 간의
균형을 유지하지 못하는 이유:

  1. 응답 포맷에 대한 애매한 프롬프트:
    1. 원하는 출력 형식을 명확히 지시하지 않아 단답형 응답에 과적합될 가능성이 큼
  2. LLM 파인튜닝 부족: :
    1. InstructionBLIP은 Instruction-tuning을 위해 Q-former만 파인튜닝함
    2. Qformer의 역할 중 하나는 LLM의 응답 길이를 제어하는 것(장문/단답형 응답을 결정하는 것)
    3. Qformer는 LLM보다 능력이 제한적이기 때문에 Qformer 하나만으로는 응답의 길이나 형식을 제대로 제어하기 어려움.

 

제안된 방법론

  • Response Format Prompting(응답 포맷을 명확하게 나타내는 프롬프트) 사용
  • 질문 끝에 “질문에 단어 또는 구를 사용하여 답변하십시오”라는 프롬프트를 추가하여 원하는 출력 형식을 명확히 지시.
  • LLM을 이러한 프롬프트로 파인튜닝해서 응답 형식을 상황에 맞게 조정할 수 있도록 개선.

 

결과

  • LLM을 이런 프롬프트로 학습시키면, LLaVA가 사용자의 요청에 맞게 응답 형식을 적절히 조정할 수 있게 됨.
  • ChatGPT를 사용해서 데이터를 확장하지 않아도 다양한 데이터 소스를 처리 가능.
  • 단순히 VQA v2 데이터만 추가해도, LLaVA의 성능향상 (MME 성능점수: 809.6 → 1328.8, InsturctBLIP보다 111점 높은 점수)

 

3.3 Scaling the Data and Model

MLP Vision-Language Connector

  • 기존: Linear Projection → 변경후 : 이중 레이어 MLP
  • 효과: 멀티모달 처리능력 향상

학문 task 지향 데이터(Academic task oriented data) 확장

  • InstructBLIP에서 사용된 VQA 및 OCR 데이터 일부를 추가
  • 추가로 region-level perception 데이터(Visual Genome, RefCOCO)를 사용해 모델이 세부적인 시각적 정보를 로컬라이징 하는 능력 강화

Additional scaling

  • 입력 이미지 해상도를 336²로 확장
    • 비전 인코더를 CLIP-ViT-L-336px(현재 CLIP에서 사용 가능한 최고 해상도)로 교체
    • 효과: 세부사항 인식 능력을 강화
  • GQA 데이터 추가: 추가적인 시각적 정보 소스(visual knowledge source)로 사용
    • 비전 인코더와 LLM 파인튜닝, 그 사이의 align 과정에 사용됐다고 이해함.
  • ShareGPT 데이터 추가: LLM의 대화능력 향상을 위해 사용
  • LLM 13B 확장: 이 경우 가장 큰 성능 향상을 보여주었으며 기본적인 Visual conversation은 베이스 LLM의 능력이 중요함을 시사.

LLaVA-1.5

  • 이러한 모든 수정 사항을 포함한 최종 모델을 LLaVA-1.5라고 명명(Table 2의 마지막 두 줄)

 

Computational Cost

  • LLaVA-1.5는 LLaVA와 최대한 학습 조건을 비슷하게 설정했지만
  • 이미지 입력 해상도 증가로 학습시간 약 2배 증가
    • 사전학습 6시간, Visual instruction tuning 20시간 (8×A100 GPU 사용.)
      • 기존: Linear Projection → 변경후 : 이중 레이어 MLP
      • 효과: 멀티모달 처리능력 향상

 

3.4 Scaling to higher resolutions

  • 입력 이미지 해상도를 확장하면 모델의 성능이 향상
  • 하지만 기존 오픈소스 CLIP 비전 인코더의 경우 336×336 해상도까지만 지원
  • 더 높은 해상도의 이미지를 처리하려면 단순히 인코더를 바꾸는 방식만으로는 해결 불가능

 

  • 일반적으로 ViT 기반 비전 인코더의 해상도를 늘리려면 위치 임베딩 보간(positional embedding interpolation) 방식이나
    파인튜닝으로 할 수 있지만
  • 이런 방법은 추가 학습 데이터와 시간이 많이 필요하고 추론할 때 고정된 해상도만 지원해서 유연성이 떨어짐

 

  • 제안된 방법: 이미지를 패치로 나눠서 처리

 

  1. 이미지를 작은 패치로 나눔
  2. 각각의 패치를 기존의 비전인코더로 독립적으로 인코딩
  3. 인코딩된 결과(피처맵)를 합쳐 하나의 큰 이미지 피처맵으로 만듬
  4. 추가로, 이미지를 패치로 나누면서 생길 수 있는 정보손실이나 부작용을 예방하기 위해 원본 이미지 전체를 다운샘플링해서 인코딩하고 3에 concatenate (글로벌 컨텍스트 추가)
  5. 합쳐진 피처맵을 LLM 입력으로 사용

→ 효과: 임의의 해상도 이미지처리 가능 및 모델 성능 개선 (LLaVA-1.5-HD라고 명명)

 


 

4. Empirical Evaluation

4.1 Benchmarks

  • LLaVA-1.5 모델의 성능을 확인하기 위해, 12개의 벤치마크에서 다양한 작업을 평가 진행
  • 벤치마크는 크게 두 가지 카테고리로 나뉨:
    1. academic-task-oriented benchmarks
    2. LMMs instruction-following benchmarks
  • 모델이 학문적 문제 해결과 실생활 대화에서 모두 잘 작동하는지 종합적으로 평가하도록 함
  1. academic-task-oriented benchmarks
    • 주로 단답형 응답이나 특정 작업에 모델이 얼마나 잘 대처하는지 평가
    • VQA-v2, GQA (이미지 기반 질문에 대한 단답식 응답), VizWiz(시각장애인 질문데이터로 제로샷 학습 평가), ScienceQA(과학분야 질문 다지선다형), TextVQA(텍스트가 많은 이미지)
  2. LMMs instruction-following benchmarks
    • 모델이 실생활 시각 대화에서 얼마나 잘 작동하는지를 평가.
    • POPE, MME-Perception, MMBench, MMBench-CN, SEED-Bench, LLaVA-Bench-in-the-Wild, MM-Vet

 

4.2 Results

 

  • LLaVA-1.5는 12개의 평가 벤치마크에서 최고의 성능
  • LLaVA-1.5-HD는 성능이 더 향상되었으며, 특히 이미지 세부정보를 다루는 OCR 같은 작업에서 큰 폭으로 개선
  • 글로벌 컨텍스트 추가시 이미지를 split-and-merge하는 과정에서 발생하는 정보손실 같은 부작용을 줄일 수 있음을 발견

  • LLaVA-1.5는 단순한 아키텍처, 일반적인 컴퓨팅 자원, 그리고 공개 데이터로도 최고의 성능을 달성
  • → 연구자들이 이 모델을 저비용으로 재현 가능하게 만들어 연구에 큰 도움이 될 수 있음.
  • Visual Instruction Tuning이 LMM 성능향상에 중요한 역할을 한다는 점을 입증
    • LMM이 대규모의 vision-language alignment 사전학습이 반드시 필요하다는 통념에 의문을 제기
    • 왜냐면 이미 비전인코더가 대규모 사전학습이 이루어진 상태니까
  • LLaVA-1.5는 80B IDEFICS와 같은 거대 모델보다도 더 높은 성능
    • 기존 모델이 사용하던 대규모 데이터 학습이나 vision sampler가 꼭 필요하지 않을 수 있음을 보여줌.

 

4.3 Emerging Properties

Format instruction generalization

  • LLaVA-1.5는 제한된 수의 응답 형식(명령 프롬프트)만 학습했지만, 새로운 응답 형식에도 잘 적응하는 능력을 보여줌.
  • VizWiz 데이터셋에는 “답할 수 없음” 이라는 답이 있는 경우가 있는데 모델에 명확한 응답형식과 관련된 프롬프트 제공한 결과 “답할 수 없음”이라고 답하는 비율이 11.1%에서 67.8%로 증가.
  • 기타 tricky한 질문에 대한 답변도 성공적으로 수행

  • JSON 형식으로 답변하라고 해도 잘함.

 

다국어 멀티모달 능력

  • LLaVA-1.5는 다국어 멀티모달 instruction-following으로 파인튜닝되지 않았음에도 다국어 멀티모달 instruction-following 능력 갖춤
  • 원인: ShareGPT 데이터에서 학습한 다국어 언어 명령의 영향
    • ShareGPT 데이터는 이미지 없이 텍스트 명령만 포함되었지만 사용자의 언어에 따라 유연하게 대응하는 행동을 학습하도록 도움.
    • 이 학습이 시각적 대화에도 전이된 것으로 보임.
  • MMBench-CN 벤치마크(질문을 중국어로 변환한 데이터)에서 LLaVA-1.5의 성능을 평가했는데 중국어 instruction-following으로 파인튜닝된 Qwen-VL-Chat 보다 더 성능이 좋음 (63.6% vs 56.7%)

 

4.4 Ablation on LLM Choices

  • 두 가지 LLM 계열 비교
    1. LLaMA 기반 모델(Vicuna-v1.1, Vicuna-v1.3)
    2. LLaMA-2 기반 모델(Vicuna-v1.5, LLaMA-2-Chat)

 

  • 결과

 

  • Vicuna-v1.5는 전체적으로 가장 성능이 높음
  • LLaMA-2 기반 모델(Vicuna-v1.5, LLaMA-2-Chat)이 LLaMA-1 기반 모델보다 성능이 더 높음

 

  • 결론: language instruction-tuning 데이터세트에 따라 모델의 특정 능력에 영향을 미침.
    • 다국어 능력
      • 영어로 평가된 MMBench에서는 Vicuna-v1.5와 LLaMA-2-Chat의 성능이 거의 비슷하지만 중국어버전(MMBench-CN)에서는 Vicuna-v1.5의 성능이 더 높음
      • 원인:
        • LLaMA-2-Chat은 영어 기반 데이터(SFT/RLHF)가 대부분이라 다국어 데이터가 부족
        • 반면 Vicuna-v1.5는 ShareGPT로 훈련되었는데 ShareGPT 데이터는 다국어 명령이 포함되어 있어 Vicuna-v1.5의 다국어 능력이 더 우수.
    • TextVQA
      • TextVQA는 이미지 내부의 텍스트를 인식하고, OCR의 노이즈(잘못된 결과)를 처리해야 하는 작업
      • ShareGPT 데이터는 ChatGPT의 실제 사용자 대화 데이터를 기반으로 하므로, 노이즈 처리 경험이 더 많아 TextVQA 같은 작업에서 더 유리

 


5. Open Problems in LLMs

LLaVA-1.5를 확장하며, 모델 설계와 데이터 활용 방식을 기반으로 여전히 해결되지 않은 문제들을 연구한 결과

 

5.1 Data Efficiency

  • LLaVA-1.5는 데이터를 효율적으로 사용하지만, 학습 시간이 기존 LLaVA보다 2배
  • 실험: 데이터를 무작위로 줄여(50%, 30% 등) 학습 성능이 얼마나 유지되는지 테스트.
  • 결과
    1. 50% 데이터만 사용해도 성능이 98% 이상 유지.
    2. 일부 벤치마크(MMBench, ScienceQA, POPE)에서는 데이터를 줄여도 성능이 전혀 떨어지지 않음.
    3. MMBench에서는 데이터 축소 후 오히려 성능이 약간 개선되기도 함.
  • 의미: 멀티모달 모델에서도 적은 데이터로 더 큰 효과(Less-is-More)를 얻을 가능성이 있음.

 

5.2 Rethinking Hallucination in LLMs

  • LMM에서 환각문제: “이미지를 상세히 설명하라”는 요청에서 잘못된 세부 정보를 생성.
  • 발견 및 의미
    1. 입력 해상도를 448²로 확장하면 환각 문제 크게 감소 → LMMs가 학습 데이터의 몇 가지 오류에 대해 강건할 수 있음을 시사
    2. 입력 이미지의 품질(해상도)과 학습 데이터의 세부 정보 수준이 일치하지 않는 경우, 특히 이러한 불일치가 많은 데이터에서 발생하게 되면, 모델이 환각을 학습함 → 더 세부적인 데이터 주석을 개선하는 것과 모델이 이러한 세부 사항에서 정보를 적절히 처리할 수 있는 능력 간의 균형이 필요함을 시사

 

5.3 Compositional Capabilities

  • 조합적 능력(Compositional Capabilies): 모델이 독립적으로 학습한 작업을 조합해 새로운 작업을 수행할 수 있는 능력.
  • 발견
    1. ShareGPT 데이터를 학습한 후, 모델의 시각적 대화에서 언어능력이 향상되고 모델이 더 길고 상세한 대답을 생성. (+ 멀티모달 다국어 능력)
    2. academic-task-oriented datasets를 학습하면서 얻은 추가적인 시각적 지식이 모델을 향상시킴
    3. 하지만 특정 작업(예: VQA에서 속성 답변과 이미지 설명 연결)에선 성능이 부족하며 한국어 같은 특정 외국어 처리 능력도 여전히 뒤처짐.
  • 결론적으로 모든 task에 대한 compositional 데이터 없이도 모델 성능 향상이 가능하다.

 


6. Conclusion

  • LLaVA-1.5
    • 복잡하지 않고, 적은 데이터로도 잘 작동하며, 효과적으로 멀티모달 작업을 수행할 수 있는 모델
    • 사용자 명령을 더 잘 이해하고 적절히 응답하도록 함 (Visual Instruction Tuning)
    • 고해상도 이미지를 다룰 수 있도록 확장
    • LMM의 환각 문제를 고해상도 이미지를 사용하거나 데이터 품질을 개선함으로써 해결할 수 있다는 점 발견
    • 모델이 독립적으로 학습한 여러 능력을 조합해 새로운 작업을 수행할 수 있는 능력 발견
  • 한계
    1. 고해상도 이미지를 처리할 때 훈련 시간이 길어진다는 점.
    2. 다중 이미지 이해 능력의 부족.
    3. 특정 분야에서의 문제 해결 능력이 제한적이라는 점.
    4. 환각(hallucination)을 생성할 가능성