전체

· Paper Review
2024 | ArXiv ✅ Summary효율적인 Vision-Language 학습을 위한 오픈소스 LMM DeepSeek-VL 제안. 하이브리드 비전 인코더(SigLIP+SAM), 모달리티 워밍업 전략, 최적화된 VL 어댑터 설계를 통해 고해상도 이미지 처리, 언어 능력 유지, 멀티모달 균형 조정을 달성. 다양한 벤치마크에서 기존 오픈소스 모델을 능가하며, 일부 태스크에서 GPT-4V에 근접한 성능을 보임. 1. Introduction연구배경 및 필요성: 오픈소스 모델과 독점 모델 간 격차GPT-4V, Gemini 등 대규모 멀티모달 모델(LMM)이 등장오픈소스 LMM들이 빠르게 발전하고 있지만 실제 성능 및 사용자 경험 측면에서 폐쇄형 모델과 큰 격차 존재.주요원인:사전 훈련(pretraining) 부..
· Paper Review
2024 CVPR | Paper✅ Summary1. 구조가 간단하고, 적은 데이터로도 높은 성능을 달성한 오픈소스 LMM 모델 LLaVA-1.5 제안.2. Visual Instruction Tuning, 고해상도 이미지 처리, 환각 문제, Compositional Capabilities 등 LMM 설계와 성능에 영향을 미치는 요소 분석함.1. Introduction연구배경대규모 멀티모달 모델(LMM)은 범용 어시스턴트를 목표로 연구되며, 핵심 개념으로 Visual Instruction Tuning이 주목받고 있음.LLaVA, MiniGPT-4 등의 모델이 자연스러운 Instruction-Following 능력 및 시각적 추론에서 성과를 보임.기존 연구는 사전 학습 데이터, Instruction-Follo..
· Project
Retrieval-Augmented Generation(RAG) 개념부터 RAG 관련 파이썬 모듈을 제공하는 LangChain 프레임워크 파이프라인까지 살펴보도록 하겠습니다. What is RAG? RAG는 Retrieval-Augmented Generation의 약자로 LLM에 외부 지식소스를 연결해서 LLM의 답변 생성에 추가적인 정보를 사용하는 개념입니다. Background 그렇다면 RAG는 왜 사용하는 것일까요? LLM의 훈련데이터에는 아주 최신의 데이터나 개인이 가지고 있는 자료 그리고 domain-specific한 정보는 거의 포함되어 있지 않습니다. 포함된다고 할지라도 포함된 양이 적어 사용자의 입력 프롬프트에 대해서 확률이 가장 높은 텍스트를 반환하는 LLM 특성상 이러한 프롬프트에 대한..
· Paper Review
2022 CVPR. [ArXiv] [GitHub] 이번 글에서는 Stable Diffusion 논문리뷰를 진행하겠습니다 :) ※ 해당 논문을 이해하기 위해서는 Diffusion Model에 대한 배경지식이 필요합니다. ✅ Key Idea 1. 기존 픽셀공간에서의 Diffusion Model 연산을 Latent Space로 매핑하여 기존 모델에 요구되는 자원보다 훨씬 적은 자원만으로 고퀄리티의 이미지 생성가능 2. 모델이 매우 light: 기존 모델과는 다르게 8GM VRAM만으로 이미지 생성가능 Introduction 기존 Diffusion Model(GLIDE, Imagen, DALLE2 등 ...)들은 이미지 생성분야에서 좋은 성능을 보여왔습니다. 하지만 이러한 기존 Diffusion 모델들은 직접적..
· Paper Review
2023 CVPR. [ArXiv] [GitHub] [WebSite] 이번 글에서는 Google Research에서 발표한 DreamBooth 논문을 리뷰하겠습니다 :) ✅ Key Idea 1. text-to-image diffusion 모델의 subject-driven generation(personalization) task 제시 2. 특정 피사체에 대한 이미지 몇 장이 주어졌을 때 텍스트 프롬프트로 가이드한 부분을 높은 디테일 fidelity로 생성 (by. fine-tuning) 3. subject를 unique identifier에 바인딩해서 text-to-image 모델의 출력 도메인에 주어진 subject의 instance를 임베딩 4. class-specific prior presevatio..
· Paper Review
2023 CVPR. [ArXiv] [GitHub] 이번 글에서는 제로샷 Image Captioning 모델에 제어요소를 도입한 ConZIC(Controllable Zero-shot IC) 논문리뷰를 진행하겠습니다. ✅ Key Idea 1. 최초의 제로샷 IC에 제어요소를 도입 2. Gibbs sampling과 MLM의 관계를 분석해서 새로운 LM, Gibbs-BERT 제안 3. 이를 CLIP과 결합해서 Controllable Zero-shot IC, ConZIC 개발 1. Introduction 이미지 캡셔닝(Image Captioning, IC)은 VL(visual-language) task로 이미지를 묘사하는 문장을 생성하는 것이 목표입니다. IC task를 수행하기 위해서 human-annotate..
seunkorea
'분류 전체보기' 카테고리의 글 목록