🐐LLaVA: Large Language and Vision Assistant

针对具有 GPT-4 级别功能的大型语言和视觉模型进行视觉指令调整。

论文： Visual Instruction Tuning --能不能instruction tuning everything

训练资源消耗

LLaVA 训练由两个阶段组成：（1）特征对齐阶段：使用大约 600K 过滤的 CC3M 将冻结的预训练视觉编码器连接到冻结的 LLM；(2)视觉指令调优阶段：使用150K GPT生成的多模态指令跟随来教导模型遵循多模态指令。

LLaVA 在 8 个具有 80GB 内存的 A100 GPU 上进行训练。要在更少的 GPU 上进行训练，您可以相应地减少per_device_train_batch_size和增加gradient_accumulation_steps。始终保持全局批量大小相同：per_device_train_batch_sizex gradient_accumulation_steps。

PreviousMLLM NextSurveys

Last updated 1 year ago