73 字

1 分钟

Visual Instruction Tuning

2025-11-04

2025-11-04

无标签

Visual Instruction Tuning#

Zotero attachment

主要是使用 CLIP 的 ViT 来当 visual encoder,然后使用一个投影层吧 ViT 的输出映射到 LLM 的 embedding 空间中。

其中训练氛围两步

冻结 ViT 和 LLM，只训练投影层，用来对其特征空间
训练投影层和 LLM

Visual Instruction Tuning

https://f1yingwhite.github.io/posts/machinelearning/nlp/llm/mllm/liuvisualinstructiontuning2023/

作者

F1yingWhite

发布于

2025-11-04

许可协议

CC BY-NC-SA 4.0

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

CVPR_2025_Synthetic_Data_is_an_Elegant_GIFT_for_Continual_Vision-Language_Models

Visual Instruction Tuning