73 字
1 分钟
Visual Instruction Tuning
2025-11-04
2025-11-04
无标签

Visual Instruction Tuning#

Zotero attachment

image.png

主要是使用 CLIP 的 ViT 来当 visual encoder,然后使用一个投影层吧 ViT 的输出映射到 LLM 的 embedding 空间中。

其中训练氛围两步

  1. 冻结 ViT 和 LLM,只训练投影层,用来对其特征空间
  2. 训练投影层和 LLM
Visual Instruction Tuning
https://f1yingwhite.github.io/posts/machinelearning/nlp/llm/mllm/liuvisualinstructiontuning2023/
作者
F1yingWhite
发布于
2025-11-04
许可协议
CC BY-NC-SA 4.0