Normalizaiton
自适应 层归一化(Adaptive Layer Normalization,adaLN)是一种归一化技术,用于 深度学习模型 中特征的标准化。它结合了传统的层归一化(Layer Normalization, LN)和自适应学习的特性,以提高模型在不同任务和数据集上的表现。
78 字
|
1 分钟
大模型扫盲
目前大模型没有什么新的技术,还是沿用最基础的 Transformer 架构,具有独特的 attention 机制,相当于给模型加强了理解能力,能对更多的词基于更高的关注度,同时该方法具有更好的并行和扩展性,能够处理更长的序列.
471 字
|
2 分钟
大模型词表
在文本输入 embedding 层之前,以中文文本为例,首先对文本进行分词并进行 one-hot 编码,分词肯定是根据词表来进行分词,那构建一个合适的词表就显得至关重要,过大或者过小都会对后续模型的训练效果产生影响。所以这里介绍当前各个大模型的词表构建方法。
1289 字
|
6 分钟
[[Vitron.pdf|Vitron]]
Vitron 在前端采用了集合了 image,video,像素级别的视觉 encoder.在后端集成了最专业的视觉专家,让 Vitron 覆盖了基本所有的视觉任务。为了确保从 LLM 到后端模块进行功能调用时有效且精确的信息传递,通过同时整合离散的文本指令和连续的信号嵌入我们提出了一种新颖的混合方法。此外,我们设计了多种像素级时空视觉语言对齐学习,以使 VITRON 达到最佳的细粒度视觉能力。最后,建议一个跨任务协同模块,以学习最大化任务不变的细粒度视觉特征,增强不同视觉任务之间的协同。
2028 字
|
10 分钟
OFA-达摩院多模态模型
通用统一的预训练大模型逐渐变成 AI 研究热潮之一.大规模多模态预训练已经成为未来 AI 的基础设施,AI 模型也变得更加通用统一,通用统一的预训练大模型也已成为当前 AI 研究的一大趋势.
2596 字
|
13 分钟
