AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

DiT 视觉 Transformer 扩散模型 DiT · Diffusion Transformer

将 Transformer 架构直接用于图像扩散过程的一类模型,被视作 Stable Diffusion 等 CNN 结构的替代方案。

分类:multimodal 类型:model 别名:DiT, Diffusion Transformer

DiT(Diffusion Transformer)用纯 Transformer 取代 U-Net 等卷积结构来建模扩散过程中的噪声预测,利用自注意力在空间和通道维度建模长程依赖。实验表明,在足够的计算预算下,DiT 在图像生成质量上可以与或超过传统扩散架构。

该方向也推动了「一统」文本与图像建模架构的尝试,使得多模态系统在技术栈上更趋一致。

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记