4.2 KiB
4.2 KiB
2024-11-15感知智能组会汇报
一、近期工作
Image Generation vs Image Reconstruction
- Image Generation:指通过算法从零开始生成新的图像,通常基于一些输入条件(如文本描述、特定样式、语义信息)或随机噪声(如生成对抗网络的输入)。目的是创造出逼真的、具有特定特征的图像。
- 无条件生成是指无条件地从数据集中生成样本,即:$p(y)$;
- 条件图像生成(子任务)是指根据标签有条件地从数据集中生成样本,即:
p(y|x)
- Image Reconstruction:指从已有的、可能损坏、不完整或压缩的图像数据中恢复原始图像,或者从观测数据中重建图像。目标是尽可能还原出真实图像。
特性 | 图像生成 (Image Generation) | 图像重建 (Image Reconstruction) |
---|---|---|
输入 | 随机噪声、文本或条件标签等 | 受损图像、不完整数据(如低分辨率图像、部分丢失的像素、模糊图像) |
输出 | 全新的图像,可能是艺术性的、合成的或逼真的 | 修复后的图像,接近原始清晰图像 |
目标 | 目标是创造性地生成新图像,关注生成图像的多样性和真实性;注重图像的视觉质量、逼真度以及与输入条件的匹配度。 | 目标是恢复或重建图像,尽可能减少噪声、模糊和失真;注重恢复的准确性和保真度,强调与真实图像的接近程度。 |
技术方法 | 典型方法包括生成对抗网络(GANs)、变分自编码器(VAEs)、扩散模型、条件生成模型等 | 通常基于优化和重建技术,包括卷积神经网络(CNNs)、自编码器(Autoencoders)、逆问题求解方法(如去噪、自适应插值)、正则化技术等 |
应用场景 | 数字艺术与内容创作(如DALL·E、Stable Diffusion)、数据增强(为训练AI生成多样化样本)、虚拟世界构建(如游戏、元宇宙)、图像翻译(风格迁移、照片转漫画) | 医学成像(如CT/MRI图像修复)、摄影中的图像去噪、超分辨率重建、遥感影像处理(如卫星图像云层去除)、逆向工程(如压缩图片的质量恢复) |
图像生成更侧重创新性,图像重建更注重还原性,但两者都在提升图像质量和智能处理方面发挥着重要作用。
我们所希望做的特征还原/图像补全/遮挡还原更倾向于Image Reconstruction部分的内容,但可以同时借鉴Generation和Reconstruction两个部分的内容展开。
- 从Image Generation的角度:关注补全的多样性和合理性
- 全局理解:
- MAE需要通过观察未遮挡部分来推测被遮挡区域的内容,这需要全局上下文信息的支持,与图像生成中的全局一致性思路相似。
- 补全结果不仅要像原图,还需要自然、符合上下文逻辑。
- 潜在表征学习:
- MAE利用自监督学习,类似生成任务中的生成网络,通过学习隐藏空间(latent space)中的表征来预测缺失区域的可能内容。
- 去噪补全:
- 与扩散模型类似,MAE可以从不确定性的潜在空间中逐步补全遮挡区域。
- 全局理解:
- 从Image Reconstruction的角度:注重还原真实性
- 输入部分:
- MAE的输入是遮挡了部分像素的图像,这与图像重建任务中不完整图像作为输入相似。
- 模型需要从局部上下文信息中恢复被遮挡的区域,这与图像重建强调从不完整数据中提取有用信息的思路一致。
- 目标:
- 恢复缺失的像素,使得补全后的图像尽可能接近原始图像,注重重建的保真度。
- MAE的设计目标是通过有效的编码和解码过程,使模型学会图像的局部与整体关系。
- 输入部分:
为了实现我们想要的部分,最好是找reconstruction领域去finetune的合理方法以及在generation领域的创新模块表示。除此之外,在segmentation领域找到优化的方案。
二、未来规划
阅读《Structure Matters: Tackling the Semantic Discrepancy in Diffusion Models for Image Inpainting》以及所总结的和自己相关方向的论文