2024-11-15感知智能组会汇报

一、近期工作

Image Generation vs Image Reconstruction

Image Generation：指通过算法从零开始生成新的图像，通常基于一些输入条件（如文本描述、特定样式、语义信息）或随机噪声（如生成对抗网络的输入）。目的是创造出逼真的、具有特定特征的图像。
- 无条件生成是指无条件地从数据集中生成样本，即：$p(y)$；
- 条件图像生成（子任务）是指根据标签有条件地从数据集中生成样本，即：p(y|x)
Image Reconstruction：指从已有的、可能损坏、不完整或压缩的图像数据中恢复原始图像，或者从观测数据中重建图像。目标是尽可能还原出真实图像。

特性	图像生成 (Image Generation)	图像重建 (Image Reconstruction)
输入	随机噪声、文本或条件标签等	受损图像、不完整数据（如低分辨率图像、部分丢失的像素、模糊图像）
输出	全新的图像，可能是艺术性的、合成的或逼真的	修复后的图像，接近原始清晰图像
目标	目标是创造性地生成新图像，关注生成图像的多样性和真实性；注重图像的视觉质量、逼真度以及与输入条件的匹配度。	目标是恢复或重建图像，尽可能减少噪声、模糊和失真；注重恢复的准确性和保真度，强调与真实图像的接近程度。
技术方法	典型方法包括生成对抗网络（GANs）、变分自编码器（VAEs）、扩散模型、条件生成模型等	通常基于优化和重建技术，包括卷积神经网络（CNNs）、自编码器（Autoencoders）、逆问题求解方法（如去噪、自适应插值）、正则化技术等
应用场景	数字艺术与内容创作（如DALL·E、Stable Diffusion）、数据增强（为训练AI生成多样化样本）、虚拟世界构建（如游戏、元宇宙）、图像翻译（风格迁移、照片转漫画）	医学成像（如CT/MRI图像修复）、摄影中的图像去噪、超分辨率重建、遥感影像处理（如卫星图像云层去除）、逆向工程（如压缩图片的质量恢复）

图像生成更侧重创新性，图像重建更注重还原性，但两者都在提升图像质量和智能处理方面发挥着重要作用。

我们所希望做的特征还原/图像补全/遮挡还原更倾向于Image Reconstruction部分的内容，但可以同时借鉴Generation和Reconstruction两个部分的内容展开。

为了实现我们想要的部分，最好是找reconstruction领域去finetune的合理方法以及在generation领域的创新模块表示。除此之外，在segmentation领域找到优化的方案。

阅读《Structure Matters: Tackling the Semantic Discrepancy in Diffusion Models for Image Inpainting》以及所总结的和自己相关方向的论文