Report/Docs/2024-11-15/report_1115.md

# 2024-11-15感知智能组会汇报
# 一、近期工作
   **Image Generation** vs **Image Reconstruction**
   * **Image Generation**：指通过算法从零开始生成新的图像，通常基于一些输入条件（如文本描述、特定样式、语义信息）或随机噪声（如生成对抗网络的输入）。目的是创造出逼真的、具有特定特征的图像。
       * **无条件生成**是指无条件地从数据集中生成样本，即：$p(y)$；
       * **条件图像生成**（子任务）是指根据标签有条件地从数据集中生成样本，即：$p(y|x)$
   * **Image Reconstruction**：指从已有的、可能损坏、不完整或压缩的图像数据中恢复原始图像，或者从观测数据中重建图像。目标是尽可能还原出真实图像。

| **特性**   | 图像生成 (Image Generation) | 图像重建 (Image Reconstruction)   |
|--------|------|--------|
| **输入**  | 	随机噪声、文本或条件标签等   | 受损图像、不完整数据（如低分辨率图像、部分丢失的像素、模糊图像）   |
| **输出**  | 全新的图像，可能是艺术性的、合成的或逼真的   | 修复后的图像，接近原始清晰图像   |
| **目标**  | 目标是创造性地生成新图像，关注生成图像的多样性和真实性；注重图像的视觉质量、逼真度以及与输入条件的匹配度。   | 目标是恢复或重建图像，尽可能减少噪声、模糊和失真；注重恢复的准确性和保真度，强调与真实图像的接近程度。 |
| **技术方法**  | 典型方法包括生成对抗网络（GANs）、变分自编码器（VAEs）、扩散模型、条件生成模型等   | 通常基于优化和重建技术，包括卷积神经网络（CNNs）、自编码器（Autoencoders）、逆问题求解方法（如去噪、自适应插值）、正则化技术等 |
| **应用场景**  | 数字艺术与内容创作（如DALL·E、Stable Diffusion）、数据增强（为训练AI生成多样化样本）、虚拟世界构建（如游戏、元宇宙）、图像翻译（风格迁移、照片转漫画）   | 医学成像（如CT/MRI图像修复）、摄影中的图像去噪、超分辨率重建、遥感影像处理（如卫星图像云层去除）、逆向工程（如压缩图片的质量恢复） |

图像生成更侧重创新性，图像重建更注重还原性，但两者都在提升图像质量和智能处理方面发挥着重要作用。

我们所希望做的特征还原/图像补全/遮挡还原更倾向于**Image Reconstruction**部分的内容，但可以同时借鉴Generation和Reconstruction两个部分的内容展开。
* 从**Image Generation**的角度：关注补全的多样性和合理性
  * 全局理解：
    * MAE需要通过观察未遮挡部分来推测被遮挡区域的内容，这需要全局上下文信息的支持，与图像生成中的全局一致性思路相似。
    * 补全结果不仅要像原图，还需要自然、符合上下文逻辑。
  * 潜在表征学习：
    * MAE利用自监督学习，类似生成任务中的生成网络，通过学习隐藏空间（latent space）中的表征来预测缺失区域的可能内容。
  * 去噪补全：
    * 与扩散模型类似，MAE可以从不确定性的潜在空间中逐步补全遮挡区域。
* 从**Image Reconstruction**的角度：注重还原真实性
  * 输入部分：
    * MAE的输入是遮挡了部分像素的图像，这与图像重建任务中不完整图像作为输入相似。
    * 模型需要从局部上下文信息中恢复被遮挡的区域，这与图像重建强调从不完整数据中提取有用信息的思路一致。
  * 目标：
    * 恢复缺失的像素，使得补全后的图像尽可能接近原始图像，注重重建的保真度。
    * MAE的设计目标是通过有效的编码和解码过程，使模型学会图像的局部与整体关系。

为了实现我们想要的部分，最好是找reconstruction领域去finetune的合理方法以及在generation领域的创新模块表示。除此之外，在segmentation领域找到优化的方案。


# 二、未来规划
阅读《Structure Matters: Tackling the Semantic Discrepancy in Diffusion Models for Image Inpainting》以及所总结的和自己相关方向的论文