# 2024-11-15感知智能组会汇报 # 一、近期工作 **Image Generation** vs **Image Reconstruction** * **Image Generation**:指通过算法从零开始生成新的图像,通常基于一些输入条件(如文本描述、特定样式、语义信息)或随机噪声(如生成对抗网络的输入)。目的是创造出逼真的、具有特定特征的图像。 * **无条件生成**是指无条件地从数据集中生成样本,即:$p(y)$; * **条件图像生成**(子任务)是指根据标签有条件地从数据集中生成样本,即:$p(y|x)$ * **Image Reconstruction**:指从已有的、可能损坏、不完整或压缩的图像数据中恢复原始图像,或者从观测数据中重建图像。目标是尽可能还原出真实图像。 | **特性** | 图像生成 (Image Generation) | 图像重建 (Image Reconstruction) | |--------|------|--------| | **输入** | 随机噪声、文本或条件标签等 | 受损图像、不完整数据(如低分辨率图像、部分丢失的像素、模糊图像) | | **输出** | 全新的图像,可能是艺术性的、合成的或逼真的 | 修复后的图像,接近原始清晰图像 | | **目标** | 目标是创造性地生成新图像,关注生成图像的多样性和真实性;注重图像的视觉质量、逼真度以及与输入条件的匹配度。 | 目标是恢复或重建图像,尽可能减少噪声、模糊和失真;注重恢复的准确性和保真度,强调与真实图像的接近程度。 | | **技术方法** | 典型方法包括生成对抗网络(GANs)、变分自编码器(VAEs)、扩散模型、条件生成模型等 | 通常基于优化和重建技术,包括卷积神经网络(CNNs)、自编码器(Autoencoders)、逆问题求解方法(如去噪、自适应插值)、正则化技术等 | | **应用场景** | 数字艺术与内容创作(如DALL·E、Stable Diffusion)、数据增强(为训练AI生成多样化样本)、虚拟世界构建(如游戏、元宇宙)、图像翻译(风格迁移、照片转漫画) | 医学成像(如CT/MRI图像修复)、摄影中的图像去噪、超分辨率重建、遥感影像处理(如卫星图像云层去除)、逆向工程(如压缩图片的质量恢复) | 图像生成更侧重创新性,图像重建更注重还原性,但两者都在提升图像质量和智能处理方面发挥着重要作用。 我们所希望做的特征还原/图像补全/遮挡还原更倾向于**Image Reconstruction**部分的内容,但可以同时借鉴Generation和Reconstruction两个部分的内容展开。 * 从**Image Generation**的角度:关注补全的多样性和合理性 * 全局理解: * MAE需要通过观察未遮挡部分来推测被遮挡区域的内容,这需要全局上下文信息的支持,与图像生成中的全局一致性思路相似。 * 补全结果不仅要像原图,还需要自然、符合上下文逻辑。 * 潜在表征学习: * MAE利用自监督学习,类似生成任务中的生成网络,通过学习隐藏空间(latent space)中的表征来预测缺失区域的可能内容。 * 去噪补全: * 与扩散模型类似,MAE可以从不确定性的潜在空间中逐步补全遮挡区域。 * 从**Image Reconstruction**的角度:注重还原真实性 * 输入部分: * MAE的输入是遮挡了部分像素的图像,这与图像重建任务中不完整图像作为输入相似。 * 模型需要从局部上下文信息中恢复被遮挡的区域,这与图像重建强调从不完整数据中提取有用信息的思路一致。 * 目标: * 恢复缺失的像素,使得补全后的图像尽可能接近原始图像,注重重建的保真度。 * MAE的设计目标是通过有效的编码和解码过程,使模型学会图像的局部与整体关系。 为了实现我们想要的部分,最好是找reconstruction领域去finetune的合理方法以及在generation领域的创新模块表示。除此之外,在segmentation领域找到优化的方案。 # 二、未来规划 阅读《Structure Matters: Tackling the Semantic Discrepancy in Diffusion Models for Image Inpainting》以及所总结的和自己相关方向的论文