Report/Docs/2024-11-15/report_1115.md
2024-11-15 16:44:56 +08:00

40 lines
4.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 2024-11-15感知智能组会汇报
# 一、近期工作
**Image Generation** vs **Image Reconstruction**
* **Image Generation**:指通过算法从零开始生成新的图像,通常基于一些输入条件(如文本描述、特定样式、语义信息)或随机噪声(如生成对抗网络的输入)。目的是创造出逼真的、具有特定特征的图像。
* **无条件生成**是指无条件地从数据集中生成样本,即:$p(y)$
* **条件图像生成**(子任务)是指根据标签有条件地从数据集中生成样本,即:$p(y|x)$
* **Image Reconstruction**:指从已有的、可能损坏、不完整或压缩的图像数据中恢复原始图像,或者从观测数据中重建图像。目标是尽可能还原出真实图像。
| **特性** | 图像生成 (Image Generation) | 图像重建 (Image Reconstruction) |
|--------|------|--------|
| **输入** | 随机噪声、文本或条件标签等 | 受损图像、不完整数据(如低分辨率图像、部分丢失的像素、模糊图像) |
| **输出** | 全新的图像,可能是艺术性的、合成的或逼真的 | 修复后的图像,接近原始清晰图像 |
| **目标** | 目标是创造性地生成新图像,关注生成图像的多样性和真实性;注重图像的视觉质量、逼真度以及与输入条件的匹配度。 | 目标是恢复或重建图像,尽可能减少噪声、模糊和失真;注重恢复的准确性和保真度,强调与真实图像的接近程度。 |
| **技术方法** | 典型方法包括生成对抗网络GANs、变分自编码器VAEs、扩散模型、条件生成模型等 | 通常基于优化和重建技术包括卷积神经网络CNNs、自编码器Autoencoders、逆问题求解方法如去噪、自适应插值、正则化技术等 |
| **应用场景** | 数字艺术与内容创作如DALL·E、Stable Diffusion、数据增强为训练AI生成多样化样本、虚拟世界构建如游戏、元宇宙、图像翻译风格迁移、照片转漫画 | 医学成像如CT/MRI图像修复、摄影中的图像去噪、超分辨率重建、遥感影像处理如卫星图像云层去除、逆向工程如压缩图片的质量恢复 |
图像生成更侧重创新性,图像重建更注重还原性,但两者都在提升图像质量和智能处理方面发挥着重要作用。
我们所希望做的特征还原/图像补全/遮挡还原更倾向于**Image Reconstruction**部分的内容但可以同时借鉴Generation和Reconstruction两个部分的内容展开。
* 从**Image Generation**的角度:关注补全的多样性和合理性
* 全局理解:
* MAE需要通过观察未遮挡部分来推测被遮挡区域的内容这需要全局上下文信息的支持与图像生成中的全局一致性思路相似。
* 补全结果不仅要像原图,还需要自然、符合上下文逻辑。
* 潜在表征学习:
* MAE利用自监督学习类似生成任务中的生成网络通过学习隐藏空间latent space中的表征来预测缺失区域的可能内容。
* 去噪补全:
* 与扩散模型类似MAE可以从不确定性的潜在空间中逐步补全遮挡区域。
* 从**Image Reconstruction**的角度:注重还原真实性
* 输入部分:
* MAE的输入是遮挡了部分像素的图像这与图像重建任务中不完整图像作为输入相似。
* 模型需要从局部上下文信息中恢复被遮挡的区域,这与图像重建强调从不完整数据中提取有用信息的思路一致。
* 目标:
* 恢复缺失的像素,使得补全后的图像尽可能接近原始图像,注重重建的保真度。
* MAE的设计目标是通过有效的编码和解码过程使模型学会图像的局部与整体关系。
为了实现我们想要的部分最好是找reconstruction领域去finetune的合理方法以及在generation领域的创新模块表示。除此之外在segmentation领域找到优化的方案。
# 二、未来规划
阅读《Structure Matters: Tackling the Semantic Discrepancy in Diffusion Models for Image Inpainting》以及所总结的和自己相关方向的论文