Readme

Intensive reading of papers. Let's start with works of Kaiming! Other interesting and new papers will also be updated.

  1. [insights] reading gains insights.
  2. [horizon] broad reading gains ideas.
  3. Learn to research.
  4. Learn to enjoy research.
  5. first stage : 100 papers before august
  6. presenting papers using English

Diffusion implementation accompanied by this blog

Basic Question

计算机视觉研究里面的基本问题是什么?

对于researcher重要的是什么?
不同阶段的researcher考虑的东西不一样。 就目前这个阶段而言,horizon是重要的。
LLM社区做的成果显著,多模态领域也有很显著的结果,对于我现阶段来说都是可以了解的。

Paper Review Overview

Paper queue

version 1 多模态和视觉大模型

编码的不可能三角:紧凑,离散,无损

关于CLIP的问题:

自回归的生成模型

一般的图片生成模型的探索:

Diffusion理论

古老师最近的关于理论的一些工作:关于视觉工作的本质目标
谢赛宁老师关于CLIP表征缺陷的一些探索。

Scale Up

version 0 视频生成

Paper Summary

paper year field and direction key design contribution
MAE Mask Image Modeling, Vision Pretraining decoder smaller than encoder; 75% mask ratio
Lora PEFT Lora layer to reduce fine-tuning resources notice the low rank intrinsic of large models.
ClassifierFreeGuidance text2image,diffusion Setting condition to None following a distribution Training conditional text2image model without classifier.
Diffusion-DPO 2023 text2image,diffusion,dpo DPO-loss to replace a trained reward model align human preference with Diffusion models.
LVDM 2022 text2video,diffusion, pretrained model Video VAE; Hierarchical Latent Generation ; generate short and long video at a low consumption
Stable Video Diffusion 2023 text2video,diffusion ,pretrained model No significant declaration. Dataset curation analysis and processing pipeline; HQ Image pretrain; Lora for camera motion video.
AlignYourLatents 2023 text2video,diffusion, text2image,finetuning Insert Temporal Layers; Adapting text2image model to text2video
ControlVideo 2023 text2image,diffusion,text2image,finetuning Cross frame attention; interleaved smoother; hierarchical generation; Training free method.
EvalCrafter 2023 text2video, evaluation metrics analysis of video dataset composition. Comprehensive evaluation metric for text2video generation
Latte 2024 text2video,diffusion,transformer Transformer with Temporal and Spatial Attention Using Transformer to replace Unet in Diffusion models
VideoCrafter1 2024 text2video,diffusion, pretraining
VideoCrafter2 2024 text2video,diffusion, training strategy Training Strategy of Image pretraining analysis of parameter perturbation
DynamiCrafter 2024 text2video,diffusion, prior conditioning Open-domain Image Animation add clip image ViT feature as additional control
MagicTime 2024 text2video,diffusion,prior conditioning a dataset that contain phsical process videos. physical process videos for lora adapting.
MakeYourVideo 2024 text2video , diffusion, prior conditioning adding depth as control similar to dynamic crafter
Follow Your Pose 2024 text2video , diffusion, prior conditioning adding keypoints as control generating pose-controllable videos
Follow Your Click 2024 text2video , diffusion, prior conditioning click and motion prompt in fact this not a drag. Optical flow is good idea.
VDT ICLR24 text2video, DiT diffusion transformer; mask modeling
DiffusionAE CVPR22 Diffusion; AutoEncoder; Latent represetation
VAR AR; image generation
DiffMorpher CVPR24 Diffusion; Image interpolation;
StyleGAN2 GAN;Image; AdaIn
HRA 2024 adapter-based finetune HRA for finetune which can be better than lora
OFT adapter-based finetune;
T2Vscore CVPR24 diffusion Benchmark
FIFO-diffusion video generation; training-free;
DreamBooth CVPR23 image generation; few-shot prior-loss;

Implementation analysis

Blog Design

Practical Advise

Tips for Review Papers

在进行科研文献阅读时,为了深入理解和评估每篇论文的价值和意义,可以采用以下问题框架来引导自己的思考:

  1. 文献领域定位

    • 首先确定文章所属的研究领域或具体方向。这有助于你将论文放置在正确的知识背景中,并理解其在整个研究领域中的位置。
    • 越底层的东西越有可能产生Impact。 至少可以把论文分成application和strategy两种。 一个新的论文可以是application和strategy的新组合。 Video Generation是一个Topic或者task,diffusion是方法。 Dance是应用。
  2. 问题重要性分析

    • 识别并理解文章解决的具体问题,以及这个问题为何重要。这通常涉及到问题的现实意义、对现有研究的影响,以及它可能带来的理论和实践上的改进。
    • 找到正确而有意义的问题是做好科研的第一步
  3. 方法和模型评估

    • 分析文章所采用的方法和模型,并思考这些方法为何能够有效解决问题。这包括对方法的理论基础、创新点、以及与现有方法的比较分析。
  4. 核心结论提炼

    • 总结文章的核心结论,这通常是作者通过研究得出的主要发现或观点。理解这些结论对于把握论文的精髓至关重要。
  5. 未来研究方向探索

    • 思考论文可能的延伸和未来的研究方向。这可能包括对当前研究的局限性的讨论、潜在的改进空间,以及新的问题和挑战。

通过上述问题框架,你可以系统地分析和评估每篇论文,不仅能够加深对文献的理解,还能够激发自己的思考,为未来的研究工作提供方向和灵感。这种方法论有助于你在科研领域中快速成长,形成批判性思维和独立研究的能力。

  1. 文献阅读优先级

    • 首先阅读近一至两年的文献综述,以获得领域概览。
    • 其次,研读近五年内的经典和高引用文章。
    • 重点关注近两年的顶级会议中带有开源代码的研究成果。
    • 最后,阅读无开源代码但重要的顶级会议论文。
  2. 结合代码学习

    • 对于重要论文,边阅读边学习其源代码,将motivation-idea-implementation联合起来。
  3. 记录与反思

    • 记录论文的核心要点和潜在的研究方向。
    • 反思论文的缺陷和改进空间。
  4. 与导师沟通

    • 在有充分理由和文献支持的情况下,与导师讨论研究方向的调整。
  5. 实践参与

    • 主动参与师兄师姐的科研项目,以获得实际操作经验。
  6. 跨领域探索

    • 阅读相关领域的文献,以获得新的研究灵感。
    • Related Work和Literature Review的重要性。 如果对2-3个领域有足够好的感觉,将他们结合起来,就可以组成非常好的工作。

通过这些方法,你可以更高效地吸收知识,提升研究能力,并为未来的科研工作打下坚实的基础。

Tips for Presentation

currently only for presentation of papers.