概率扩散模型(DDPM)

发布时间:

信息

💡后续有多次更新,已经制作成幻灯片,可以在 这里 查看。

在 MEGVII 的时候用自家框架复现了 DDPM. 原本以为某一天的 Share Talking 会给同事们讲讲这个模型,可惜后面没多久就离职了。 同阶段 Hugging Face 的工程师也正在实现 diffusers 的早期版本, Star 尚未破百。 后续估计 diffusers 会发展成一个热门的扩散模型库,因为 Hugging Face 的 Transformer 库已经是 NLP 领域的标配了。

说来也有趣,这篇论文的复现不像其它的论文简单(以为是写写网络结构就能搞定的事情),但有些细节要看原作者 TF 版本的代码才知道,导致过程中一度怀疑自己的能力不行。 当时比较好的参考资料是 What are Diffusion Models?, Lily 的这篇博文比 DDPM 原始论文要好理解些,我在学习的过程中整理了一份笔记,还通过邮件中指出了一些原文中的错误。

过程中参考了 lucidrains (此人简直是论文复现王)的实现, 但他的一些 utils 被帮忙做 proof review 的王老师吐槽, 遂开始有些理解研究院的研究员们的 Python 代码风格了...