【Diffusion Transformer】OpenAIのSoraにも使われた最新技術 | AI-SCHOLAR | AI：(人工知能)論文・技術情報メディア

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

闯红灯的爆米花 · 办公空间圣克鲁斯－德拉塞拉 : ...· 4 周前 ·

酷酷的柑橘 · 深学笃行习近平总书记关于港澳工作的重要论述 ...· 1 月前 ·

干练的白开水 · 估计非聚集索引的大小 - SQL ...· 1 月前 ·

风流倜傥的松鼠 · 产品需求文档的写作(五) – ...· 1 月前 ·

爱逃课的牛排 · Careers in economics· 1 月前 ·

</noscript> <header class="headers"> <div class="headers__upper "> <div class="headers__inner headers__upper__inner"> <h1 class="headers__logo headers__logo--aischolar "> <a href="https://ai-scholar.tech" class="headers__logo__anchr"> <svg class="headers__logo__svg" width="173" height="25" viewbox="0 0 173 25" fill="none" xmlns="http://www.w3.org/2000/svg"> <path fill-rule="evenodd" clip-rule="evenodd" d="M5.43282 11.8482C2.4838 18.1954 0.0230198 23.4685 0.00348983 23.5662C-0.0551001 23.6833 0.628449 23.7419 1.72213 23.7029L3.51889 23.6443L4.72974 21.0077L5.9406 18.3712L10.6278 18.3126L15.3345 18.2735L16.5063 20.9492L17.6976 23.6443L19.4749 23.7029C20.4514 23.7224 21.2521 23.7029 21.2521 23.6443C21.2521 23.5466 10.9012 0.442677 10.8231 0.364557C10.8036 0.345027 8.38185 5.52047 5.43282 11.8482ZM12.4636 11.6334C13.3229 13.5864 14.026 15.2464 14.026 15.2659C14.026 15.305 12.5417 15.344 10.7059 15.344C8.88963 15.344 7.38582 15.2855 7.38582 15.2269C7.38582 15.0706 9.788 9.75848 10.3544 8.64527C10.5692 8.21561 10.7645 7.92266 10.8231 7.96172C10.8622 8.02031 11.6043 9.66083 12.4636 11.6334Z" fill="black"/> <path fill-rule="evenodd" clip-rule="evenodd" d="M140.385 11.8482C137.436 18.1954 134.975 23.4685 134.956 23.5662C134.897 23.6833 135.581 23.7419 136.674 23.7029L138.471 23.6443L139.682 21.0077L140.893 18.3712L145.58 18.3126L150.287 18.2735L151.458 20.9492L152.65 23.6443L154.427 23.7029C155.404 23.7224 156.204 23.7029 156.204 23.6443C156.204 23.5466 145.853 0.442677 145.775 0.364557C145.756 0.345027 143.334 5.52047 140.385 11.8482ZM147.416 11.6334C148.275 13.5864 148.978 15.2464 148.978 15.2659C148.978 15.305 147.494 15.344 145.658 15.344C143.842 15.344 142.338 15.2855 142.338 15.2269C142.338 15.0706 144.74 9.75848 145.307 8.64527C145.521 8.21561 145.717 7.92266 145.775 7.96172C145.814 8.02031 146.556 9.66083 147.416 11.6334Z" fill="black"/> <path fill-rule="evenodd" clip-rule="evenodd" d="M42.5983 1.55583C39.3954 2.59092 37.5205 5.93054 38.5165 8.76238C39.161 10.5201 40.6453 11.77 43.6139 13.0199C46.9925 14.4456 48.0081 15.4416 48.0081 17.3946C48.0081 20.5585 44.3169 22.199 41.9733 20.0702C41.3484 19.5039 41.114 19.1133 40.8797 18.1954C40.7234 17.5704 40.5672 17.0236 40.5477 16.9845C40.4695 16.9259 37.4814 17.6095 37.3643 17.7266C37.2276 17.8634 37.6572 19.4453 38.0673 20.3046C39.0634 22.4334 41.114 23.8395 43.5357 24.0544C46.5824 24.3473 49.3361 22.8826 50.6446 20.3046C51.0938 19.4258 51.2305 18.8594 51.2891 17.5899C51.4844 13.9964 50.0783 12.2583 45.3325 10.2662C42.8327 9.21158 42.0515 8.60615 41.7195 7.51247C41.5437 6.88751 41.5632 6.67268 41.8952 6.02819C42.4811 4.89545 43.5162 4.36814 45.02 4.46579C46.3676 4.52438 47.0316 4.89545 47.7347 5.93054L48.1448 6.53597L49.4533 5.75478C50.1564 5.32512 50.7423 4.89545 50.7423 4.7978C50.7423 4.4072 48.6331 2.37608 47.7347 1.92689C46.5238 1.30193 43.9459 1.10664 42.5983 1.55583Z" fill="black"/> <path fill-rule="evenodd" clip-rule="evenodd" d="M62.9681 1.59494C58.8473 2.59097 55.4882 6.08684 54.5312 10.3834C53.9062 13.1957 54.4726 16.4573 55.9764 18.7813C59.1793 23.7029 65.1164 25.441 70.5067 23.0193L71.6394 22.5115V20.5585V18.6251L71.2098 18.9376C70.9559 19.1133 70.37 19.4844 69.8817 19.7773C66.3664 21.9452 62.0307 21.1835 59.4137 17.9415C58.2028 16.4572 57.7146 15.0316 57.695 12.9028C57.695 10.6178 58.1052 9.27022 59.2965 7.68829C62.1088 3.93854 67.1085 3.33311 70.9559 6.28213L71.6394 6.78992V4.81738V2.82534L70.6239 2.35661C68.2803 1.28246 65.4094 1.00904 62.9681 1.59494Z" fill="black"/> <path fill-rule="evenodd" clip-rule="evenodd" d="M105.29 1.57539C103.434 1.98552 101.442 3.11826 99.8408 4.70018C98.1808 6.3407 97.3605 7.74686 96.8332 9.79751C95.8372 13.6644 96.8137 17.59 99.4698 20.3828C104.04 25.2262 111.403 25.3824 116.07 20.7343C117.75 19.0742 118.57 17.6681 119.097 15.6174C119.781 12.9223 119.508 10.1491 118.277 7.61016C117.418 5.79387 115.016 3.37214 113.219 2.51282C110.817 1.3215 107.965 0.989488 105.29 1.57539ZM110.309 4.71971C115.133 6.1454 117.535 11.8482 115.27 16.4572C114.664 17.7267 112.985 19.4648 111.813 20.0507C106.754 22.6482 100.856 19.6406 99.9385 14.016C99.2549 9.83657 101.638 5.96964 105.719 4.68066C106.813 4.32912 109.079 4.34864 110.309 4.71971Z" fill="black"/> <path fill-rule="evenodd" clip-rule="evenodd" d="M23.9863 12.7075V23.742H25.6464H27.3064V12.7075V1.6731H25.6464H23.9863V12.7075Z" fill="black"/> <path fill-rule="evenodd" clip-rule="evenodd" d="M76.3267 12.7075V23.742H77.9867H79.6468V18.5665V13.3911H84.334H89.0211V18.5665V23.742H90.6812H92.3412V12.7075V1.6731H90.6812H89.0211V5.96969V10.2663H84.334H79.6468V5.96969V1.6731H77.9867H76.3267V12.7075Z" fill="black"/> <path fill-rule="evenodd" clip-rule="evenodd" d="M123.394 12.7075V23.742H128.277H133.159V22.1796V20.6172H129.937H126.714V11.1451V1.6731H125.054H123.394V12.7075Z" fill="black"/> <path fill-rule="evenodd" clip-rule="evenodd" d="M158.938 12.7075V23.742H160.599H162.259V19.2501C162.259 15.4613 162.298 14.7582 162.532 14.7582C162.688 14.7582 164.231 16.7698 165.969 19.2501L169.114 23.742H171.067C172.121 23.742 173 23.6834 173 23.6248C173 23.5662 171.555 21.5156 169.778 19.0938C168 16.6526 166.555 14.5629 166.555 14.4652C166.555 14.348 166.907 14.1528 167.336 14.016C167.766 13.8598 168.547 13.352 169.075 12.8833C170.871 11.2623 171.574 8.93825 170.969 6.59465C170.051 2.96208 167.649 1.69263 161.731 1.6731H158.938V12.7075ZM166.399 5.40332C167.551 6.0478 167.961 6.8876 167.883 8.45C167.825 9.28979 167.688 9.85616 167.414 10.2077C166.79 11.067 165.422 11.6529 163.743 11.7701L162.259 11.8873V8.31329V4.7393L163.899 4.83695C165.129 4.91507 165.774 5.07131 166.399 5.40332Z" fill="black"/> <path fill-rule="evenodd" clip-rule="evenodd" d="M29.6501 16.7111V18.0782H32.8726H36.095V16.7111V15.344H32.8726H29.6501V16.7111Z" fill="black"/> </svg> </a> <span class="headers__logo__caption">最新AI論文をキャッチアップ</span> </h1> <div class="headers__upper__items"> <ul class="headers__upper-links"> <li class="headers__upper-links__item"><a href="https://ai-scholar.tech/about">AI-SCHOLARとは？</a></li> </ul> <form role="search" method="get" action="https://ai-scholar.tech/articles" class="headers__search searchform" id="headers__search"> <label class="headers__search__forms " for="headers__search"> <input type="search" class="headers__search__input searchbar" placeholder="キーワードで検索する" id="s1" name="term" value="" autocomplete="off"/> <i class="ico ico--close headers__search__close"/> </label> <section class="headers__search__results headers__floatSection" id="headers__search"> <div class="headers__search__resultsHeader headers__floatSection__header">検索履歴<span class="headers__search__allerase is--search-history--allerase">すべて消去</span></div> <ol class="headers__search__resultsList"> </ol> </section> </form> <ul class="headers__upper-btns headers--upper-btns--normal"> <li class="headers__upper-btns__item headers__upper-btns__item--login"><a href="https://ai-scholar.tech/login" class="headers__upper-btns__anchr login__btn__anchr">ログイン</a></li> <li class="headers__upper-btns__item headers__upper-btns__item--register"><a href="https://ai-scholar.tech/register" class="headers__upper-btns__anchr regist__btn__anchr">新規登録</a></li> </ul> </div> </div> </div> <div class="headers__nav headers__nav--main"> <div class="headers__inner headers__nav__inner"> <ul class="headers__nav__menu"> <li class="headers__nav__item"><a href="https://ai-scholar.tech/new_article" class="headers__nav__anchr">新着記事</a></li> <li class="headers__nav__item"> <a href="https://ai-scholar.tech/learn" class="headers__nav__anchr is__pc">AIをゼロから学ぶ</a> <a href="https://ai-scholar.tech/learn" class="headers__nav__anchr is__sp">ゼロから学ぶ</a> </li> <li class="headers__nav__item"> <a href="https://ai-scholar.tech/service" class="headers__nav__anchr is__pc">AIサービス</a> <a href="https://ai-scholar.tech/service" class="headers__nav__anchr is__sp">サービス</a> </li> <li class="headers__nav__item"> <a href="https://ai-scholar.tech/event" class="headers__nav__anchr is__pc">AIイベント</a> <a href="https://ai-scholar.tech/event" class="headers__nav__anchr is__sp">イベント</a> </li> <li class="headers__nav__item"><a href="https://ai-scholar.tech/ai-timely" class="headers__nav__anchr">AI-TIMELY</a></li> </ul> </div> </div> <div class="headers__nav headers__nav--category"> <div class="headers__inner headers__category"> <ul class="headers__category__menu"> <li class="headers__category__item"><a href="/category/image-recognition/" class="headers__category__anchr">画像認識</a></li> <li class="headers__category__item"><a href="/category/自然言語処理" class="headers__category__anchr">自然言語処理</a></li> <li class="headers__category__item"><a href="/category/voice-recognition/" class="headers__category__anchr">音声認識</a></li> <li class="headers__category__item"><a href="/category/machine-learning/" class="headers__category__anchr">機械学習</a></li> <li class="headers__category__item"><a href="/category/deep-learning/" class="headers__category__anchr">深層学習</a></li> <li class="headers__category__item"><a href="/category/gan/" class="headers__category__anchr">敵対的学習（GAN）</a></li> <li class="headers__category__item"><a href="/category/reinforcement-learning/" class="headers__category__anchr">強化学習</a></li> <li class="headers__category__item"><a href="/category/news/" class="headers__category__anchr">インタビュー</a></li> </ul> <p class="headers__category__morebtn">もっと見る▼</p> </div> </div> </header> <nav class="breadcrumbs"> <ul class="breadcrumbs__list"> <li class="breadcrumbs__item"><a href="https://ai-scholar.tech">TOP</a></li> <li class="breadcrumbs__item"><a href="https://ai-scholar.tech/category/image-generation">Image generation</a></li> <li class="breadcrumbs__item active">【Diffusion Transformer】OpenAIのSoraにも使われた最新技術</li> </ul> </nav> <div class="content"> <div class="content__inner"> <main id="main" class="main article"> <article class="entry article__entry"> <img width="760" height="428" src="data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==" data-src="https://aisholar.s3.ap-northeast-1.amazonaws.com/media/May2024/diffusion_transformer_1_.png" alt="【Diffusion Transformer】OpenAIのSoraにも使われた最新技術" class="lazyload " srcset="https://aisholar.s3.ap-northeast-1.amazonaws.com/media/May2024/diffusion_transformer_1_.png 1280w, https://aisholar.s3.ap-northeast-1.amazonaws.com/media/May2024/diffusion_transformer_1_.png 1024w, https://aisholar.s3.ap-northeast-1.amazonaws.com/media/May2024/diffusion_transformer_1_.png 768w, https://aisholar.s3.ap-northeast-1.amazonaws.com/media/May2024/diffusion_transformer_1_-300x169.png 300w" sizes="(max-width: 680px) 100vw, 680px"/> <div class="entry__inner artice__inner inner"> <h1 class="entry__title"> 【Diffusion Transformer】OpenAIのSoraにも使われた最新技術 </h1> <div class="entry__detail"> <span class="article__main-category list-item__label"> <a href="https://ai-scholar.tech/category/image-generation">Image generation</a> </span> <time class="entry__date" datetime="2024-04-04 20:48:33"> 2024年05月21日 </time> </div> <p><span style="font-size: 16px;"><em><span style="font-family: georgia, palatino, serif;"><strong><span style="font-size: 36px;">3</span>つの要点<span style="color: #ff0000;"><br/></span></strong></span></em></span><span style="font-size: 16px; font-family: verdana, geneva, sans-serif;">✔️ 拡散モデルとTranformerを合わせたモデル<br/>✔️ 従来の拡散モデルやGANを超える画質と多様性を実現</span><span style="font-family: verdana, geneva, sans-serif; font-size: 16px;"><br/></span><span style="font-size: 16px; font-family: verdana, geneva, sans-serif;">✔️ 従来のU-Netモデルを上回る性能を示す</span></p>&#13; <p><span style="font-family: verdana, geneva, sans-serif;"><span style="font-size: 16px;"><span style="font-size: 1px;"><span style="font-size: 16px;"><a href="https://arxiv.org/abs/2212.09748" target="_blank" rel="noopener">Scalable Diffusion Models with Transformers</a><br/></span></span><span style="color: #000000; font-size: 12px;"><span style="color: #000000; font-family: verdana, geneva, sans-serif;"><span style="font-size: 12px;">written by </span></span><span style="font-family: verdana, geneva, sans-serif;"><a style="text-decoration-line: none; color: #000000;" href="https://arxiv.org/search/cs?searchtype=author&amp;query=Peebles,+W">William Peebles</a>, <a style="text-decoration-line: none; color: #000000;" href="https://arxiv.org/search/cs?searchtype=author&amp;query=Xie,+S">Saining Xie</a></span><br/><span style="color: #000000; font-family: verdana, geneva, sans-serif;"><span style="font-size: 12px;">(Submitted on 2 Mar 2023)</span></span><br/><span style="color: #000000; font-family: verdana, geneva, sans-serif;"><span style="font-size: 12px;">Comments: </span></span></span><span style="color: #000000; font-family: verdana, geneva, sans-serif;"><span style="font-size: 12px; white-space: normal;">Code, project page and videos available at this https URL</span></span><br style="font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 14px;"/><span style="color: #000000; font-size: 12px;">Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)<br/></span><a style="font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 14px;" href="https://arxiv.org/abs/2212.09748" target="_blank" rel="noopener"><img class="mce-img" src="https://aisholar.s3.ap-northeast-1.amazonaws.com/media/November2020/084b0c3e-46c4-442c-ae13-0074753611ce.png" width="85" height="45"/></a><a style="font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 14px;" href="https://arxiv.org/pdf/2212.09748" target="_blank" rel="noopener"><img class="mce-img" src="https://aisholar.s3.ap-northeast-1.amazonaws.com/media/November2020/49296f84-98ad-4163-b310-b7cc60d8bf85.png" width="45" height="45"/></a><br style="font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 14px;"/><span style="font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 14px;">code：</span><a style="font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 14px;" href="https://github.com/facebookresearch/DiT" target="_blank" rel="noopener"><span style="font-size: 16px; font-family: verdana, geneva, sans-serif;"><img class="mce-img" style="max-width: 100%;" src="https://aisholar.s3.ap-northeast-1.amazonaws.com/media/February2021/giyhubofficail1-min.png" width="49" height="49"/></span></a></span></span><a href="https://github.com/huggingface/diffusers" target="_blank" rel="noopener"><img class="mce-img" style="max-width: 100%;" src="https://aisholar.s3.ap-northeast-1.amazonaws.com/media/February2021/giyhubofficail2-min.png" width="49" height="49"/></a><span style="font-family: verdana, geneva, sans-serif;"><span style="font-size: 16px;"><a style="font-family: verdana, geneva, sans-serif; font-size: 16px;" href="https://paperswithcode.com/paper/scalable-diffusion-models-with-transformers" target="_blank" rel="noopener"><img class="mce-img" style="max-width: 100%;" src="https://aisholar.s3.ap-northeast-1.amazonaws.com/media/February2021/vdw.png" width="45" height="45"/></a><span lang="EN-US" style="font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 14px;"> </span></span></span></p>&#13; <p class="MsoNormal"><span style="font-size: 16px;">本記事で使用している画像は論文中のもの、</span><span style="font-size: 16px;">紹介スライドのもの、</span><span style="font-size: 16px;">またはそれを参考に作成したものを使用しております。</span> </p>&#13; <p><span style="font-size: 16px;">機械学習は、トランスフォーマーによって牽引されるルネッサンスを経験しています。過去5年間、自然言語処理、画像解析などの分野で、ニューラルアーキテクチャの多くがトランスフォーマーによって大きく取って代わられました。しかし、画像生成モデルの多くはまだこのトレンドに追いついていません。たとえば、拡散モデルは画像生成モデルの最近の進歩の中心にありますが、すべてのモデルはデフォルトのバックボーンとして畳み込みU-Netアーキテクチャを採用しています。</span><span style="font-size: 16px;"/></p>&#13; <p><span style="font-size: 16px;">今回の解説論文では、拡散モデルにおけるアーキテクチャの選択の重要性を解明し、将来の生成モデリング研究のための実証的な基準を提供することを目指しています。今回の論文は、U-Netの帰納的なバイアスが拡散モデルの性能に必須ではないことを示し、これらはトランスフォーマーなどの標準的な設計に簡単に置き換えることができることを示しています。その結果、拡散モデルは、スケーラビリティ、ロバスト性、効率性といった有利な特性を保持するだけでなく、他のドメインからのベストプラクティスやトレーニングレシピを継承することにより、アーキテクチャの統一化という最近のトレンドから恩恵を受けることができる。標準化されたアーキテクチャは、領域横断的な研究に新たな可能性をもたらすだろう。</span><span style="font-size: 16px;"/></p>&#13; <p><span style="font-size: 16px;">今回の論文では、トランスフォーマーに基づく新しいクラスの拡散モデルに焦点を当てます。これらをDiffusion Transformers、または略してDiTsと呼びます。 DiTsは、従来の畳み込みネットワークよりも視覚認識に効果的にスケーリングできることが示されているVision Transformers（ViTs）のベストプラクティスに従います。</span><span style="font-size: 16px;"/></p>&#13; <p><span style="font-size: 16px;">実験結果より、DiTsは高いスケーラビリティをもって、クラス条件付きの256×256 ImageNet生成ベンチマークで2.27 FIDの最先端の結果を達成できました。</span></p>&#13; <h3><span style="font-size: 16px;">Patchify</span></h3>&#13; <p><span style="font-size: 16px;">DiTの入力は空間表現zです（256×256×3の画像の場合、zの形状は32×32×4です）。DiTの最初の層は「Patchify」であり、これにより空間入力が次元dの各パッチを線形に埋め込んだT個のトークンのシーケンスに変換されます。Patchifyに続いて、すべての入力トークンに標準のViT周波数ベースの位置埋め込み（サイン・コサインバージョン）を適用します。パッチ化によって生成されるトークンの数Tは、パッチサイズハイパーパラメータpによって決まります。図2に示されているように、pを半分にするとTが4倍になり、したがって合計のトランスフォーマーGflopsも少なくとも4倍になります。pを変更しても下流のパラメータ数に影響はありません。</span></p>&#13; <h3><span style="font-size: 16px;">DiTブロックの設計</span></h3>&#13; <p><span style="font-size: 16px;">パッチ化に続いて、入力トークンは一連のトランスフォーマーブロックで処理されます。入力ノイズ画像に加えて、拡散モデルは時刻　t、クラスラベルc、テキストなどの追加の条件付き情報を処理することがあります。この点に基づいて、今回の論文は、次の４つDiTのブロックを検討しました。これらの設計は、標準のViTブロック設計に対して小さいながらも重要な変更です。すべてのブロックの設計は図１に示されています。</span></p>&#13; <p><span style="text-decoration: underline;"><em><strong><span style="font-size: 16px;">・In-context conditioning</span></strong></em></span><span style="font-size: 16px;"/></p>&#13; <p><span style="font-size: 16px;">tとcのベクトル埋め込みを入力シーケンスに2つの追加トークンとして追加し、これらを画像トークンと同じように扱います。これはViTsのclsトークンと類似しており、修正なしに標準のViTブロックを使用できるようにします。最終ブロックの後、シーケンスから条件付きトークンを削除します。このアプローチにより生じるGflopsは非常に小さいので、無視できます。</span><span style="font-size: 16px;"/></p>&#13; <p><span style="text-decoration: underline;"><em><strong><span style="font-size: 16px;">・Cross-attentionブロック</span></strong></em></span><span style="font-size: 16px;"/></p>&#13; <p><span style="font-size: 16px;">tとcの埋め込みを、画像トークンのシーケンスとは別の長さ2のシーケンスに連結します。トランスフォーマーブロックは、Vaswaniらの元の設計と同様に、また、クラスラベルに対する条件付けに使用されるLDMに似た、マルチヘッドのセルフアテンションブロックの後に追加のマルチヘッドのクロスアテンションレイヤーを含むように修正されます。クロスアテンションは、モデルに最も多くのGflopsを追加し、おおよそ15%のオーバーヘッドを生じます。</span><span style="font-size: 16px;"/></p>&#13; <p><span style="text-decoration: underline;"><em><strong><span style="font-size: 16px;">・適応的正規化レイヤー (adaLN)</span></strong></em></span><span style="font-size: 16px;"/></p>&#13; <p><span style="font-size: 16px;">GANやUNetバックボーンを持つ拡散モデルでの適応的正規化レイヤーの広範な使用に続き、今回の論文はトランスフォーマーブロック内の標準的なレイヤー正規化層を適応的レイヤー正規化（adaLN）に置き換えることを検討しました。このadaLNでは、次元ごとのスケールおよびシフトパラメータγとβを直接学習する代わりに、これらを時刻tとクラスラベルcの埋め込みベクトルの合計から回帰します。今回の論文が検討したした3つのブロック設計の中で、adaLNはGflopsを最も追加せず、したがって最も計算効率が良いです。また、すべてのトークンに同じ関数を適用することに制限される唯一の調整メカニズムです。</span><span style="font-size: 16px;"/></p>&#13; <p><span style="font-size: 16px;"> <span style="text-decoration: underline;"><em><strong>・adaLN-Zeroブロック</strong></em></span></span><span style="font-size: 16px;"/></p>&#13; <p><span style="font-size: 16px;"> ResNetの先行研究では、各残差ブロックを恒等関数として初期化することが有益であることがわかっています。たとえば、Goyalらは、各ブロックでの最終バッチ正規化スケールファクターγをゼロで初期化することで、教師あり学習の設定で大規模なトレーニングを加速させることができると検証しました。Diffusion U-Netモデルでは、各ブロックの残差接続の前に最終の畳み込み層をゼロで初期化するという類似した初期化戦略が使用されています。今回の解説論文では、これと同じ操作を行うadaLN DiTブロックを検討しました。γとβを回帰させるだけでなく、DiTブロック内の残差接続の直前に適用される次元ごとのスケーリングパラメーターαも回帰します。</span></p>&#13; <h3><span style="font-size: 16px;">モデルのサイズ</span></h3>&#13; <p><span style="font-size: 16px;">DiTsは、隠れ層のサイズdで動作するN個のDiTブロックのシーケンスを適用します。ViTに続いて、N、d、およびattentionの数を共にスケーリングする標準のトランスフォーマー設定を使用します。具体的には、DiT-S、DiT-B、DiT-L、およびDiT-XLの4つの設定を使用します。これらは、0.3から118.6 Gflopsまでの広範なモデルサイズとflop割り当てをカバーしており、スケーリングのパフォーマンスを評価することができます。表1には、設定の詳細が記載されています。</span></p>&#13; <h3><span style="font-size: 16px;"><span style="font-size: 16px;">Transformer decoder</span></span></h3>&#13; <p><span style="font-size: 16px;"><span style="font-size: 16px;">最終的なDiTブロックの後、画像トークンのシーケンスを出力ノイズ予測と出力対角共分散予測にデコードする必要があります。これらの出力の形状は、元の空間入力と同じです。これを行うために、標準の線形デコーダーを使用します。最終的なレイヤーノーム（adaLNを使用する場合は適応的）を適用し、各トークンをp×p×2Cテンソルに線形にデコードします。ここで、CはDiTの空間入力のチャンネル数です。最後に、デコードされたトークンを元の空間レイアウトに再配置して、予測されたノイズと共分散を取得します。今回の論文が検討するDiT設計空間は、パッチサイズ、トランスフォーマーブロックアーキテクチャ、およびモデルサイズです。</span></span></p>&#13; <h3><span style="font-size: 16px;">DiTブロックの設計</span></h3>&#13; <p><span style="font-size: 16px;">最も高いGflopのDiT-XL/2モデルを4つ訓練しました。それぞれ、異なるブロック設計を使用しています。それらは、In-context conditioning（119.4 Gflops）、Cross-attention （137.6 Gflops）、適応的レイヤー正規化（adaLN、118.6 Gflops）、またはadaLN-zero（118.6 Gflops）です。トレーニングの間にFIDを測定しました。FIDは生成画質を表し、FIDが低いほど画質が高いです。図3はその結果を示しています。adaLN-Zeroブロックは、最も計算効率が良いにもかかわらず、クロスアテンションとインコンテキストの両方よりも低いFIDを提供します。トレーニングイテレーションが400Kの時点で、adaLN-Zeroモデルで達成されるFIDは、インコンテキストモデルのほぼ半分であり、条件付けメカニズムがモデルの品質に重大な影響を与えることを示しています。初期化も重要で、各DiTブロックを同一関数として初期化するadaLNZeroは、バニラadaLNを大幅に上回りました。以降、すべてのモデルでadaLN-Zero DiTブロックを使用します。</span><span style="font-size: 16px;"/></p>&#13; <h3><span style="font-size: 16px;">スケーラビリティの検証</span></h3>&#13; <p><span style="font-size: 16px;">私たちは、モデル構成（S、B、L、XL）とパッチサイズ（8、4、2）を使って、12のDiTモデルを訓練しました。DiT-LとDiT-XLは、他の構成に比べて、相対Gflopsの観点から明らかに互いに近いことに注意してください。図4（左）は、各モデルのGflopsと400KのトレーニングイテレーションでのFIDの概要を示しています。すべての場合で、モデルサイズを増やし、パッチサイズを減らすことで、拡散モデルをかなり改善できることがわかりました。</span><span style="font-size: 16px;"/></p>&#13;