最近、AI技術の進化が目覚ましいですね。
その先駆けともいえるOpenAIが開発した画像生成AI「DALL-E2」というAIがあります。
プロンプトを入力するだけで画像を自動生成してくれるので大変便利ですが、ChatGTPと比べるとそこまで話題に上らないのでよくわからない…という方もいらっしゃると思います。
今回はそのDALL-E2についてより詳しく解説していきたいと思います。
DALL-E2とは
DALL-E2とはOpenAIが開発した画像生成AIです。
DALL-E2(ダリツー)と読みます。
あなたのイメージをプロンプトとして入力するだけで、イメージに近い画像が手軽に生成されます!
名前の由来
名前の通り、有名な画家のサルバドール・ダリとピクサーのWALL・E(ウォーリー)が由来となっています。
何ができるのか
一言で言うと「文章を入力することによってイメージに近い画像を生成してくれるAI」です。
DALL-E2はOpenAIのサービスサイトから登録し、利用することができます。
ちなみに登録方法や使い方を解説している記事もありますのでよかったら参考にしてください。
またサービスを利用する際に無料クレジット(サービス内で利用できる独自単位)が付与されるのですが、もし足りなかった場合は有料でクレジットを購入することもできます。
画像を生成する際にクレジットを消費します。
DALL-E2の素になっている技術
DALL-E2は主に2つの技術をメインに使って開発されました。
その技術についても簡単に解説いたします。
CLIP
CLIPとは2021年にOpenAIが発表した技術です。
正式名称は【Contrastive Language-Image Pretraining】となります。
大量の画像とテキストをベクトル化し、その組み合わせを事前に学習。
その類似度を算出後、特定の画像に対して適切な画像を選択する技術です。
つまり、大量にある情報の中から「犬」というテキストと「犬の画像」の類似度を算出し、入力されたプロンプトの内容から最も類似度が高いと思われる画像を生成してくれる、ということです。
拡散モデル
拡散モデルは現在の画像生成のベースになっている技術です。
現在の画像生成についてざっくりと説明すると、ある画像にノイズを当て続け、完全にノイズになったものから逆にノイズを取り除き、元の画像とノイズから復元した画像が近しいものになるように学習する技術になります。
この元の画像とノイズから復元した画像の誤差を少なくする試みが拡散モデルと呼ばれるものです。
他にもテキストをベクトル化する際にTransformerという技術が利用されていたり、CNNが利用されていたりと様々な技術を利用しDALL-E2は開発されたのです。
今回はDALL-E2の簡単な仕組みなどについて解説いたしました。
この記事を読んで少しでも面白そう、やってみたいと感じられた方は実際に利用してみてくださいね。
今後も生成系のAIは開発され、さまざまな特色を持ったものが増えていくことでしょう。
他の生成系のAIについても解説をしていきますのでよかったらそちらもお読みくださいね。
投稿者プロフィール
-
美容が好きな20代。貯金は美容にかけていることが多いです。
インコのザシアンと一緒に暮らしています。
最新の投稿
- 経営・人材管理2024年7月12日労働環境の改善に役立つ助成金を紹介していきます。
- 経営・人材管理2024年7月12日【2022年版】助成金の概要と用途別まとめ【随時更新】
- 経営・人材管理2024年7月12日【働く女性支援】女性を支援する助成金まとめ
- 経営・人材管理2024年7月12日Epics DAO、オープンソースソフト開発者向け助成金プロジェクト開始