인공지능 논문

[논문 리뷰] DALL-E 2 : Zero-Shot Text-to-Image Generation

i070505 2022. 9. 18. 19:36

DALL-E 2

이번에는 OpenAI에서 발표한 DALL-E라는 모델에 대해 파헤쳐보겠습니다.

이 모델은 내가 쓴 글을 그대로 이미지로 생성해냅니다. 

얼마나 이미지를 잘 생성하냐고요?

 

"아보카도와 비슷한 모양을 가진 의자"

"1990년대 기술로 수중에서 새로운 AI 연구를 하는 테디베어"

 

정말 신기하죠!

텍스트 입력후 단 1~10초 사이에 실제 사진과 유사한 사진들이 생성됩니다!

저희는 "아보카도 모양을 가진 의자" 라는 텍스트를 읽으면 머리 속에 어렴풋이 어떤 그림이 그려지실 것 입니다.

하지만 즉시 그자리에서 실제 처럼 그려내는 것은 또다른 차원의 능력이죠!

 

DALL-E는 GPT라는 생성 모델을 기반으로 만들어졌습니다.

참고로 GPT, DALL-E 모두 OpenAI라는 회사에서 나왔습니다.

GPT가 처음나왔을때 언론에서는 드디어 인공지능이 인간의 일자리를 대체할 것 AI가 나왔다고 보도할만큼

혁신적인 생성 모델입니다.

언제 한번 GPT에 대해 글을 써봐야겠네요..

 

트랜스퍼 (TRANSFORMER)

단어를 하나하나 보는 RNN보다 더 효과적으로 Self-attention이라는 원리를 통해 더 빠르고 효과적으로 단어 간의 관계를 학습할 수 있는 모델이죠.

기계 번역에 활용된 트랜스포머

 

기계 번역은 한 언어에서 다른 언어로 바꾸어야 하기 때문에 인코더(encoder)-디코더(decoder)가 필요했지만, 언어 모델은 하나의 언어로만 하기 때문에 디코더 트랜스포머만 있어도 충분했다합니다.

트랜스포머 디코더만 활용한 GPT 출

 

DALL-E의 트랜스포머

DALL-E의 트랜스포머는 GPT-3와 구조는 비슷합니다. 들어가는 데이터의 형태가 다를 뿐이죠. 바로 텍스트 토큰과 이미지 토큰이 함께 하나의 데이터 스트림으로 구성된다는 점이 큰 차이점입니다.

 

 

내일 마저 작성하레요

 

 

 

'인공지능 논문' 카테고리의 다른 글

[논문 리뷰] AlphaFold(알파폴드)2  (0) 2022.09.17