Stable Cascade 공개, Stability AI의 모듈식 접근 최신 이미지 생성 기술

11123124123 2024.02.15. 06:57

195 0 0

https://mbong.kr/plusd/2058438 복사

Stability AI의 새로운 이미지 생성 모델 출시

Stability 디퓨전 기술의 발전으로 더 유연하고 효율적인 이미지 생성을 목표로 함.

Stable Cascade의 아키텍처 및 기술 특징

모듈식 3단계 아키텍처 사용: A, B, C 단계로 구성된 작은 모델 파이프라인.

C 단계에서 텍스트 프롬프트를 24x24픽셀의 잠상 이미지로 변환하고, 나머지 단계에서 고해상도 이미지로 디코딩.

Würstchen 아키텍처를 통한 성능 및 정확도 개선, 압축된 이미지 표현을 학습하여 계산 요구 사항 감소.

Stable Cascade의 성능 및 기능

이미지 품질과 추론 속도에서 다른 주요 AI 아트 모델보다 우수한 성능을 보임.

14억 개의 추가 파라미터에도 불구하고 SDXL보다 빠른 추론 시간.

텍스트 생성에 중점을 둔 타이포그래피 기능으로 다양하고 일관된 이미지 생성.

이미지 변형, 노이즈 추가, 컨트롤넷 지원 등의 기능 제공.

연구용 프리뷰 버전으로 GitHub에서 코드 다운로드 가능.

인기 있는 스테이블 디퓨전 텍스트-이미지 생성 AI 기술인 스테이블 디퓨전의 개발사인 Stability AI는 이제 스테이블 캐스케이드라는 새로운 이미지 생성 모델을 미리 선보입니다.

이 새로운 모델은 현재 세대의 스테이블 디퓨전 모델보다 더 유연하고 효율적인 이미지 생성에 대한 새로운 접근 방식을 입증하는 데 도움을 주기 위한 것입니다. 스테이블리티 AI는 2022년부터 핵심인 스테이블 디퓨전 모델을 꾸준히 개선해 왔습니다. 2023년 7월에 출시된 SDXL 1.0은 새로운 플래그십 릴리스였으며, 2023년 11월에 SDXL 터보 업데이트를 통해 더욱 가속화되었습니다.

스테이블 캐스케이드는 SDXL과는 다소 다른 아키텍처를 사용해 Stability AI 연구자들이 더 효율적일 것으로 기대하는 이미지를 생성합니다. 이 새로운 접근 방식은 일련의 혁신적인 기술을 사용하여 성능과 정확도를 향상시키는 Würstchen 아키텍처를 기반으로 합니다.

"우리 연구의 핵심은 확산 과정을 안내하는 데 사용되는 상세하지만 매우 압축적인 의미론적 이미지 표현을 학습하는 잠재적 확산 기법을 개발하는 것입니다."라고 Würstchen 연구 초록은 설명합니다. "이 고도로 압축된 이미지 표현은 언어의 잠재적 표현에 비해 훨씬 더 상세한 지침을 제공하며, 이를 통해 최첨단 결과를 얻기 위한 계산 요구 사항을 크게 줄일 수 있습니다."

Stable Cascade는 모듈식 3단계 아키텍처를 사용합니다.

스테이블 캐스케이드는 하나의 큰 모델을 사용하는 스테이블 디퓨전과 달리 스테이지 A, B, C라고 하는 세 개의 작은 모델로 구성된 파이프라인을 활용합니다. 이 모듈식 아키텍처는 교육 효율성과 사용자 지정에 큰 이점을 제공합니다.

첫 번째 단계인 C단계는 텍스트 프롬프트를 24×24픽셀의 컴팩트한 잠상 이미지로 변환합니다. 그런 다음 2단계와 3단계에서는 이 잠상을 완전한 고해상도 이미지로 디코딩합니다. 텍스트 대 이미지 생성과 이미지 디코딩을 분리함으로써 초기 텍스트 조건부 모델을 훨씬 더 효율적으로 훈련하고 미세 조정할 수 있습니다. Stability AI에 따르면, C 단계를 미세 조정하는 것만으로도 동일한 크기의 단일 Stable Diffusion 모델을 미세 조정하는 것보다 16배의 비용 절감 효과를 얻을 수 있습니다.

또한 직접 선호도 최적화(DPO)를 통해 이미지 품질을 더욱 개선할 수 있는 잠재력도 있습니다. 2023년 VentureBeat와의 인터뷰에서 Stability AI의 창립자이자 CEO인 Emad Mostaque는 DPO가 모델을 인간의 선호도에 맞게 조정하는 데 사용되는 강화 학습의 대안적 접근 방식이라고 설명했습니다.

"#stablecascade 출력은 DPO(3단계 참고...)를 사용하면 훨씬 더 좋아질 것이며 물론 터보파이, 정량화 등도 가능합니다." Mostaque는 X(이전 트위터) 메시지에서 이렇게 썼습니다. "이것은 연구용 프리뷰 벤치마크/바닐라 모델이지만 ComfyUI 플로우로 개선할 수 있는 훌륭한 이미지와 견고한 텍스트를 즉시 생성합니다."

이미지의 텍스트 생성이 크게 향상됨

Stability AI의 평가에서 Stable Cascade는 이미지 품질과 신속한 정렬 측면에서 SDXL을 비롯한 다른 주요 AI 아트 모델보다 뛰어난 성능을 보였습니다.

놀랍게도 SDXL보다 14억 개의 파라미터가 더 많음에도 불구하고 Stable Cascade의 추론 시간은 더 빨랐습니다. Stability AI에 따르면, 압축된 잠재 공간은 다단계 접근 방식을 통해 모델이 복잡한 이미지를 더 효율적으로 생성할 수 있게 해줍니다.

Stable Cascade 공개, Stability AI의 모듈식 접근 최신 이미지 생성 기술 | mbong.kr 엠봉

또한 주목할 만한 점은 이미지 내부에 텍스트를 올바르게 생성하는 Stable Cascade의 타이포그래피 기능인데, 이 기능은 SDXL이 뛰어나지 않습니다. Ideogram과 OpenAI의 DALL-E 3와 같은 다른 텍스트-이미지 생성 AI 기술도 최근 몇 달 동안 텍스트 생성을 개선하기 위해 점점 더 많은 진전을 보이고 있지만, 결과는 엇갈리고 있습니다. 벤처비트가 실시한 제한적인 테스트에서 스테이블 캐스케이드는 아직 완벽하지는 않지만 즉각적인 요청에서 이미지에 적절한 텍스트를 보다 일관되게 생성했습니다.

Stable Cascade로 더욱 다양하고 일관성 있는 이미지 제공

스테이블 캐스케이드는 이미지 변형을 포함한 다른 기능도 지원합니다.

스테이블 캐스케이드는 스타일과 구도 같은 측면을 유지하면서 주어진 이미지의 새로운 변형을 생성할 수 있습니다. 이 모델은 입력 이미지에 노이즈를 추가하고 새로운 이미지를 생성하여 이미지 간 변환을 수행할 수도 있습니다. 컨트롤넷을 지원하므로 인페인팅 및 초고해상도와 같은 고급 기술을 사용할 수 있습니다. 스테이블 캐스케이드는 현재 연구용 프리뷰 버전으로, 비상업적 용도로 사용할 수 있으며 GitHub에서 코드를 다운로드할 수 있습니다.

(단순 번역으로 오역이 있을수 있습니다 자세한 내용은 원문 참조 부탁드립니다)

https://venturebeat.com/ai/what-comes-after-stable-diffusion-stable-cascade-could-be-stability-ais-future-text-to-image-generative-ai-model/

★★★★★★★★★★

신고스크랩