딥 네트워크 - 딥러닝 모델 분석/네트웍 통신/카메라 3A 튜닝 분야

[기술컨설팅 가능 합니다] OpenAI 가 발표한 Text To Video 의 SORA 모델의 세부설계 구조와 원리 파악에 성공해 기분 좋다 ... 본문

Kernel Porting/Linux

[기술컨설팅 가능 합니다] OpenAI 가 발표한 Text To Video 의 SORA 모델의 세부설계 구조와 원리 파악에 성공해 기분 좋다 ...

파란새 2024. 2. 18. 02:01

OpenAI 가 발표한 Text To Video  의 SORA 모델의 세부설계 구조와 원리 파악에 성공해 기분 좋다 ...    그동안 디퓨젼 모델 도 분석을 했던게 큰 도움이 된것 같다    Sora는 트랜스포머 아키텍처를 기반으로 하며, 비디오와 이미지를 패치라는 작은 데이터 단위로 표현한다.  이를 통해 다양한 길이, 해상도, 종횡비를 가진 시각 데이터에 대해 효율적으로 학습할 수 있다.    Sora는 DALL-E의 리캡션기법을 사용하여 생성된 비디오에서 텍스트 프롬프트를 더 잘 따르도록 한다. 리캡션기법은 시각적 훈련 데이터에 대해 설명력이 높은 캡션을 생성하는 방법이다.   그리고 Text to Image Model 세부 구조 분석이 됬던 부분이  Sora Model 이해하는데 도움이 된것 같다 ...   Text to Image Model은 트랜스포머 아키텍처를 기반으로 하며, 이미지를 패치라는 작은 데이터 단위로 표현한다. 이를 통해 다양한 해상도, 종횡비를 가진 시각 데이터에 대해 효율적으로 학습할 수 있다.

이런 부분들 이야기해 볼수 있는 업체의 연락을 기다립니다 ....   

딥네트워크     장석원     010-3350 6509      이메일    sayhi7@daum.net