그동안 2 년 가까이 BLDC/PMSM 모터제어로 전류를 정밀하게 제어하는 방법을 찾으려고 관련 논문을 수백편 뒤져서 최근에 모터의 정밀 전류제어 구현 기법을 99 % 터득에 성공했다 ...
저는 그동안 모터제어만 판것은 아니고 카메라 이미지센서의 화질 보정 알고리즘을 터득하려고 논문과 특허를 수도 없이 뒤져서 결국 터득에 성공했다 ...
밥벌이를 하려고 이것만 한것은 아니다 ...
딥러닝 NeRF 논문과 StyleGAN 논문의 핵심 딥러닝 모델 설계 구조를 파악하느라 고생 좀 했다 ...
또한 구글 Transformer Model 기반으로 음성인식 구현을 위한 딥러닝 모델 세부 설계구조 분석도 결코 쉽지 않았다 ...
이것으로 밥벌이를 하려 99% 준비해 놨는데 경기가 죽어서 일꺼리 얻기가 하늘에 별따기라 너무 힘들다 ...
이렇게 힘들어도 나는 자신있다 왜냐하면 위에서 언급한 99 점 짜리 기술이 몇가지가 있으니 언젠가 반드시 기회가 오리라 나는 확신하기 때문이다 ...
저는 NeRF 논문, StyleGAN V2 논문, 초거대 모델 ChatGPT 모델에 적용되 있는 핵심 학습 알고리즘 구현이 실제로 어떻게 구체적으로 설계되 있는지를 깊이 있게 이해하고 있습니다. 저는 팀 구성없이 나 혼자 힘으로 논문을 분석해서 처리할 수 있는 능력을 갖추었습니다. 저는 NeRF 논문, StyleGAN V2 논문, 초거대 모델 ChatGPT 모델 의 여러 핵심 알고리즘을 자문하는 방식으로 도움을 드릴 수 있습니다.
StyleGAN V2 논문 모델 의 핵심 알고리즘 설계구조 및 원리를 확실히 파악 성공했읍니다 ...
StyleGAN V2 논문은 StyleGAN의 개선된 버전으로, Style Transfer 알고리즘을 이용하여 가상인간 아바타의 얼굴 Style Transfer를 구현 가능합니다. Style Transfer 알고리즘은 다음과 같은 과정으로 이루어집니다.
Mapping Network의 8개의 완전연결층(FC)이 z공간에서 잠재벡터들이 서로 가까이 있을수록 비슷한 스타일을 가지게 학습이 가능한 이유는 다음과 같습니다.
Mapping Network는 z와 w 사이의 비선형 매핑을 가능하게 하고, 스타일의 다양성과 연속성을 증가시킵니다. Mapping Network는 z를 입력받아서 여러 층을 거치면서 비선형 변환을 수행하고, w를 출력합니다. 이때, w공간에서는 각 차원이 서로 독립적이고 의미있는 스타일 요소를 표현하도록 학습됩니다.
Mapping Network는 Style Mixing Regularization이라는 기법을 사용하여 학습됩니다. 이 기법은 두 개의 잠재벡터(z1, z2)를 Mapping Network에 통과시켜서 두 개의 w벡터(w1, w2)를 얻고, 이 두 벡터를 Synthesis Network의 일부 층에서 섞어서 입력하는 방식입니다. 이렇게 하면 Synthesis Network가 다양한 스타일 조합에 적응하도록 하고, w공간에서의 스타일 요소들이 서로 연관되지 않도록 합니다.
Mapping Network는 Perceptual Path Length라는 지표로 측정할 수 있는 z공간과 W공간 사이의 관계를 학습합니다. 이 지표는 z공간에서 잠재벡터를 작게 변화시켰을 때, 생성된 이미지가 얼마나 많이 변화하는지를 VGG16 모델을 이용하여 계산합니다. 이 지표가 작을수록 z공간에서 잠재벡터들이 서로 가까이 있을수록 비슷한 스타일을 가지고, 멀리 있을수록 다른 스타일을 가지도록 학습된 것입니다.
즉, Mapping Network는 z공간에서 잠재벡터들이 서로 가까운 위치에 있으면 비슷한 스타일 요소를 가진 w벡터로 변환하고, 서로 먼 위치에 있으면 다른 스타일 요소를 가진 w벡터로 변환하도록 학습됩니다. 그리고 Synthesis Network는 w벡터에 따라서 생성된 이미지의 스타일을 결정합니다. 따라서 Mapping Network의 8개의 완전연결층(FC)은 z공간에서 잠재벡터들이 서로 가까이 있을수록 비슷한 스타일을 가지게 학습이 가능합니다.
AdaIN과 Weight Demodulation은 모두 StyleGAN에서 이미지의 스타일을 제어하기 위한 방법입니다. 그러나 두 방법은 다음과 같은 차이점을 가지고 있습니다.
AdaIN은 특징 맵의 평균과 분산을 정규화하는 방법입니다. AdaIN은 각 레이어에서 잠재 벡터 w로부터 계산된 스타일 파라미터를 이용하여 특징 맵의 평균과 분산을 정규화합니다. AdaIN은 스타일 전달(style transfer)에서 영감을 받았으며, 이미지의 스타일과 콘텐츠를 분리하는 데 도움이 됩니다.
Weight Demodulation은 합성곱 가중치의 크기를 정규화하는 방법입니다. Weight Demodulation은 AdaIN 대신 합성곱 가중치를 정규화하여 특징 맵의 크기에 영향을 주는 스타일 정보를 제거합니다. Weight Demodulation은 StyleGAN2에서 도입된 개선된 방법으로, AdaIN의 한계점인 물방울 모양의 아티팩트(artifacts)를 줄이기 위한 것입니다.
즉, AdaIN은 특징 맵 자체를 정규화하고, Weight Demodulation은 합성곱 가중치를 정규화한다는 점이 가장 큰 차이점입니다. 또한, AdaIN은 StyleGAN에서 사용되고, Weight Demodulation은 StyleGAN2에서 사용된다는 점도 차이점입니다.
Weight Demodulation의 합성곱 가중치 크기 정규화 관련 설계원리 및 구조는 다음과 같습니다.
Weight Demodulation은 합성곱 가중치에 Weight Modulation과 Demodulation 두 가지 과정을 적용합니다. Weight Modulation은 스타일 벡터를 합성곱 가중치에 곱하는 것이고, Demodulation은 합성곱 가중치의 크기를 정규화하는 것입니다.
Weight Demodulation은 StyleGAN에서 발생하는 artifact라는 결함을 해결하기 위해 도입되었습니다. Artifact란 합성된 이미지에 일부 영역이 주변과 불일치하는 현상을 말합니다. 이는 합성곱 가중치의 크기가 너무 커서 입력 데이터의 세부 정보를 잃어버리기 때문에 발생한다고 추정됩니다.
Weight Demodulation은 합성곱 가중치의 크기를 정규화함으로써, 입력 데이터의 세부 정보를 보존하고, artifact를 제거하며, 이미지 품질을 향상시킵니다. 또한, Weight Demodulation은 스타일 벡터와 합성곱 가중치 사이의 상호작용을 강화하고, 스타일 변화에 민감하게 반응하도록 합니다
Weight Modulation과 Demodulation의 목적과 이유에 대해 간단히 설명하겠습니다.
Weight Modulation의 목적은 스타일 벡터를 합성곱 가중치에 반영하여, 이미지의 스타일을 제어하는 것입니다. Weight Modulation의 이유는 스타일 벡터와 합성곱 가중치 사이의 상호작용을 강화하고, 스타일 변화에 민감하게 반응하도록 하기 위해서입니다 . Weight Modulation은 스타일 벡터를 합성곱 가중치에 곱하는 것으로, 합성곱 가중치를 스타일 벡터에 따라 동적으로 변화시킵니다.
Demodulation의 목적은 합성곱 가중치의 크기를 정규화하여, 이미지의 품질을 향상시키는 것입니다. Demodulation의 이유는 합성곱 가중치의 크기가 너무 커지거나 작아지면, 입력 데이터의 세부 정보를 잃어버리거나, 이미지에 결함을 유발할 수 있기 때문입니다 . Demodulation은 합성곱 가중치의 크기를 L2 norm으로 나누는 것으로, 합성곱 가중치의 크기를 1 에 가깝게 만듭니다.
제가 운영하는 딥 네트워크는 딥러닝 모델분석 전문가로서 기술컨설팅이 가능합니다. 저희는 고객의 요구와 목적에 맞게 최적의 딥 네트워크 설계와 구현을 도와드립니다. 저희는 고객의 데이터와 문제에 적합한 핵심 학습 알고리즘을 선택하고 적용합니다. 저희는 고객의 딥 네트워크의 성능과 안정성을 향상시키고 최적화합니다.
저희 회사와 함께라면 귀사의 딥러닝 모델의 핵심 알고리즘을 분석하는데 어떤 어려움도 없을 것입니다.
제가 운영하는 일인기업 딥 네트워크 장석원
제가 사업화를 준비했던 기술들 몇가지에 대해 사업화 준비 내용을 소개하는 기업블로그 입니다 ...