딥 네트워크 - 딥러닝 모델 분석/네트웍 통신/카메라 3A 튜닝 분야

나는 요근래 GPT-3 같은 초거대 모델의 사전학습 모델 구현에 대해 분석하고 있다 .... 본문

Kernel Porting/Linux

나는 요근래 GPT-3 같은 초거대 모델의 사전학습 모델 구현에 대해 분석하고 있다 ....

파란새 2024. 2. 7. 05:48

GPT-3 사전학습 모델 구현 이해가 초거대 모델 구현의 기본중 기본이다 ....   어떤 동작원리와 설계 구조로 몇천억개의 학습데이터를 분산학습 및 병렬학습을 도대체 어떻게 구현했을까가 가장 궁금했다 ...   구글 텐서플로우 개발환경에서 딥러닝 분산학습과 병렬학습의 구현에 필요한 기술요소들의 지원이 되고 있고 한동안 이것의 세부 설계 방안에 대해 심도있게 분석도 했었다 ...    이것만 파악하면 초거대 모델의 사전 학습이 처리가 되느냐 하면 그건 아니다 ...   예를들어 클라우드 환경인 AWS GPU 서버들이 어떤 네트웍 통신구조를 가져야  수천억개의 학습 데이터의 분산 병렬 학습에 필요한 네트웍 통신이 가능할지 이런것을 구글 텐서플로우 개발 전문가들은 어떤식으로 처리를 했을지 그런것들의 검토 분석이 세부적으로 필요하다 ...    나도 이런 검토사항들을 완벽히 파악은 못했고 그 핵심 몇가지를 파악하는데 성공했다 ...    이렇게 초거대 모델의 사전학습이 완료되면 이 사전 학습 모델을 적용해서 초거대 모델의 세부 응용분야가 굉장히 여러 분야지만 어떤 특정 분야에 특화해서 성능이 우수한 초거대 모델을 개발할수 있을것 이다 ...    나는 이렇게 초거대 모델을 어떤 특정 분야에 특화해서  세부 커스토마이징 처리가 어떻게 되야 이것이 가능한지 그 설계 구조를 이해 하고 있다 ....    나도 이런것들의 분석이 가능해진게 초거대 모델 세부분석 준비를 시작한게 거의 3 년전쯤 이다 ...  3 년 동안 이 자료 저 자료 검토분석하다 보니 이런 저런 시행착오들이 쌓이고 쌓여서 내가 이런것들의 파악이 가능하게 하는것 같다 ...      나는 이제 나이 60 인데 내 나이에 맞지 않는 분야지만 나이는 숫자에 불과하다를 얘기하고 싶다 ...             

딥네트워크    장석원    HP   010 3350 6509    이메일   sayhi7@daum.net