올해 나이 60 이 됬다 ...   대기업 연구소도 대학원 졸업하고 한동안 다녀보고 그동안 30 년 할 얘기가 참 많다 ...    인생에는 정답이 없는것 같다 ...  그동안 30 년은 그럭저럭 밥벌이는 했는데 문제는 지금 부터다 ...   나이 60 이니 이제 회사에 조인해 일하는것은 너무 힘들어졌다 ...    그래서 한 5 년전부터 매일 매일  하루에 최소 3 시간 이상을 글로벌 대기업에서 이슈화가 많이 되는 기술분야를 공부를 적극적으로 시작했다 ...   지금 생각하면 이렇게 5 년전에 공부를 시작한게 진짜 잘한 일이 됬다 ...    요즘 가장 뜨겁게 이슈화가 되는 기술분야인 인공지능 초거대 모델 개발을 주로 대기업들이 진행하고 있다 ...   OpenAI 는 ChatGPT 개발 인프라 구축에 거의 1 조 를 썼다고 본것 같다 ...  요즘 살펴보니 OpenAI 는 능력있는 ChatGPT 전문가 영입에 100 억을 쓴다고 본것 같다 ...  주변 얘기가 이러하니 감히 저 같은 소기업은 이런 초거대 모델 뭘 하겠다는 얘기를 할수가 없는 상황이다 ...   그래도 5 년전부터 GPT 를 관심있게 살피기 시작했구요 ...    나 같은 소기업이 초거대 모델을 공부해 보려면 뭘 어디 부터 살펴봐야 하는지 가늠하기가 참 어려웠다 ...   맨 처음 공부 시작할때 든 생각은 구글 트랜스포머 모델을 잘 분석해 봐야 겠다라고 생각했구요 ...    공부하다 보니 구글 트랜스포머 모델로  GPT 모델을 학습시키려면 초기에 공부 시작할때 든 생각은  딥러닝 모델 세부 구조를 어떻게 구성해야 하나가 제일 중요한줄 알았다 ...  공부하다 보니  분산학습 시  구글 트랜스포머 모델을 어떤식으로 동작하도록 구현해야 하는지가 더 중요할수 있겠다고  깨닮음이 있었다 ...   이렇게 깨닮음을 얻기는 했는데 공부하다 보니  구글 트랜스포머 모델을 학습 시키는데 필요한  엔비디아 딥러닝 서버 DGX-1 의  HW 설계 및 SW 설계를 파악이 필요하다는것을 절실히 느꼈다 ...    산 너머 산 이다 ...   지금 하나 하나 파악해 가고 있다 ...    엔비디아 딥러닝 서버 SW 설계의 핵심 중 하나가 리눅스커널상에서  엔비디아 딥러닝 서버의 네트웍 통신 개발 환경을 어떤식으로 구현했는지  또 이것을 구글 텐서플로우 환경에 어떻게 적용시켰는지 뭐 이런것 파악이  분산학습 이나 병렬학습 공부시 필요해서 공부중이다 ...      요즘 엔비디아 A100 GPU 나 H100 GPU 가 초거대 모델 구현시 너무나 큰 비중을 차지하는것이 요즘 화두 이기에  이걸 견제하려고  전 세계 글로벌 기업들이 너도나도 할것 없이 나만의 NPU 개발을 위해 시도를 하고 있다 ...  내가 지금까지 애기한 이런것들을 공부를 하는것도 나한테 기회가 오면 나도 NPU 관련 이슈도 대응할 능력을 갖기 위해서다 ...    NPU 이슈 전체 대응 능력 보유는 쉽지 않으니 그 일부라도 확실히 준비하자는게 나의 생각 이다 ...     

딥네트워크   장석원   HP  010 3350 6509   이메일  sayhi7@daum.net    

+ Recent posts