IT 분야에서 일한지 30 년이다 ... 요즘 엔비디아 시총이 2400조 라고 떠들석 하다 ... 엔비디아는 그동안 GPU 를 V100 / A100 / H100 을 대만 TSMC 에서 제조해왔다 ... 요즘 초거대 언어 모델 이슈가 한국이나 외국 언론을 도배하고 있다 ... 초거대 모델 GPT-3.5 같은걸 어떻게 개발하는가의 원천 기술을 확보하려고 글로벌 기업들이 혈안이 되있다 ... 이런 GPT-3.5 Model 같은 경우도 세부 모델 설계 구조 정보는 대외비이고 GPT-3 의 경우도 모델 설계 구조는 비공개로 알고 있다 ... 그래서 EleutherAI 이라는 GPT-3 의 오픈소스 버전인 GPT-J 모델을 학습하여 공개했다고 하고 이것을 기반으로 개발준비를 하는곳도 꽤 있는듯 하다 ... 왜냐하면 GPT-3 가 어떤 구조일때 어떻게 특성을 내는지 이 모델로 파악이 가능하기 때문이다. GPT-J와 GPT-NeoX는 일루더에이아이 라는 곳에서 만든 GPT Opensource 이다. EleutherAI는 자발적인 연구자, 엔지니어, 개발자들이 만든 오픈소스 AI 단체이다. Large Language Model (LLM)을 오픈소스로 만드는 것으로 알려져 있다. 저도 GPT-3.5 내지 GPT-3 의 모델구조 파악과 지식증류를 하려면 필요한 GPT-3 모델의 세부 구조 정보 같은것도 상당히 파악되 있고 이것을 TensorFlow API 로 어떻게 적용해 구현하는지도 상당 부분 파악되 있다고 자신한다 ... 그런데 이렇게 초거대 모델을 한 3 년 공부하다 보니 도대체 클라우드 GPU 서버는 어덯게 동작시켜서 GPT-3 Model 을 클라우드 GPU 서버에서 텐서플로우 개발환경을 어떻게 A100 / H100 GPU 에서 어떻게 동작시키는지를 파악이 필요하다고 느겼다 ... 이것을 구현하려면 도커 설계 기술이 필요하다 ... 도커 기술로 엔비디아 GPU 를 동작시킬수 있다 ... 이렇게 도커 설계 기술로 엔비디아 GPU 를 동작시키려면 이를 구동하는 엔비디아 라이브러리 기능을 하는것의 SW 개발이 필요하다. 요즘 한창 한국의 팹리스에서 NPU 를 만드는게 붐 인데 이게 엔비디아 처럼 크려면 이런 엔비디아 처럼 엔비디아의 GPU 를 동작시키려면 이를 구동하는 엔비디아 라이브러리 기능(한국의 팹리스에서는 한국의 팹리스가 개발한 NPU(신경망처리장치) 의 동작 라이브러리 같은것의)을 하는것의 SW 개발이 필요하다. 이런것 구상은 되 있는데 이런것 관련해서 아직 제가 알려지지 않아서 공동으로 기술이슈 파악같은 제의가 아직은 없는데 추후 이런 제의도 이 블로그를 보고 연락을 주시길 기대한다 ...
딥네트워크 장석원 010 3350 6509 sayhi7@daum.net