요즘 ChatGPT 의 추론 서비스 비용 절감 방안 이슈 가 세상을 떠들썩하게 합니다 ... ChatGPT 추론 서비스도 제일 말단인 GPU 단에서 추론 서비스 최적화가 덜 됬기 때문에 그동안 비용이 많이 들었는데 이것을 처리하려면 GPU 설계 원천 기술을 보유한 엔비디아의 기술지원 없이 처리하기가 쉽지 않읍니다 ... 최근에 제가 파악한 바로는 엔비디아에서 LLM 의 추론 성능 최적화를 위한 GPU 최적화 처리는 엔비디아가 처리하겠다고 하고 있읍니다 ... 엔비디아는 결국 학습 처리시 GPU 처리 지원도 하지만 결국 돈이 되는 추론 서비스시의 솔루션도 엔비디아가 독식하겠다는 의사를 표명하고 있읍니다 ... 이 GPU 최적화가 결국 요즘 돌풍이 글로벌 기업에서 불고 있는 NPU 의 추론 성능 개선과도 서로 밀접한 관계가 있읍니다 ... 글로벌 기업도 학습에서의 엔비디아의 GPU 처리를 앞지르는 기술개발에 어려움이 있었기에 결국 NPU 에서의 추론 서비스 성능 향상에 목을 매고 있는 형국 입니다 ... 저희 딥네트워크는 엔비디아의 학습시의 GPU 처리 부분 세부 분석을 하다 보니 이게 추론 비용 절감과도 연결되 있다는것을 파악할수 있었구요 ... 제가 그동안 분석한 내용은 GPU 에서 추론 비용절감을 하려면 결국 엔비디아 GPU 의 설계 구조를 좀 더 세심히 파악하는게 필요하다는것을 알게 되었고 결국 GPU 설계 구조 / CUDA 설계 구조 / 엔비디아의 초고속 네트웍 설계 기술이 서로 유기적으로 연동되 있다는것을 파악했읍니다 ... 이글에서 제가 GPU 로 추론 서비스 비용 절감 을 위해 GPU 의 어떤 설계 구조를 어떤식으로 어떻게 CUDA 로 어떻게 병렬 처리할것 인가가 핵심인데 저는 이에 대해 세부 기술 이슈 몇가지의 심도 있는 기술정보를 확보하고 있읍니다 ... 저도 엔비디아의 GPU 원천기술을 다 알고 있지는 못해도 추론 서비스 성능 향상에 필요한 세부 기술 이슈에 대한 정보를 확보하고 있기에 많은 저희 딥네트워크와 협업 방안 에 대한 문의를 부탁드립니다 ...
일인 AI 스타트업 딥네트워크 CEO / CTO 장석원 / sayhi7@daum.net