저도 GPT-3 Foundation Model 구축에 필요한것 모든것을 그동안 3 년 넘게 공부하고 있읍니다 ... GPT-3 Model 를 텐서플로우로 구현하는 세부 노하우도 한 3 년 가까이 수백편 논문도 살펴 봤지만 텐서플로우로 GPT-3 구현 노하우도 뭐 연봉 10 억 100 억짜리 전문가는 아니더라도 나름 파악에 성공 했읍니다 ... GPT-3 학습 데이터를 준비하려면 Web Crawling 기법 세부 파악도 필요하고 이것 파악도 만만치는 않읍니다 ... GPT-3 도 거의 90 % 학습 데이터가 Web Crawling 기법으로 확보한것 이거든요 ... GPT-3 공부 기본 준비단계인 학습 데이터 준비도 이렇게 만만치는 않더라구요 ... 그럼 Web Crawling 기법 노하우를 확보하면 다 해결되느냐 하면 또 하나의 큰 장벽이 하나 더 있읍니다 ... 바로 클라우드 GPU 서버 인프라 구축 노하우 확보 부분 입니다 ... 2020 년에 발표된 GPT-3 Model 의 경우 학습데이터가 거의 90 % 가 영어로 구성된 500 B 크기의 토큰으로 구성된 학습 데이터셋으로 학습시킨것 이거든요 ... 저는 GPU 클라우드 서버 구축 관련해서 GPT-3 의 경우를 예를 들면 500 B 크기의 토큰 학습 데이터 로 모델을 학습 및 추론을 시킬때에도 이를 학습 및 추론을 시키려면 클라우드 서버를 클러스터링 구조 설계를 하려면 어떻게 구현 해야 하는지 등등을 분석 작업을 했읍니다 ... 클라우드 GPU 인프라를 구축하려면 엔비디아 GPU 분산학습 및 병렬학습이 어떤 엔비디아의 A100 GPU 인프라 세부 개발환경의 설계 구조하에서 어떻게 동작하는지 이런것 파악이 필요 합니다 ... GPT-3 Model 의 경우도 모델의 세부 설계 구조, 그 중에서도 언어(영어와 한국어)의 토큰나이징과 임베딩 구현 노하우 파악이 굉장히 중요 하거든요 ... 한국어를 형태소 단위로 토큰나이징 하는 노하우 확보에 성공했구요 ... GPT-3 의 경우 처리 가능한 Context 토큰 의 갯수가 2048 개로 제한 된니다 ... 즉 문장이 길어지면 GPT-3 의 이해도가 많이 떨어지는 모델 구조라 합니다 ... 이 Context 처리 토큰의 갯수를 증가 시킬수 있는 즉 문장이 길어 져도 GPT-3 가 이해 가능하게 설계 기법 노하우 파악도 성공 했읍니다 .... 이 글 보시고 대기업 관계자 분께서 연락 주셨으면 합니다 ... 저도 일인 AI 스타트업이지만 저희 기업의 노하우는 여기에 공개하기가 어려운 점 이해해 주셨으면 합니다 ...
일인 AI 스타트업 딥네트워크 CEO 장석원 60 세 입니다 E-Mail : sayhi7@daum.net