안녕하세요 ?  딥네트워크 장석원 입니다 ...

아래의  페이스북에서 퍼 온 네이버 하정우 센터장님 말씀 이해가 갑니다 ....

저희 딥네트워크는 o1 시리즈 같이 그동안 2 년 동안 계속 성능 업데이트를 위해 개선된 기법을 적용한것까지의 세세한것 까지는 아니어도 프로토타입의 기본 설계 구조가 어떤 식으로 왜 이렇게 동작하는지 정도 까지를 저희 딥네트워크는 구현 노하우를 확보하고 있읍니다 ...   저는 솔찍히 개선 된 기법들이 계속 발표되서 쫓아가다가 이제 힘에 버거워서 기본 동작 프로토타입 까지 정도만 확실히 노하우를 확보하자고 저 자신은 생각하고 있읍니다 ...   요즘 나오는 성능 결과를 보면 데이터셋은 최소 몇 Trillion 개의 토큰 정도의 준비는 필요하구요 ...   여기에 GPT-3 Model 설계 구조의 이해가 필요하구요 ...  GPT-3 모델 구조도 초기에 몇가지 개선 아이디어 나온것 까지만 저는 노하우를 확보하고 있읍니다 ...  GPT-3 Model 의 경우 약 500 B 개의 토큰으로 학습 데이터 확보를 웹 상으로 확보해야 하는것 이라든가 GPU Cloud Infra 구축 세부 노하우 즉 분산학습 및 병렬학습 기법을  다 안다면 뻥 이구  어느 정도까지는 이해하고 있읍니다 ...

GPT-3  정도만 구축하려해도 최소 몇천억 정도의 자금이 필요한데 저 같은 소기업은 GPT-3 관련 수백편의 논문 세부 분석을 통해 세부 구현 노하우를 파악하는 정도가 저같은 소기업이 가능한 맥시멈 이라고 저는 판단합니다 ...

 

 

Our deep network has secured know-how on implementing the basic design structure of a prototype, including an understanding of how and why it operates this way, even if not down to the intricate details of the improved techniques applied for performance updates over the past two years, such as the O1 series.

Frankly, as improved techniques continue to be published, I find it increasingly challenging to keep up. As a result, I believe we should focus on thoroughly mastering the basic operational prototypes. Looking at the recent performance results, preparing datasets of at least a few trillion tokens is essential. Additionally, understanding the design structure of the GPT-3 model is necessary.

Regarding the GPT-3 model, I’ve secured know-how only up to the initial improvement ideas that were introduced. For instance, training GPT-3 requires securing approximately 500 billion tokens of training data from the web and understanding detailed know-how on building GPU cloud infrastructure, including distributed learning and parallel training techniques. While I wouldn’t claim to know it all, I have a certain level of understanding.

Attempting to build something like GPT-3 would require at least several billion won in funding. For a small company like mine, our maximum capacity is to analyze hundreds of research papers on GPT-3 to understand the detailed implementation know-how.

 

딥네트워크  CEO / CTO  장석원    /    sayhi7@daum.net  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+ Recent posts