저는 일인 AI 스타트업 딥네트워크 CEO 장석원 입니다 ....   ChatGPT 서비스가 출시된지 벌써 2 년이 지났읍니다 ....   저는 생성형 AI ChatGPT 세부 설계 구조를 분석한지는 3 년이 넘어 갑니다 ...  ChatGPT-3.5 가 기본적으로 RLHF 논문 설계 구조 즉 강화학습 설계 구조라고 해서  한참동안 RLHF 동작 구조 분석에 힘을 쏬았구요 ...  ChatGPT 가 기본적으로 다양한 학습 데이터셋을 학습시켜야 하므로  이를 어떻게 처리할것인가가 중요한 이슈 입니다 ...  기본적으로 ChatGPT 는 수십개 이상의 타스크가 동작되야 하므로 이를 어떤 설계 구조로 학습시킬것인가도 중요 이슈 입니다 ....  저는 그동안 GPT-3 Model 설계 구조 기반으로 LLM 관련 데이터셋으로 학습시 이렇게 학습 데이터셋이 거의 수백개에 이를때에는 멀티 타스크 학습 처리에 대한 고민을 반드시 해야 합니다 ...   그래서 이렇게 멀티 타스크 구조하의 GPT-3 Model 의 기본 설계 구조를 어떻게 구성해야 하는지를 확실히 파악 성공 했읍니다 ....   이에 관련된 논문 이슈로는 MoE Model 논문 이슈 등등이 있읍니다 ....   GPT-3 의 경우만 해도 학습데이터의 토큰의 갯수가 500 B 의 토큰으로 이루어진 데이터셋으로 학습 했다고 하고  이렇게 500 B 의 토큰의 학습 데이터를 확보하려면 반드시 웹 크롤링 설계 기법 노하우가 필요한데 아직 저는 이것 관련해서는 확실한 노하우 확보는 못했읍니다 .... 

 

일인 AI 스타트업 딥네트워크 CEO 장석원 / sayhi7@daum.net 

 

+ Recent posts