안녕하세요 ?  딥러닝 사업화를 준비중인 일인기업 DMBTEC 장석원 입니다 ...

아래는 구글 Transformer Model  논문을 설명하는 블럭도 입니다. 

구글 Transformer Model 논문의 핵심인  Attention 처리기법 의 설계 구조 파악에 성공했읍니다 ... 

 

예를들어 GPT-3 같은 언어모델에서 구글 Transformer Model  의  Attention 처리기법을 어떤 방식으로 적용하는지를 파악 성공했읍니다   

구글 Transformer Model  의  인코딩 부와 디코딩 부의 상호동작이 어떻게 처리되서  번역 모델 처리시 Attention 처리기법으로  어떤 식으로 언어 번역 처리가 되는가의 동작 메커니즘 즉 그 설계 구조  파악에 성공 했읍니다 ....   

구글 Transformer Model  기술의  근원이 되는 핵심 원리를 파악하기 쉽지 않은데 이런것을 도와드릴수 있을것 같읍니다 .... 

구글 Transformer Model 로 한영 번역을 구현한다고 했을때 학습데이터가 몇만개 몇십만개 수준이 아니고 수천억개 아니 그 이상의 학습데이터로 딥러닝 모델을 학습시켜야 하는데 대기업에서는 이런 초거대 언어모델을 상용화시 어떤 문제에 직면하고 있는지를 파악하는게 가장 핵심 입니다 ...  저는 이런것을 파악하기 위해 하루에  한 2 시간 정도씩 구글링을 무려 2 년 가까이 해서 그 핵심을 터득했읍니다 ...   이런 초거대 모델을 상용화하려면 슈퍼컴퓨터가 필요하다고 애기를 하지요 ...  이 말의 의미는 비용이 많이든다는 점 입니다 ...    구글 Transformer Model 로 초거대 모델을 학습하는것이 저같이 논문분석만 한 사람은 개발시 어떤 문제가 발생하고 그 문제의 해결방안이 뭔지 파악이 불가능하다라는 분들이 많읍니다 ...    개발시 어떤 문제가 발생하고 그 문제의 해결방안이 뭔지 파악이 가능하려면  구글 Transformer Model 의 설계 구조가 어떤지 그 세부 하나하나를 속속들이 살펴서 이해하는 작업이 반드시 필수 입니다 ...  제가 이런 작업이 어느 정도 성공했으니 이런 글도 쓰는것 이구요 ...    구글 Transformer Model 로 초거대 모델을 학습시키는것이  비용(최소 100 억 정도)이 상당한 그런 일 이거든요 ...   엔비디아 A100 GPU 를 탑재한 딥러닝 서버가 최소 몇십대 이상 준비가 필요하구요 ...    딥러닝 초거대 모델을 학습시킨다는 의미는 딥러닝 모델이 가지고 있는 뉴런들의 가중치(weight)을 조정한다는 의미이고, 우리는 모델 구성과 가중치만 저장만 해놓으면, 필요할 때 저장한 모델 구성과 가중치를 불러와서 사용하면 됩니다.  학습된 초거대 모델을 저장한다는 말은 딥러닝 모델 아키텍처와 모델 가중치를 저장한다는 말입니다. 

수천억개 아니 그 이상의 학습데이터로 딥러닝 모델 학습 처리를 어떻게 경량화 시킬것인가 뭐 이런게 요즘 논문들의 이슈이고 이쪽 논문도 꽤 발표되고 있읍니다 ...

저는 구현 경험은 없고 논문분석을 통해 그 세부 설계 원리를 이해했고  이것을 관심있어 하시는 업체와 협의해 보고 싶읍니다 ...

 

 

 

관심 있으신 기업에서는 문의해 주시면 감사하겠읍니다 ...

저는 주로 세부 기술 컨설팅을 처리할수 있을것 같읍니다 ...

저는 83 학번이고  89년에 일반대학원 전자공학을 졸업했읍니다 ...  이것으로 관련한 사업화 추진을 하고 계신 업체와 협의해 보고 싶읍니다 ... 

 

 

제가 운영하는 일인기업   딥 네트워크 장석원

제가 어떤것들을 그동안 검토분석을 했는지를 소개하는 저의 일인기업 기업블로그 사이트 입니다 ...
제가 사업화를 준비했던 기술들 몇가지에 대해 사업화 준비 내용을 소개하는 기업블로그 입니다 ...

기업블로그 :   https://videocodec.tistory.com/    제 기업블로그 사이트도 자세히 살펴봐 주시구요 ....

이메일 : sayhi7@daum.net

HP : 010-3350 6509

 

 

 

+ Recent posts