저는 그동안 4 년 가까이 초거대 모델 설계 구조를 제시한 논문들 세부 분석 작업을 했었읍니다 ...     나름 초거대 모델 구조 설계의 대표적인 해외 대기업의 논문의 핵심 아이디어가 무었인지 파악하려고 노력했던것 같읍니다 ...   딥러닝 공부도 기반 지식들을 어느 정도 준비가 된 상태라야 이런 논문의 핵심 아이디어도 눈에 보이는것 겉읍니다 ...    GPT-3.5 의 핵심 설계 아이디어가 무었인지 파악하는데 주력했고   나름 제 판단으로는 이 정도면 꽤 핵심에 접근했다라고 저는 판단되거든요 ...    GPT-3.5 도 그 주변 논문들이 굉장히 많구요 ...   GPT-3.5 발표 훨씬 그 이전에  초거대 모델의 각종 아이디어 논문들이 몇년간 발표되서 제시됬던 핵심 아이디어 기반으로 구성된다는것을 파악할수 있었다 ...      내가 그동안 4 년간 분석한것은 논문만이 아니고 초거대 모델을 분산학습 과 병렬학습을 시키려면  딥러닝 모델 구현을 어떤식으로 구현 가능한지 그 세부 방안이 어떤게 있는지 이런것들을 검토분석 했다 ...     공부하다 보니 논문분석 만큼 이나 구글 텐서플로우 개발 환경 관련 세부 정보 파악도 굉장히 중요하다는것을 깨달았다 ....  초거대 모델 구현중 나는 특히 통번역 서비스를 구글 트랜스포머 모델로 구현시 어떤 설계 구조로 경량화 구현을 해야 하는지 글로벌 기업의 논문에서 핵심 아이디어를 파악하는데도 성공했다 ...   초거대 모델 구현 및 경량화 구현 관련 모델 설계 핵심 아이디어도 나름 퀄리티 있는 정보를  파악 성공했고요 ...    경량화 구현도 마찬가지 입니다 ...         관련해서 서로 정보 교류 및 협력 방안을 협의할수 있는 기술정보 협의 채널이 형성되기를 기대합니다 ...     

딥네트워크    장석원    010-3350 6509     sayhi7@daum.net  

+ Recent posts