제가 운영하는 일인 AI 스타트업 딥네트워크는 그동안 6 개월간 LoRA 모델이 기존의 사전학습된 가중치 행렬을 두 개의 저차원 행렬로 어떻게 변환해서 학습시키는지 그 상세 동작 원리 파악에 성공했읍니다... 저의 이런 LoRA Model 구현 기술력에 많은 관심 부탁드립니다 ...

딥네트워크  CEO  /  장석원  /  010 3350 6509  /   sayhi7@daum.net 

 

저도 그동안 한 1 - 2 년 GPT-3 파운데이션 모델 설계하는 세부 구현 원리 분석하느라 고민을 많이 했구요 ...  GPT-3 파운데이션 모델 설계 기술력 확보시 한글 임베딩 구현 처리가 중요 하잖아요 ...   이 한글 임베딩 구현 원리 파악에 또 몇달 고민 했구요 ...   ChatGPT 같은 생성형 AI 가 동작 하는 가장 기본 구조가 주요 10 개국 언어를 AI 가 알아들을수 있게 임베딩 구현 노하우 확보가 핵심 중 핵심 이라 보거든요 ...   저는 그중 한국인이니 한국어 임베딩 구현 노하우 파악에 애 좀 썼읍니다 ...     그리고 저는 논문에 어떤 내용이 있는지 분석하는 기능 구현을 위해 pdf 문서 는 어떤 구조라서 어떤식으로 파싱해야 하는지 이런것도 몇 달 심각히 고민했구요 ...    그래서 제가 고민 만 했느냐 ?  그건 아니라는거죠 !!!  그만큼 고민해서 얻은 심도있게 노하우도 확보 성공했으니 이렇게 글도 적는거구요 ...

 

제가 GPT-3 Model 2020 년에 나왔을때 부터 LLM 신경 써서 공부 시작했거든요 ...  이제는 GPT-3 Model 이 OpenAI 가 만들었으니 GPT-3 의 처리 가능 언어가 기본이 영어 잖아요 ...  그래서 한국어 토크나이징 과 임베딩 설계 노하우를 확보했다고 적었구요 ...  빈 말이 아니라 진짜 확실히 파악했거든요 ...  한국어 토큰나이징 도 한글이 원래 초성 / 중성 / 종성으로 이루어져있고  형태소 단위로 한글을 토큰나이징 ...   하 ...  이것 파악하느라 ....  참 쉽지 않았읍니다 ...  

 

 

 

 

+ Recent posts