Kernel Porting/Linux
[LoRA Model 커스토마이징 기술자문 가능][그동안 6 개월간 LoRA 모델이 기존의 사전학습된 가중치 행렬을 두 개의 저차원 행렬로 어떻게 변환해서 학습시키는지 그 상세 동작 원리 파악에 성공했읍니다...]
파란새
2024. 11. 22. 06:36
제가 운영하는 일인 AI 스타트업 딥네트워크는 그동안 6 개월간 LoRA 모델이 기존의 사전학습된 가중치 행렬을 두 개의 저차원 행렬로 어떻게 변환해서 학습시키는지 그 상세 동작 원리 파악에 성공했읍니다... 저의 이런 LoRA Model 구현 기술력에 많은 관심 부탁드립니다 ...
딥네트워크 CEO / 장석원 / 010 3350 6509 / sayhi7@daum.net
저도 그동안 한 1 - 2 년 GPT-3 파운데이션 모델 설계하는 세부 구현 원리 분석하느라 고민을 많이 했구요 ... GPT-3 파운데이션 모델 설계 기술력 확보시 한글 임베딩 구현 처리가 중요 하잖아요 ... 이 한글 임베딩 구현 원리 파악에 또 몇달 고민 했구요 ... ChatGPT 같은 생성형 AI 가 동작 하는 가장 기본 구조가 주요 10 개국 언어를 AI 가 알아들을수 있게 임베딩 구현 노하우 확보가 핵심 중 핵심 이라 보거든요 ... 저는 그중 한국인이니 한국어 임베딩 구현 노하우 파악에 애 좀 썼읍니다 ... 그리고 저는 논문에 어떤 내용이 있는지 분석하는 기능 구현을 위해 pdf 문서 는 어떤 구조라서 어떤식으로 파싱해야 하는지 이런것도 몇 달 심각히 고민했구요 ... 그래서 제가 고민 만 했느냐 ? 그건 아니라는거죠 !!! 그만큼 고민해서 얻은 심도있게 노하우도 확보 성공했으니 이렇게 글도 적는거구요 ...
제가 GPT-3 Model 2020 년에 나왔을때 부터 LLM 신경 써서 공부 시작했거든요 ... 이제는 GPT-3 Model 이 OpenAI 가 만들었으니 GPT-3 의 처리 가능 언어가 기본이 영어 잖아요 ... 그래서 한국어 토크나이징 과 임베딩 설계 노하우를 확보했다고 적었구요 ... 빈 말이 아니라 진짜 확실히 파악했거든요 ... 한국어 토큰나이징 도 한글이 원래 초성 / 중성 / 종성으로 이루어져있고 형태소 단위로 한글을 토큰나이징 ... 하 ... 이것 파악하느라 .... 참 쉽지 않았읍니다 ...