나이 60 인 제가 나의 그동안 거의 3 년반 딥러닝 해외논문 분석 및 딥러닝 소스 분석에 대해 애기해 보려 합니다 ...    ChatGPT 의 경우도 특정 목적을 위해 GPT-3.0 을 파인튜닝한것인데 ...  ChatGPT Service 의 경우도 한가지 목적(목표)만을 구현한 다음 서비스를 발표한것은 아닌것 같고,  사용자들에게 어필이 될만한 목적(목표)을 몇 가지 이상을 구현해 서비스하는것 같다 ....   나는 GPT-3.0 이 모델 구조를 공개하지 않았기 때문에 나는 처음 딥러닝을 접근하는 입장에서 GPT-3.0 으로 접근하는것 보다 구글 Transformer Language Model 로 접근하는것이 나의 공부(사업화) 목적에 더 적합하다고 판단했다 ....   내가 한 3 년 이상 공부해 보니  구글 트랜스포머 모델 구현도 모델 구현시 거기에 적용되는 알고리즘을 뭘 선택해서 구현할지도 상당히 중요한것 같다 ...  나는 구글 트랜스포머 모델의 동작 원리의 이해를 위해 논문도 보고 관련 소스도 보고 그랬다 ....  내가 한 3 년 공부하면서 느끼는건데 딥러닝은 딥러닝 학습 동작시 적용되는 수십 수백개의 알고리즘중 가장 핵심이 되는것은 정말 확실히 이해하는게 필수하고 생각한다 ....   이런 딥러닝의 기초가 덜 되 있으면 이것 저것 살피다 보면 아 이게 이런데서 이렇게 필요하구나를 느낄수 있어서다 ....  나는 현재 트랜스포머 모델도 어느 정도 다 파악이 되 있고  ChatGPT 동작원리를 공부하려니 RLHF  강화학습 부분도 깊이 있게 공부하지 않을수 없었다 ....  미국 글로벌 빅테크 기업인 페이스북(메타)는 AI 인프라 투자도 상당한것 같다  페이스북은 A100 GPU 를 16000 대를 데이터 센터에 클라우드 서비스를 구축하고 LLM 을 개발하는것 같다 ...  내가 요즘 관심을 가지고 살피는 논문이 QLoRA 논문이다  이 논문은 LLM 을 파인튜닝시 엔비디아 GPU 1 대(메모리 48 GB) 로 파인튜닝이 가능하다고 한다 ...  그래서 이 논문의 세부 구조 분석도 어느 정도되 있다 ....   요즘  LLM 의 경량화 구현이 큰 화두이다 ...  Quantization / Pruning / 지식증류 기법 등도 관련 논문들 세세히 살피고 있구요 ...    나는 그동안 위와 같이 LLM 구현 관련 논문 분석 및 소스 분석을 해왔다 ...   여기서 가장 중요하다고 판단되는게  GPT-3 와 거의 유사한 성능을 낼수 있는 사전학습 모델 구현 기술려 확보라 판단되서 이것 분석 검토하는라 상당 기간 시간도 보냈었다 ....  이게 되야 100 점 짜리 서비스는 아니어도 특정 목적의 챗봇을 만들때 위의 설명과 같이 GPT-3 파인 튜닝을 위해서  QLoRA 논문의 세부 분석도 이런것 때문에 해놨던것 이구요 ...     나는 완벽하진 않아도 특정 목적 ChatBot 구현을 위한 세부 준비작업은 거의 다 되 있다 ...  내가 부족한 점 이라면 이런 ChatGPT 의 일부 기능으로 동작하는 챗봇 구현에 필요한 딥러닝 소스 한줄 한줄 커스토마이징이 나는 대기업 AI 연구소에서 실무 경험이 없다 보니 이들보다 시간이 좀 더 걸리는것 인데 요즘 한국 경제가 바닥이라 이렇게 나같이 준비가 이렇게 상당히 된 사람도 커스토마이징 시간이 더 걸린다고 하면 기업에서는 탐탁해하지 않는것 같아 무척 아쉽습니다 ...   이 글을 살펴 보시고 저에게 딥러닝 개발 및 자문 일꺼리를 혹시라도 맡기실 기업이 있으시면 연락 주십시요 ....  

제가 파고있는  ChatGPT 관련 논문은 두가지 분야 입니다 ...   하나는 RLHF 논문관련이고 또 하나가 RAG 논문쪽 입니다 ...   저의 경우 현재  RLHF 동작원리나 설계 구조도 나름 심도있게 분석이 되있구요 ...  ChatGPT 의 또 하나의 핵심 분야인 RAG 분야도 그 원리나 구조를 얼마나 깊게 파악했는가 하면 ,  즉,  해당  딥러닝 모델을  어떤 구조와 방식으로  어떤식으로  세부적으로 설계해야  구현 가능한지도  세부 분석에 성공했읍니다 ...     이렇게 파악은 해 놨으니  AI 사업화 내지 기타 등등해서 기회가 온다면 제 꿈을 펼쳐볼수 있을것 같읍니다 ...          ChatGPT 구현시 필수적으로 필요한 기술인 RAG 기술이 난이도도 있고 쉽지않은데 그동안 빡시게 검토분석을 해서 대략적으로  90  % 정도 구현에 필요한 노하우 확보에 성공해서 내 자신이 뿌듯하다    그리고  GPT-3.5 와 같은 모델을 학습시키려면 RLHF 기법이 중요하고  이중에서도 문장요약 하는 기능을 파인튜닝 하는것의 구현 기법도 상당히 중요한데 이런것들 한 90 % 가까이 확실하게 노하우가 파악되 있읍니다 ....

RAG(Retrieval-Augmented Generation) 기술과 RLHF(Reinforcement Learning from Human Feedback) 기술은 대규모 언어 모델(Large Language Models, LLMs)의 성능을 향상시키기 위해 사용되는 중요한 기법들입니다. ChatGPT-3.5와 같은 모델을 분석할 때, 이 두 기술은 다음과 같은 이유로 중요합니다:

RAG 기술은 기존의 지식 데이터베이스나 문서를 검색하여 언어 모델의 답변을 보강하는 방식입니다. 이를 통해 모델은 더 정확하고 상세한 정보를 제공할 수 있으며, 실시간으로 업데이트된 데이터에 접근할 수 있습니다. RAG는 다음과 같은 단계로 구성됩니다:

  1. Query Generation: 모델이 사용자의 질문에 기반하여 검색 쿼리를 생성합니다.
  2. Document Retrieval: 생성된 쿼리를 사용하여 관련 문서를 검색합니다.
  3. Answer Generation: 검색된 문서를 참조하여 답변을 생성합니다.

RLHF 기술은 인간의 피드백을 기반으로 모델의 예측을 조정하는 강화 학습 방법입니다. 이 기술은 모델이 사용자의 의도와 더 잘 일치하는 답변을 생성하도록 돕습니다. RLHF는 다음과 같은 단계로 구성됩니다:

  1. Supervised Fine-Tuning (SFT): 인간이 만든 레이블을 사용하여 모델을 미세 조정합니다.
  2. Reward Modeling: 인간 평가자가 생성된 답변을 평가하여 보상 모델을 학습합니다.
  3. Reinforcement Learning: 보상 모델을 사용하여 모델의 예측을 최적화합니다.

RAG와 RLHF를 공부할 때, 다음과 같은 점에 주의를 기울여야 합니다:

  • 데이터의 질과 양: RAG는 정확한 문서 검색을 위해 고품질의 데이터가 필요하며, RLHF는 인간의 피드백을 정확하게 반영할 수 있는 충분한 양의 데이터가 필요합니다.
  • 모델의 일반화 능력: RAG는 모델이 다양한 주제에 대해 답변할 수 있도록 돕지만, 너무 특정한 데이터에 의존할 경우 일반화 능력이 떨어질 수 있습니다. RLHF는 모델이 사용자의 의도를 더 잘 이해하도록 돕지만, 과도한 튜닝은 모델의 유연성을 저하시킬 수 있습니다.
  • 성능과 효율성: RAG와 RLHF 모두 모델의 성능을 향상시키지만, 계산 비용과 시간이 많이 들 수 있으므로 효율적인 구현이 중요합니다.

이러한 기술들을 공부하고 적용함으로써, LLMs의 성능을 향상시키고 사용자 경험을 개선할 수 있습니다. 또한, 이 기술들은 모델이 더 정확하고 신뢰할 수 있는 정보를 제공하도록 도와줍니다. 각 기술의 원리와 적용 방법을 깊이 이해하고, 실제 데이터와 상황에 적용해보면서 학습하는 것이 중요합니다.

저는 ChatGPT 같은 챗봇 구현(논문 분석 및 소스 구현)에 필요한  RLHF 설계 기법과 RAG 설계기법을 약 90 % 를 확실히 파악하고 있읍니다 ...  

딥네트워크는 Vision Transformer를 OCR 에 적용하기 위해, 두 가지 방법을 제안하였습니다. 첫 번째 방법은 Vision Transformer를 문자 검출과 인식을 동시에 수행하는 엔드-투-엔드 모델로 사용하는 것입니다. 이 방법은 이미지를 패치들로 나누고, 각 패치에 대해 문자의 존재 여부와 클래스를 예측하는 방식입니다. 이 방법은 별도의 문자 분할 과정이 필요 없으며, 다양한 크기와 방향의 문자에도 적응할 수 있습니다. 두 번째 방법은 Vision Transformer를 문자 검출과 인식을 각각 수행하는 두 단계 모델로 사용하는 것입니다. 이 방법은 첫 번째 단계에서 Vision Transformer를 이용하여 문자 영역을 검출하고, 두 번째 단계에서 Vision Transformer를 이용하여 검출된 영역의 문자를 인식하는 방식입니다. 이 방법은 문자 영역의 정확도와 문자 인식의 정확도를 각각 향상시킬 수 있습니다.

요즘 GPT-4o 같은 경우 광학문자인식(OCR) 기능 구현이 되서 성능이 제대로 나오는것 같은데 ....  저는  광학문자인식(OCR) 기능 구현 관련해서도 이것의 구현도 거의 90 % 준비가 되있읍니다 ...  광학문자 인식의 정확도를 높이려면 학습데이터 구축에  꽤 많은 자금 투입이 필요하고요 ... 어재뜬 저는 광학문자인식 모델 구조라든가 학습원리를 확실히 파악하는데 성공했읍니다 ... 

 

Deep Network, a one-person startup specializing in consulting for super-large language models  

E-mail : sayhi7@daum.net    

Representative of a one-person startup /  SeokWeon Jang

 

 

+ Recent posts