[LLM(거대 언어 모델) 딥러닝 개발 및 자문 전문 일인기업 딥네트워크][이 글을 살펴 보시고 저에게 딥러닝 개발 및 자문 일꺼리를 혹시라도 맡기실 기업이 있으시면 연락 주십시요 ....] :: GPT-3 LLM 세부 알고리즘 분석 일인 AI 스타트업 딥네트워크

[LLM(거대 언어 모델) 딥러닝 개발 및 자문 전문 일인기업 딥네트워크][이 글을 살펴 보시고 저에게 딥러닝 개발 및 자문 일꺼리를 혹시라도 맡기실 기업이 있으시면 연락 주십시요 ....]

파란새 2024. 5. 15. 17:32

2024. 5. 15. 17:32

나이 60 인 제가 나의 그동안 거의 3 년반 딥러닝 해외논문 분석 및 딥러닝 소스 분석에 대해 애기해 보려 합니다 ... ChatGPT 의 경우도 특정 목적을 위해 GPT-3.0 을 파인튜닝한것인데 ... ChatGPT Service 의 경우도 한가지 목적(목표)만을 구현한 다음 서비스를 발표한것은 아닌것 같고, 사용자들에게 어필이 될만한 목적(목표)을 몇 가지 이상을 구현해 서비스하는것 같다 .... 나는 GPT-3.0 이 모델 구조를 공개하지 않았기 때문에 나는 처음 딥러닝을 접근하는 입장에서 GPT-3.0 으로 접근하는것 보다 구글 Transformer Language Model 로 접근하는것이 나의 공부(사업화) 목적에 더 적합하다고 판단했다 .... 내가 한 3 년 이상 공부해 보니 구글 트랜스포머 모델 구현도 모델 구현시 거기에 적용되는 알고리즘을 뭘 선택해서 구현할지도 상당히 중요한것 같다 ... 나는 구글 트랜스포머 모델의 동작 원리의 이해를 위해 논문도 보고 관련 소스도 보고 그랬다 .... 내가 한 3 년 공부하면서 느끼는건데 딥러닝은 딥러닝 학습 동작시 적용되는 수십 수백개의 알고리즘중 가장 핵심이 되는것은 정말 확실히 이해하는게 필수하고 생각한다 .... 이런 딥러닝의 기초가 덜 되 있으면 이것 저것 살피다 보면 아 이게 이런데서 이렇게 필요하구나를 느낄수 있어서다 .... 나는 현재 트랜스포머 모델도 어느 정도 다 파악이 되 있고 ChatGPT 동작원리를 공부하려니 RLHF 강화학습 부분도 깊이 있게 공부하지 않을수 없었다 .... 미국 글로벌 빅테크 기업인 페이스북(메타)는 AI 인프라 투자도 상당한것 같다 페이스북은 A100 GPU 를 16000 대를 데이터 센터에 클라우드 서비스를 구축하고 LLM 을 개발하는것 같다 ... 내가 요즘 관심을 가지고 살피는 논문이 QLoRA 논문이다 이 논문은 LLM 을 파인튜닝시 엔비디아 GPU 1 대(메모리 48 GB) 로 파인튜닝이 가능하다고 한다 ... 그래서 이 논문의 세부 구조 분석도 어느 정도되 있다 .... 요즘 LLM 의 경량화 구현이 큰 화두이다 ... Quantization / Pruning / 지식증류 기법 등도 관련 논문들 세세히 살피고 있구요 ... 나는 그동안 위와 같이 LLM 구현 관련 논문 분석 및 소스 분석을 해왔다 ... 여기서 가장 중요하다고 판단되는게 GPT-3 와 거의 유사한 성능을 낼수 있는 사전학습 모델 구현 기술려 확보라 판단되서 이것 분석 검토하는라 상당 기간 시간도 보냈었다 .... 이게 되야 100 점 짜리 서비스는 아니어도 특정 목적의 챗봇을 만들때 위의 설명과 같이 GPT-3 파인 튜닝을 위해서 QLoRA 논문의 세부 분석도 이런것 때문에 해놨던것 이구요 ... 나는 완벽하진 않아도 특정 목적 ChatBot 구현을 위한 세부 준비작업은 거의 다 되 있다 ... 내가 부족한 점 이라면 이런 ChatGPT 의 일부 기능으로 동작하는 챗봇 구현에 필요한 딥러닝 소스 한줄 한줄 커스토마이징이 나는 대기업 AI 연구소에서 실무 경험이 없다 보니 이들보다 시간이 좀 더 걸리는것 인데 요즘 한국 경제가 바닥이라 이렇게 나같이 준비가 이렇게 상당히 된 사람도 커스토마이징 시간이 더 걸린다고 하면 기업에서는 탐탁해하지 않는것 같아 무척 아쉽습니다 ... 이 글을 살펴 보시고 저에게 딥러닝 개발 및 자문 일꺼리를 혹시라도 맡기실 기업이 있으시면 연락 주십시요 ....

제가 파고있는 ChatGPT 관련 논문은 두가지 분야 입니다 ... 하나는 RLHF 논문관련이고 또 하나가 RAG 논문쪽 입니다 ... 저의 경우 현재 RLHF 동작원리나 설계 구조도 나름 심도있게 분석이 되있구요 ... ChatGPT 의 또 하나의 핵심 분야인 RAG 분야도 그 원리나 구조를 얼마나 깊게 파악했는가 하면 , 즉, 해당 딥러닝 모델을 어떤 구조와 방식으로 어떤식으로 세부적으로 설계해야 구현 가능한지도 세부 분석에 성공했읍니다 ... 이렇게 파악은 해 놨으니 AI 사업화 내지 기타 등등해서 기회가 온다면 제 꿈을 펼쳐볼수 있을것 같읍니다 ... ChatGPT 구현시 필수적으로 필요한 기술인 RAG 기술이 난이도도 있고 쉽지않은데 그동안 빡시게 검토분석을 해서 대략적으로 90 % 정도 구현에 필요한 노하우 확보에 성공해서 내 자신이 뿌듯하다 그리고 GPT-3.5 와 같은 모델을 학습시키려면 RLHF 기법이 중요하고 이중에서도 문장요약 하는 기능을 파인튜닝 하는것의 구현 기법도 상당히 중요한데 이런것들 한 90 % 가까이 확실하게 노하우가 파악되 있읍니다 ....

RAG(Retrieval-Augmented Generation) 기술과 RLHF(Reinforcement Learning from Human Feedback) 기술은 대규모 언어 모델(Large Language Models, LLMs)의 성능을 향상시키기 위해 사용되는 중요한 기법들입니다. ChatGPT-3.5와 같은 모델을 분석할 때, 이 두 기술은 다음과 같은 이유로 중요합니다:

RAG 기술은 기존의 지식 데이터베이스나 문서를 검색하여 언어 모델의 답변을 보강하는 방식입니다. 이를 통해 모델은 더 정확하고 상세한 정보를 제공할 수 있으며, 실시간으로 업데이트된 데이터에 접근할 수 있습니다. RAG는 다음과 같은 단계로 구성됩니다:

Query Generation: 모델이 사용자의 질문에 기반하여 검색 쿼리를 생성합니다.
Document Retrieval: 생성된 쿼리를 사용하여 관련 문서를 검색합니다.
Answer Generation: 검색된 문서를 참조하여 답변을 생성합니다.

RLHF 기술은 인간의 피드백을 기반으로 모델의 예측을 조정하는 강화 학습 방법입니다. 이 기술은 모델이 사용자의 의도와 더 잘 일치하는 답변을 생성하도록 돕습니다. RLHF는 다음과 같은 단계로 구성됩니다:

Supervised Fine-Tuning (SFT): 인간이 만든 레이블을 사용하여 모델을 미세 조정합니다.
Reward Modeling: 인간 평가자가 생성된 답변을 평가하여 보상 모델을 학습합니다.
Reinforcement Learning: 보상 모델을 사용하여 모델의 예측을 최적화합니다.

RAG와 RLHF를 공부할 때, 다음과 같은 점에 주의를 기울여야 합니다:

데이터의 질과 양: RAG는 정확한 문서 검색을 위해 고품질의 데이터가 필요하며, RLHF는 인간의 피드백을 정확하게 반영할 수 있는 충분한 양의 데이터가 필요합니다.
모델의 일반화 능력: RAG는 모델이 다양한 주제에 대해 답변할 수 있도록 돕지만, 너무 특정한 데이터에 의존할 경우 일반화 능력이 떨어질 수 있습니다. RLHF는 모델이 사용자의 의도를 더 잘 이해하도록 돕지만, 과도한 튜닝은 모델의 유연성을 저하시킬 수 있습니다.
성능과 효율성: RAG와 RLHF 모두 모델의 성능을 향상시키지만, 계산 비용과 시간이 많이 들 수 있으므로 효율적인 구현이 중요합니다.

이러한 기술들을 공부하고 적용함으로써, LLMs의 성능을 향상시키고 사용자 경험을 개선할 수 있습니다. 또한, 이 기술들은 모델이 더 정확하고 신뢰할 수 있는 정보를 제공하도록 도와줍니다. 각 기술의 원리와 적용 방법을 깊이 이해하고, 실제 데이터와 상황에 적용해보면서 학습하는 것이 중요합니다.

저는 ChatGPT 같은 챗봇 구현(논문 분석 및 소스 구현)에 필요한 RLHF 설계 기법과 RAG 설계기법을 약 90 % 를 확실히 파악하고 있읍니다 ...

딥네트워크는 Vision Transformer를 OCR 에 적용하기 위해, 두 가지 방법을 제안하였습니다. 첫 번째 방법은 Vision Transformer를 문자 검출과 인식을 동시에 수행하는 엔드-투-엔드 모델로 사용하는 것입니다. 이 방법은 이미지를 패치들로 나누고, 각 패치에 대해 문자의 존재 여부와 클래스를 예측하는 방식입니다. 이 방법은 별도의 문자 분할 과정이 필요 없으며, 다양한 크기와 방향의 문자에도 적응할 수 있습니다. 두 번째 방법은 Vision Transformer를 문자 검출과 인식을 각각 수행하는 두 단계 모델로 사용하는 것입니다. 이 방법은 첫 번째 단계에서 Vision Transformer를 이용하여 문자 영역을 검출하고, 두 번째 단계에서 Vision Transformer를 이용하여 검출된 영역의 문자를 인식하는 방식입니다. 이 방법은 문자 영역의 정확도와 문자 인식의 정확도를 각각 향상시킬 수 있습니다.

요즘 GPT-4o 같은 경우 광학문자인식(OCR) 기능 구현이 되서 성능이 제대로 나오는것 같은데 .... 저는 광학문자인식(OCR) 기능 구현 관련해서도 이것의 구현도 거의 90 % 준비가 되있읍니다 ... 광학문자 인식의 정확도를 높이려면 학습데이터 구축에 꽤 많은 자금 투입이 필요하고요 ... 어재뜬 저는 광학문자인식 모델 구조라든가 학습원리를 확실히 파악하는데 성공했읍니다 ...

Deep Network, a one-person startup specializing in consulting for super-large language models

E-mail : sayhi7@daum.net

Representative of a one-person startup / SeokWeon Jang

저작자표시 비영리 변경금지

'Kernel Porting > Linux' 카테고리의 다른 글

LLM 분석 및 개발 자문 일인기업 딥네트워크가 GPT-3.5 모델 설계 구조를 어디까지 어떻게 파악 성공했을까 ? 아래의 이메일 주소로 많은 LLM 개발 및 자문 문의 부탁드립니다 ... (0)	2024.05.30
[ 장거리 저전력 로라 통신 분야 LoRA Device 단 / LoRa Gateway 단 펌웨어 개발 및 컨설팅 전문 ][로라 통신 Uplink Packet / Downlink Packet 을 암호키로 암복호화 해서 송수신하는 노하우 확보 성공] (4)	2024.05.27
[일인기업 딥네트워크 딥러닝 LLM 구현 기술력 소개][구글 트랜스포머 LLM 모델 구현 개발 과 텐서플로우 개발환경 구축] (0)	2024.05.15
Whether it’s Korean or American corporations, securing massive funds like Middle Eastern oil money is indeed everything for being number one in AI. (0)	2024.05.11
한국 대기업 이든 미국 대기업 이든 AI 1 등을 위해 반드시 필요한게 중동의 오일 머니 같이 초대규모 자금확보가 사실 AI 세계 1 등의 모든것 이라고 해도 틀린 말이 아닙니다 .. (0)	2024.05.11

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바