Transformer 모델의 디코더는 인코딩된 벡터를 사용하여 요약문을 생성하는 복잡한 과정을 거칩니다. 학습과 추론 과정에서 디코더의 동작은 다음과 같이 다릅니다:
학습 과정에서: 디코더는 인코더로부터 전달된 인코딩된 벡터와 함께, 이전에 생성된 토큰들을 입력으로 받습니다. 이러한 입력은 디코더의 각 레이어를 통과하면서, 셀프 어텐션 메커니즘을 사용하여 토큰 간의 관계를 학습합니다. 셀프 어텐션은 각 토큰이 다른 모든 토큰과 어떻게 상호작용하는지를 결정하며, 이는 문맥을 이해하는 데 중요합니다. 학습 과정에서는 교사 강요(Teacher Forcing) 방식을 사용하여, 실제 정답 토큰을 다음 입력으로 제공함으로써 모델이 올바른 출력을 생성하도록 유도합니다. 손실 함수(예: 크로스 엔트로피 손실)를 통해 예측된 출력과 실제 정답 사이의 오차를 계산하고, 이를 최소화하기 위해 모델의 가중치를 업데이트합니다.
추론 과정에서: 학습된 모델을 사용하여 새로운 데이터에 대한 요약문을 생성할 때, 디코더는 이전에 생성된 토큰들을 입력으로 받아 다음 토큰을 예측합니다. 이 과정에서는 실제 정답이 없기 때문에, 모델은 이전에 생성된 자신의 출력을 다음 입력으로 사용합니다. 이를 자기 회귀적(Autoregressive) 방식이라고 합니다. 각 단계에서 모델은 확률이 가장 높은 토큰을 선택하거나, 빔 서치(Beam Search)와 같은 전략을 사용하여 더 나은 결과를 얻을 수 있습니다.
인코더와 디코더의 각 레이어는 멀티-헤드 어텐션과 포지션-와이즈 피드포워드 네트워크를 포함합니다. 이 구성 요소들은 모델이 입력 문장의 문맥을 이해하고, 적절한 요약문을 생성하는 데 필수적입니다. 학습과 추론 과정 모두에서, 포지셔널 인코딩은 각 토큰의 순서 정보를 모델에 제공하여, 문장의 시퀀스 정보를 유지합니다.
Transformer 모델은 문서 요약, 기계 번역, 자연어 이해 등 다양한 자연어 처리 작업에 효과적으로 사용됩니다. 각 작업의 특성에 맞게 모델의 구조와 하이퍼파라미터를 조정하여 최적의 성능을 달성할 수 있습니다.
NLP 평가 분야에서 BLEU 및 ROUGE 점수는 각각 기계 생성 번역 및 요약의 품질을 평가하는 데 일반적으로 사용되는 지표입니다. BLEU 점수는 주로 기계 번역 작업에 사용되지만 ROUGE 점수는 텍스트 요약 작업에 사용됩니다. 두 지표 모두 n-gram 중첩에 의존하여 기계 생성 출력과 참조 번역 또는 요약 간의 유사성을 측정합니다. NLP 모델을 평가하는 간단하고 효과적인 방법을 제공하지만 출력의 전반적인 의미, 유창성 및 일관성을 캡처하는 데 한계가 있습니다. NLP 평가에 사용하는 동안 작업의 특정 요구 사항과 이러한 메트릭의 제한 사항을 고려하는 것이 중요합니다.
결론적으로 BLEU 및 ROUGE 점수는 각각 기계 번역 및 텍스트 요약 작업에서 NLP 모델의 성능을 평가하는 데 유용한 도구입니다. 기계에서 생성된 출력과 참조 번역 또는 요약 간의 유사성을 정량적으로 측정하여 연구자와 실무자가 모델의 품질을 객관적으로 평가할 수 있도록 합니다.
RAG 모델은 두 개의 트랜스포머 모델을 사용하여 두 단계로 작동합니다. 이 두 단계는 각각 검색 단계와 프롬프트 템플릿 생성 단계입니다. 각 단계는 서로 다른 목적을 가지고 있으며, 각각의 트랜스포머 모델은 해당 단계에서 필요한 기능을 수행하기 위해 특별히 학습됩니다.
- 검색 단계: 첫 번째 트랜스포머 모델은 사용자의 질문을 분석하여 핵심 요소와 의미를 파악합니다. 이 모델은 UD 데이터셋을 통해 학습된 문장 구조와 의존 관계를 활용하여, 질문에서 중요한 ‘subject’, ‘object’ 등의 레이블을 식별합니다. 그런 다음, 이 정보를 사용하여 데이터베이스에서 관련 문서를 검색합니다.
- 프롬프트 템플릿 생성 단계: 두 번째 트랜스포머 모델은 검색된 문서와 사용자 질문 사이의 관계를 분석합니다. 이 모델은 ‘self-attention’ 메커니즘을 사용하여 문서 내의 각 단어와 질문 내의 각 단어 사이의 관련성을 평가하고, 가장 관련성 높은 정보를 추출합니다. 이 정보는 사용자 질문과 결합되어 새로운 프롬프트 템플릿을 형성합니다.
이 두 단계는 서로 연결되어 있으며, 각각의 트랜스포머 모델은 자신의 역할에 맞게 최적화되어 학습됩니다. 검색 단계에서 얻은 문서들은 프롬프트 템플릿 생성 단계로 전달되어, 최종적인 응답을 생성하는 데 사용됩니다. 이러한 방식으로 RAG 모델은 사용자 질문에 대한 정확하고 관련성 높은 응답을 생성할 수 있습니다.
LLM 분석 및 개발 자문관련 여러기업의 개발 및 자문 문의 아래의 이메일 주소로 많은 문의 부탁드립니다 ...
Deep Network, a one-person startup specializing in consulting for super-large language models
E-mail : sayhi7@daum.net
Representative of a one-person startup / SeokWeon Jang