일인 AI 스타트업 딥네트워크 RAG Model 검색 구현 시 텍스트 객체 등의 검색관련 요즘 고민하는 사업화 이슈 소개
딥네트워크 CEO / 장석원 / 010 3350 6509 / sayhi7@daum.net
Sung Kim 업스테이지 대표님 페이스북 글 소개 입니다 ...
LLM을 할때, RAG를 할때, DB화를 할때, 가장 먼저 해야할일은 이미지, PDF, 문서등에서 구조화된 정보 (html, md등)를 뽑아 내는 것입니다. 그것도 가장 정확하게 해야 하는데요.
이걸 제일 잘하는 것이 Upstage Document Parse 입니다. 라고 업스테이지 대표님께서 위와 같이 페이스북에 소개하셨는데요 ....
요 몇일 고민하면서 그 핵심을 다음과 같이 정리했읍니다 ....
RAG Model 검색 구현 시 텍스트 객체 등의 검색 원리
RAG (Retrieval-Augmented Generation) 모델을 사용하여 PDF 문서에서 텍스트를 검색하는 경우, 다음과 같은 원리가 적용됩니다:
- 텍스트 인덱싱:
- PDF 파일에서 텍스트 객체로 정의된 텍스트를 추출하여 인덱스를 생성합니다. 이는 텍스트 검색 엔진이 문서의 내용을 빠르게 검색할 수 있도록 돕습니다.
- 텍스트 객체로 정의된 텍스트는 PDF 내부에서 구조화된 데이터로 저장되므로, 이를 기반으로 인덱스를 생성할 수 있습니다.
- 검색 요청 처리:
- 사용자가 검색어를 입력하면, 검색 엔진은 생성된 인덱스를 기반으로 해당 검색어와 일치하는 텍스트 객체를 찾습니다.
- PDF 문서의 텍스트 객체는 각기 다른 객체로 저장되므로, 각 객체의 내용을 빠르게 확인할 수 있습니다.
- 검색 결과 반환:
- 검색 엔진은 검색어와 일치하는 텍스트 객체를 포함하는 페이지와 위치를 반환합니다.
- 텍스트 객체의 위치 정보와 폰트, 크기 등의 정보를 활용하여 사용자가 찾는 정보를 문서 내에서 쉽게 찾을 수 있습니다.