본문 바로가기

벡터검색

(2)
3. RAG 검색 성능 개선 백터 검색의 한계점 문서를 임베딩하여 벡터로 저장하고, 이를 사용자 요청과 비교하여 가장 유사한 문서를 가져오는 것이 일반적인 RAG 검색기의 구조이다. 그러나 여기에는 몇가지 한계가 있다. 먼저 문서를 벡터로 변환하는 과정에서 정보의 손실이 발생한다. 벡터 변환이란 문서를 n개의 숫자로 재 표현하는 것을 의미하는데, 어떤 길이와 내용의 문서라도 동일한 n개의 숫자로 나타내기 때문에 정보의 손실이 발생하는 것은 어쩔 수 없다. 또 벡터화된 문서를 검색하는 과정에서도 손실이 발생할 수 있다. 검색해야할 문서가 많은 경우 검색 시간 단축을 위해 최적화 알고리즘을 적용하는 경우가 있는데, 이 때 검색 되어야될 문서가 검색되지 않을 수 있다. 단순한 해결방법: 더 많은 문서를 가져오자! 분명 사용자의 요청에..
2. 임베딩과 벡터저장소를 활용한 RAG 키워드 검색의 한계 검색 엔진이 초기에 의존했던 키워드 매칭 방식은 단어 자체가 일치해야만 문서를 찾을 수 있습니다. 예를 들어 “비오는날 음식”이라는 쿼리로 파전 을 추천하려면, 파전 문서 안에 “비오는날 음식”의 키워드가 정확히 있어야 합니다. 하지만 파전을 설명하는 문서에는 다음과 같이 있습니다. "파전: 한국 요리 중의 하나로서, 반죽한 밀가루에 파를 넣어 부친 전". 문장에 ‘비오는날 음식’이라는 키워드가 없으므로 전통적인 키워드 검색으로는 해당 문서를 찾지 못합니다.즉, 의미와 상관없이 표현이 다르면 검색이 빗나가는 구조적 한계가 존재합니다. 임베딩이란 이러한 문제를 해결하기 위한 대표적인 기술이 바로 임베딩(Embedding) 입니다. 임베딩이란 텍스트를 고차원 벡터 공간으로 변환하는 기술..