RAG 파이프라인 설계: 청킹부터 검색 품질 모니터링까지 — ZenDevy

이 글의 기술 정보는 2026년 4월 기준으로 검증되었습니다. AI·LLM 분야는 변화가 빠르므로, 6개월 이상 경과 시 공식 문서를 재확인하세요.

이런 분이 읽으면 좋습니다

요약: RAG 를 “벡터 DB 에 넣고 검색하면 끝”으로 생각하면 프로덕션에서 실패한다. 청킹·검색·리랭킹·쿼리 변환·평가 5개 레이어를 설계해야 하고, 각 레이어의 정확도가 곱셈으로 전체 신뢰도를 결정한다. 95% × 95% × 95% × 95% × 95% = 77%. 레이어 하나라도 빠지면 무너진다.

이 글은 RAG 시스템을 프로덕션에 올리려는 백엔드·ML 엔지니어를 위해 썼다. 2026년 4월 기준 생태계와 벤치마크를 기반으로 한다.

5개 레이어 아키텍처

	레이어	역할	실패 시 증상
1	청킹	문서 → 의미 단위 분할	검색이 맞는데 답이 반쪽
2	검색 (Retrieval)	쿼리 → 관련 청크 top-k	엉뚱한 문서 반환
3	리랭킹	top-k → 정밀 재정렬	관련 문서가 있는데 순위 밖
4	쿼리 변환	사용자 질문 → 검색 최적화 쿼리	일상어 질문에 검색 실패
5	평가 & 모니터링	파이프라인 건강도 측정	품질 저하를 모르고 방치

각 레이어의 정확도가 곱셈으로 전체 신뢰도를 결정한다.

레이어 1 — 청킹 전략

청킹은 RAG 파이프라인에서 첫 번째이자 가장 과소평가된 설계 결정이다. 임베딩 모델을 바꾸는 것보다 청킹 전략을 바꾸는 게 검색 정확도에 더 큰 영향을 미친다.

고정 크기 vs 의미 기반 vs 계층형

고정 크기 청킹: 500토큰 단위로 자른다. 구현이 간단하지만, 문장 중간에서 잘리면 의미가 훼손된다. 임상 의사결정 연구에서 13% 정확도.

의미 기반(Semantic) 청킹: 문장 간 임베딩 유사도를 계산해서 주제가 바뀌는 지점에서 분할. 하나의 청크가 하나의 아이디어를 담는다. 같은 연구에서 적응형 청킹은 87% 정확도.

계층형(Hierarchical) 청킹: 부모 청크(요약) → 자식 청크(상세). 검색은 부모에서 시작, 필요하면 자식으로 드릴다운. 긴 문서(법률, 기술 문서)에 유용.

레이어 2 — 검색: 하이브리드가 기본

벡터 유사도 검색(dense retrieval)만으로는 부족하다.

Dense only (벡터 검색): recall@10 = 78%
Sparse only (BM25 키워드): recall@10 = 65%
Hybrid (dense + sparse): recall@10 = 91%

2026년 기준 프로덕션 RAG 시스템의 72%가 하이브리드 검색을 사용한다. Pinecone, Weaviate, Qdrant 모두 하이브리드를 네이티브 지원.

# 하이브리드 검색 예시 (Weaviate)
results = client.query.hybrid(
    query="RAG 파이프라인에서 청킹 전략",
    alpha=0.7,  # 0=sparse only, 1=dense only, 0.7=dense 가중
    limit=20,   # 리랭킹 전 넉넉하게
)

레이어 3 — 리랭킹

검색에서 top-20 을 뽑은 뒤, 리랭커 모델이 쿼리와의 관련도를 재계산해서 top-5 로 압축한다. 검색 단계에서 “대략 맞는” 청크를 넓게 가져오고, 리랭킹에서 “정확히 맞는” 순서를 잡는다.

대표 리랭커: Cohere Rerank, Jina Reranker, cross-encoder 기반 오픈소스 모델.

리랭킹 없이 top-5 를 바로 쓰면, 검색 순위 4~5번에 있는 핵심 정보가 LLM 컨텍스트에서 빠진다. “답은 있는데 LLM 이 모른다” 현상의 주 원인.

레이어 4 — 쿼리 변환

사용자가 “그거 비용 얼마야?” 라고 물었을 때, “그거”가 뭔지 벡터 DB 는 모른다. 쿼리 변환은 사용자의 자연어 질문을 검색에 최적화된 형태로 재작성한다.

HyDE (Hypothetical Document Embeddings): LLM 에게 “이 질문의 답이 포함된 문서를 상상해서 써봐”라고 시키고, 그 가상 문서의 임베딩으로 검색
Multi-query: 하나의 질문을 3~5개의 다른 표현으로 변환 → 각각 검색 → 합집합
대화 컨텍스트 통합: 이전 대화에서 “그거”가 가리키는 엔티티를 쿼리에 명시적으로 삽입

레이어 5 — 평가와 모니터링

측정할 수 없으면 개선할 수 없다. 프로덕션 RAG 의 건강도를 판단하는 3가지 핵심 지표:

Faithfulness — LLM 의 답변이 검색된 청크에 실제로 근거하는가 (환각 탐지)
Answer Relevancy — 답변이 원래 질문에 실제로 답하는가
Context Precision — 검색된 청크 중 실제로 유용한 비율

RAGAS, DeepEval 같은 프레임워크가 이 3가지를 자동 측정하는 CI 파이프라인을 제공한다. 골든 데이터셋 50~100개를 만들고, 매 배포마다 회귀 테스트를 돌려라.

피해야 할 상황

다음에 읽을 글

LLM 구조화 출력: JSON 모드 vs 함수 호출 vs 제약 디코딩 — RAG 출력을 구조화할 때의 3가지 선택지
프로덕션 AI 서비스의 프롬프트 버전 관리 — RAG 프롬프트를 어떻게 버전 관리할 것인가
AWS vs GCP vs Azure: 2026 스타트업 비용 비교 — RAG 인프라를 올릴 클라우드 비용