✂️Chunking (AI)
Chunking (AI)
청킹은 RAG 파이프라인에서 독립적으로 임베딩 및 검색할 수 있는 더 작고 의미론적으로 일관된 세그먼트로 문서를 분할하는 과정입니다.
What Is Chunking (AI)?
청킹은 대규모 문서를 개별적으로 임베딩하고 검색 시 가져올 수 있는 소규모 텍스트 세그먼트로 분할하는 과정입니다. 모든 RAG 파이프라인에서 핵심 전처리 단계이며, 청크가 검색의 원자 단위로서 그 품질이 응답 품질을 직접 결정합니다.
How Chunking (AI) Works
전략: 고정 크기, 문장 기반, 단락 기반, 시맨틱, 계층적. 컨텍스트 보강이 문서 수준 메타데이터를 추가합니다. 오버랩이 경계의 정보를 보존합니다.
Why Chunking (AI) Matters
챗봇 정확도의 가장 영향력 있지만 가장 눈에 띄지 않는 컴포넌트 중 하나입니다.
How Chatloom Uses Chunking (AI)
Chatloom의 파이프라인은 문서 구조를 존중하는 지능형 청킹과 컨텍스트 보강을 사용합니다.
Frequently Asked Questions
- 이상적인 크기는?
- 콘텐츠에 따라 다릅니다. FAQ: 200-400토큰. 기술 문서: 500-1000토큰.
- 너무 작으면?
- 컨텍스트가 손실됩니다 — 완전한 아이디어가 아닌 조각이 됩니다.
- 너무 크면?
- 관련성이 희석됩니다 — 임베딩이 평균을 나타냅니다.