✂️Chunking (AI)
Chunking (AI)
チャンキングは、RAGパイプラインで独立してエンベディングおよび検索可能な、より小さく意味的に一貫したセグメントに文書を分割するプロセスです。
What Is Chunking (AI)?
チャンキングは、大きな文書を個別にエンベディングし検索時に取得可能な小さなテキストセグメントに分割するプロセスです。あらゆるRAGパイプラインで重要な前処理ステップで、チャンクが検索の最小単位となり、その品質が応答品質を直接決定します。
How Chunking (AI) Works
戦略:固定サイズ、文ベース、段落ベース、セマンティック、階層的。コンテキスト充実化で文書レベルのメタデータを追加。オーバーラップで境界の情報を保持します。
Why Chunking (AI) Matters
チャットボット精度の最も影響力がありながら最も見えにくいコンポーネントの一つです。
How Chatloom Uses Chunking (AI)
Chatloomのパイプラインは文書構造を尊重したインテリジェントチャンキングとコンテキスト充実化を使用します。
Frequently Asked Questions
- 理想的なサイズは?
- コンテンツ依存。FAQ:200-400トークン。技術文書:500-1000トークン。
- 小さすぎると?
- コンテキストが失われます — 完全なアイデアではなく断片になります。
- 大きすぎると?
- 関連性が希薄になります — エンベディングが平均を表現します。