Chunking (AI)
Parçalama, belgeleri RAG hattında bağımsız olarak gömülebilen ve getirilebilen daha küçük, anlamsal olarak tutarlı segmentlere bölme sürecidir.
What Is Chunking (AI)?
Parçalama (metin bölme veya belge segmentasyonu olarak da bilinir), büyük belgeleri vektörler olarak ayrı ayrı gömülebilen ve arama sırasında getirilebilen daha küçük, bağımsız metin segmentlerine ayırma sürecidir. Parçalama herhangi bir RAG hattında kritik bir ön işleme adımıdır çünkü gömme modellerinin token limitleri vardır, vektör benzerliği geniş belgelerden ziyade odaklanmış içerikte en iyi çalışır ve getirmenin tam belgeler yerine belirli ilgili pasajları döndürmesi gerekir. Parça, getirmenin atomik birimidir: kullanıcı soru sorduğunda sistem tam belgeler değil en alakalı parçaları getirir. Bu, parça kalitesinin doğrudan yanıt kalitesini belirlediği anlamına gelir.
How Chunking (AI) Works
Parçalama stratejileri basitten sofistike olana uzanan bir yelpazeye yayılır. Sabit boyutlu parçalama metni önceden belirlenmiş token sayısında segmentlere böler. Cümle tabanlı parçalama cümle sınırlarında böler. Paragraf tabanlı parçalama doğal paragraf sınırlarına uyar. Anlamsal parçalama konu değişikliklerini tespit eder. Bağlamsal zenginleştirme her parçaya belge düzeyinde meta veri ekler. Örtüşme parametresi özellikle önemlidir: örtüşme olmadan iki parçaya yayılan bilgi kaybolabilir.
Why Chunking (AI) Matters
Parçalama, chatbot doğruluğunun en etkili ve en az görünür bileşenlerinden biridir. Yanlış yapılırsa chatbot ince yollarla başarısız olur: tür olarak alakalı ancak temel ayrıntıyı kaçıran parçalar getirir veya garip bir sınırda bölünmüş içerik getirir. Parçalama besleme zamanında gerçekleştiğinden hatalar tüm hatta yayılır.
How Chatloom Uses Chunking (AI)
Chatloom'un besleme hattı, belge yapısına uyarak paragraf ve bölüm sınırlarını korurken optimal parça boyutlarını hedefleyen akıllı parçalama stratejisi kullanır. Her parça, bağlamsal getirme sistemi tarafından belge düzeyinde özet ön ekiyle zenginleştirilir ve bireysel parçaların izole halde anlamlı olmasını sağlar.
Related Terms
Explore related concepts to deepen your understanding.
Frequently Asked Questions
- İdeal parça boyutu nedir?
- Evrensel bir ideal yoktur — içeriğinize ve kullanım alanınıza bağlıdır. Kısa, bağımsız yanıtları olan SSS tarzı içerik için 200-400 token iyi çalışır. Karmaşık açıklamalı teknik belgeler için 500-1000 token daha fazla bağlam korur.
- Parçalar çok küçük olursa ne olur?
- Küçük parçalar bağlamı kaybeder. 100 tokenlik bir parça "yukarıda açıklanan süreç" ifadesini içerebilir ancak referans verilen süreci barındırmayabilir. Bu hem gömmeyi hem de getirmeyi olumsuz etkiler.
- Parçalar çok büyük olursa ne olur?
- Büyük parçalar alaka düzeyini sulandırır. 2000 tokenlik bir parça sorguyu mükemmel yanıtlayan bir paragraf ve diğer konularda on paragraf içerebilir. Gömme tüm içeriğin ortalama anlamını temsil eder ve belirli sorularla eşleştirmeyi zorlaştırır.