Spaces:

ErvinYubo
/

TopEdu

Sleeping

TopEdu / semantic_chunking.py

AbhishekParanjape

semantic chunker

ef981ba 3 months ago

17.9 kB

	"""
	Semantic Chunker Module for RAG Systems
	======================================

	A drop-in replacement for RecursiveCharacterTextSplitter that uses semantic similarity
	to create more coherent chunks. Designed to work seamlessly with existing LangChain
	and Streamlit RAG systems.

	Author: AI Assistant
	Compatible with: LangChain, BGE embeddings, OpenAI embeddings, Streamlit
	"""

	import numpy as np
	import re
	from typing import List, Dict, Any, Optional, Union
	from langchain.schema import Document
	import streamlit as st
	from sklearn.metrics.pairwise import cosine_similarity
	import logging

	# Set up logging
	logging.basicConfig(level=logging.INFO)
	logger = logging.getLogger(__name__)

	class SemanticChunker:
	"""
	Advanced semantic document chunker that creates coherent chunks based on
	semantic similarity rather than fixed character counts.

	Perfect for university documents, research papers, and policy documents
	where maintaining semantic coherence is crucial.
	"""

	def __init__(self,
	embeddings_model,
	chunk_size: int = 4,
	overlap: int = 1,
	similarity_threshold: float = 0.75,
	min_chunk_size: int = 150,
	max_chunk_size: int = 1500,
	sentence_split_pattern: Optional[str] = None,
	debug: bool = False):
	"""
	Initialize the semantic chunker.

	Args:
	embeddings_model: Your existing embeddings model (BGE, OpenAI, etc.)
	chunk_size: Base number of sentences per chunk (default: 4)
	overlap: Number of sentences to overlap between chunks (default: 1)
	similarity_threshold: Cosine similarity threshold for extending chunks (0.0-1.0)
	min_chunk_size: Minimum characters per chunk (skip smaller chunks)
	max_chunk_size: Maximum characters per chunk (prevent overly large chunks)
	sentence_split_pattern: Custom regex pattern for sentence splitting
	debug: Enable debug logging and statistics
	"""
	self.embeddings_model = embeddings_model
	self.chunk_size = chunk_size
	self.overlap = overlap
	self.similarity_threshold = similarity_threshold
	self.min_chunk_size = min_chunk_size
	self.max_chunk_size = max_chunk_size
	self.debug = debug

	# Default sentence splitting pattern optimized for academic/university documents
	self.sentence_pattern = sentence_split_pattern or r'[.!?]+\s+'

	# Statistics tracking
	self.stats = {
	"total_documents": 0,
	"total_chunks": 0,
	"avg_chunk_size": 0,
	"chunking_methods": {},
	"embedding_errors": 0
	}

	if self.debug:
	logger.info(f"Initialized SemanticChunker with threshold={similarity_threshold}")

	def _detect_embedding_model_type(self) -> str:
	"""Detect the type of embedding model being used."""
	if hasattr(self.embeddings_model, 'model'):
	# Likely sentence-transformers model (BGE, etc.)
	model_name = getattr(self.embeddings_model.model, 'model_name', 'sentence-transformers')
	return f"sentence-transformers ({model_name})"
	elif hasattr(self.embeddings_model, 'client'):
	# Likely OpenAI
	return "OpenAI"
	else:
	return "Unknown"

	def _preprocess_text_for_splitting(self, text: str) -> str:
	"""
	Preprocess text to handle common formatting issues in university documents.
	"""
	# Fix common formatting issues
	fixes = [
	# Add space after periods before capital letters
	(r'([a-z])\.([A-Z])', r'\1. \2'),
	# Add space after numbers with periods
	(r'([0-9]+)\.([A-Z])', r'\1. \2'),
	# Fix missing spaces after question/exclamation marks
	(r'([a-z])\?([A-Z])', r'\1? \2'),
	(r'([a-z])\!([A-Z])', r'\1! \2'),
	# Clean up multiple spaces
	(r'\s+', ' '),
	# Fix bullet points
	(r'•\s*([A-Z])', r'• \1'),
	(r'-\s*([A-Z])', r'- \1'),
	]

	processed_text = text
	for pattern, replacement in fixes:
	processed_text = re.sub(pattern, replacement, processed_text)

	return processed_text.strip()

	def _split_into_sentences(self, text: str) -> List[str]:
	"""
	Advanced sentence splitting optimized for academic documents.
	"""
	# Preprocess text
	text = self._preprocess_text_for_splitting(text)

	# Split on sentence boundaries
	raw_sentences = re.split(self.sentence_pattern, text)

	# Clean and filter sentences
	sentences = []
	for sentence in raw_sentences:
	sentence = sentence.strip()

	# Filter out very short sentences, pure numbers, or empty strings
	if len(sentence) >= 10 and not sentence.isdigit() and not re.match(r'^[^\w]*$', sentence):
	sentences.append(sentence)

	if self.debug:
	logger.info(f"Split text into {len(sentences)} sentences")

	return sentences

	def _get_embeddings(self, texts: List[str]) -> Optional[np.ndarray]:
	"""
	Get embeddings from the provided model with error handling.
	"""
	try:
	if hasattr(self.embeddings_model, 'model'):
	# sentence-transformers model (BGE, etc.)
	embeddings = self.embeddings_model.model.encode(texts)
	return np.array(embeddings)
	elif hasattr(self.embeddings_model, 'embed_documents'):
	# OpenAI or similar API-based embeddings
	embeddings = self.embeddings_model.embed_documents(texts)
	return np.array(embeddings)
	else:
	# Try direct call
	embeddings = self.embeddings_model(texts)
	return np.array(embeddings)

	except Exception as e:
	self.stats["embedding_errors"] += 1
	if self.debug:
	logger.error(f"Error generating embeddings: {e}")

	# Show warning in Streamlit if available
	try:
	st.warning(f"⚠️ Embedding error, falling back to simple chunking: {str(e)[:100]}...")
	except:
	pass # Streamlit not available

	return None

	def _calculate_semantic_boundaries(self, embeddings: np.ndarray, sentences: List[str]) -> List[int]:
	"""
	Find natural semantic boundaries in the text based on embedding similarities.
	"""
	boundaries = [0] # Always start with first sentence

	# Calculate similarities between consecutive sentences
	similarities = []
	for i in range(len(embeddings) - 1):
	sim = cosine_similarity(
	embeddings[i:i+1],
	embeddings[i+1:i+2]
	)[0][0]
	similarities.append(sim)

	# Find significant drops in similarity (topic boundaries)
	if len(similarities) > 1:
	mean_sim = np.mean(similarities)
	std_sim = np.std(similarities)
	threshold = mean_sim - (0.5 * std_sim) # Adaptive threshold

	for i, sim in enumerate(similarities):
	if sim < threshold:
	boundaries.append(i + 1)

	boundaries.append(len(sentences)) # Always end with last sentence

	return sorted(list(set(boundaries))) # Remove duplicates and sort

	def _create_chunks_from_boundaries(self, sentences: List[str], boundaries: List[int],
	embeddings: Optional[np.ndarray], metadata: Dict[str, Any]) -> List[Document]:
	"""
	Create document chunks based on semantic boundaries.
	"""
	chunks = []

	for i in range(len(boundaries) - 1):
	start_idx = boundaries[i]
	end_idx = boundaries[i + 1]

	# Create base chunk
	chunk_sentences = sentences[start_idx:end_idx]

	# Try to extend chunk if semantically similar
	if embeddings is not None and end_idx < len(sentences):
	current_embedding = np.mean(embeddings[start_idx:end_idx], axis=0, keepdims=True)

	# Check if we can extend the chunk
	extended_end = end_idx
	while extended_end < len(sentences):
	next_sentence_embedding = embeddings[extended_end:extended_end+1]
	similarity = cosine_similarity(current_embedding, next_sentence_embedding)[0][0]

	if similarity > self.similarity_threshold:
	# Check size limit
	test_chunk = ' '.join(sentences[start_idx:extended_end+1])
	if len(test_chunk) <= self.max_chunk_size:
	extended_end += 1
	# Update current embedding
	current_embedding = np.mean(embeddings[start_idx:extended_end], axis=0, keepdims=True)
	else:
	break
	else:
	break

	# Use extended chunk if we found extensions
	if extended_end > end_idx:
	chunk_sentences = sentences[start_idx:extended_end]

	# Create chunk text
	chunk_text = ' '.join(chunk_sentences)

	# Only add chunks that meet minimum size requirement
	if len(chunk_text) >= self.min_chunk_size:
	chunk_metadata = metadata.copy()
	chunk_metadata.update({
	"chunk_index": len(chunks),
	"sentence_count": len(chunk_sentences),
	"start_sentence": start_idx,
	"end_sentence": start_idx + len(chunk_sentences) - 1,
	"chunking_method": "semantic_boundary",
	"similarity_threshold": self.similarity_threshold,
	"chunk_size_chars": len(chunk_text)
	})

	chunks.append(Document(page_content=chunk_text, metadata=chunk_metadata))

	return chunks

	def _create_simple_chunks(self, sentences: List[str], metadata: Dict[str, Any]) -> List[Document]:
	"""
	Fallback to simple sentence-based chunking when embeddings are unavailable.
	"""
	chunks = []

	for i in range(0, len(sentences), max(1, self.chunk_size - self.overlap)):
	chunk_sentences = sentences[i:i + self.chunk_size]
	chunk_text = ' '.join(chunk_sentences)

	if len(chunk_text) >= self.min_chunk_size:
	chunk_metadata = metadata.copy()
	chunk_metadata.update({
	"chunk_index": len(chunks),
	"sentence_count": len(chunk_sentences),
	"start_sentence": i,
	"end_sentence": i + len(chunk_sentences) - 1,
	"chunking_method": "simple_fallback",
	"chunk_size_chars": len(chunk_text)
	})

	chunks.append(Document(page_content=chunk_text, metadata=chunk_metadata))

	return chunks

	def split_documents(self, documents: List[Document]) -> List[Document]:
	"""
	Main method: Split documents into semantically coherent chunks.

	Args:
	documents: List of LangChain Document objects

	Returns:
	List of Document objects with semantic chunks
	"""
	all_chunks = []
	self.stats["total_documents"] = len(documents)

	for doc_idx, doc in enumerate(documents):
	try:
	# Split document into sentences
	sentences = self._split_into_sentences(doc.page_content)

	if not sentences:
	if self.debug:
	logger.warning(f"No sentences found in document {doc_idx}")
	continue

	# Handle very short documents
	if len(sentences) < self.chunk_size:
	chunk_text = ' '.join(sentences)
	if len(chunk_text) >= self.min_chunk_size:
	chunk_metadata = doc.metadata.copy()
	chunk_metadata.update({
	"chunk_index": 0,
	"total_chunks": 1,
	"sentence_count": len(sentences),
	"chunking_method": "single_chunk",
	"chunk_size_chars": len(chunk_text)
	})
	all_chunks.append(Document(page_content=chunk_text, metadata=chunk_metadata))
	continue

	# Generate embeddings
	embeddings = self._get_embeddings(sentences)

	if embeddings is not None:
	# Create semantic chunks
	chunks = self._create_chunks_from_boundaries(sentences, [0, len(sentences)], embeddings, doc.metadata)
	method = "semantic"
	else:
	# Fallback to simple chunking
	chunks = self._create_simple_chunks(sentences, doc.metadata)
	method = "simple_fallback"

	# Update statistics
	self.stats["chunking_methods"][method] = self.stats["chunking_methods"].get(method, 0) + 1

	# Update total chunks count in each chunk's metadata
	for chunk in chunks:
	chunk.metadata["total_chunks"] = len(chunks)
	chunk.metadata["source_document_index"] = doc_idx

	all_chunks.extend(chunks)

	if self.debug:
	logger.info(f"Document {doc_idx}: {len(sentences)} sentences → {len(chunks)} chunks ({method})")

	except Exception as e:
	logger.error(f"Error processing document {doc_idx}: {e}")
	if self.debug:
	st.error(f"Error processing document {doc_idx}: {e}")

	# Update final statistics
	self.stats["total_chunks"] = len(all_chunks)
	if all_chunks:
	chunk_sizes = [len(chunk.page_content) for chunk in all_chunks]
	self.stats["avg_chunk_size"] = sum(chunk_sizes) / len(chunk_sizes)

	if self.debug:
	logger.info(f"Created {len(all_chunks)} total chunks from {len(documents)} documents")

	return all_chunks

	def get_statistics(self) -> Dict[str, Any]:
	"""Get chunking statistics for analysis."""
	return self.stats.copy()

	def display_statistics(self):
	"""Display chunking statistics in Streamlit (if available)."""
	try:
	with st.expander("📊 Semantic Chunking Statistics"):
	col1, col2 = st.columns(2)

	with col1:
	st.metric("Total Documents", self.stats["total_documents"])
	st.metric("Total Chunks", self.stats["total_chunks"])

	with col2:
	st.metric("Avg Chunk Size", f"{self.stats['avg_chunk_size']:.0f} chars")
	st.metric("Embedding Errors", self.stats["embedding_errors"])

	if self.stats["chunking_methods"]:
	st.write("Chunking Methods Used:")
	for method, count in self.stats["chunking_methods"].items():
	percentage = (count / self.stats["total_documents"]) * 100 if self.stats["total_documents"] > 0 else 0
	st.write(f" - {method}: {count} documents ({percentage:.1f}%)")

	st.write("Configuration:")
	st.json({
	"chunk_size": self.chunk_size,
	"overlap": self.overlap,
	"similarity_threshold": self.similarity_threshold,
	"min_chunk_size": self.min_chunk_size,
	"max_chunk_size": self.max_chunk_size,
	"embedding_model": self._detect_embedding_model_type()
	})

	except ImportError:
	# Streamlit not available, print to console
	print("\n=== Semantic Chunking Statistics ===")
	print(f"Documents processed: {self.stats['total_documents']}")
	print(f"Chunks created: {self.stats['total_chunks']}")
	print(f"Average chunk size: {self.stats['avg_chunk_size']:.0f} characters")
	print(f"Embedding errors: {self.stats['embedding_errors']}")
	print(f"Chunking methods: {self.stats['chunking_methods']}")


	def create_semantic_chunker(embeddings_model, **kwargs) -> SemanticChunker:
	"""
	Convenience function to create a semantic chunker with sensible defaults.

	Args:
	embeddings_model: Your existing embeddings model
	**kwargs: Additional parameters to pass to SemanticChunker

	Returns:
	SemanticChunker instance ready to use
	"""
	return SemanticChunker(embeddings_model=embeddings_model, **kwargs)