Spaces:

mrmuminov
/

tahrirchi-bert-base-embedding

Sleeping

App Files Files Community

mrmuminov commited on Jan 20

Commit

6078730

1 Parent(s): 8ac9b4d

Init

Browse files

Files changed (3) hide show

README.md +1 -1
app.py +99 -0
requirements.txt +3 -0

README.md CHANGED Viewed

@@ -4,7 +4,7 @@ emoji: 🌖
 colorFrom: blue
 colorTo: pink
 sdk: gradio
-sdk_version: 5.12.0
 app_file: app.py
 pinned: false
 short_description: Tahrirchi BERT Base - Embedding

 colorFrom: blue
 colorTo: pink
 sdk: gradio
+sdk_version: 4.44.1
 app_file: app.py
 pinned: false
 short_description: Tahrirchi BERT Base - Embedding

app.py ADDED Viewed

	@@ -0,0 +1,99 @@

+from transformers import AutoTokenizer, AutoModelForMaskedLM
+import torch
+import gradio as gr
+import numpy as np
+import json
+class BertEmbeddingsGenerator:
+    def __init__(self, model_name="tahrirchi/tahrirchi-bert-base"):
+        """Initialize the BERT model and tokenizer."""
+        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
+        self.model = AutoModelForMaskedLM.from_pretrained(model_name)
+        self.model.eval()  # Set to evaluation mode
+    def get_embeddings(self, text):
+        """
+        Generate embeddings for the input text.
+        Args:
+            text (str): Input text to embed
+        Returns:
+            np.ndarray: Text embeddings
+        """
+        # Tokenize input text
+        inputs = self.tokenizer(
+            text,
+            return_tensors="pt",
+            truncation=True,
+            padding=True,
+            max_length=512
+        )
+        # Generate embeddings
+        with torch.no_grad():
+            outputs = self.model(**inputs, output_hidden_states=True)
+        # Get the hidden states from the last layer
+        # The hidden states tuple contains embeddings from all layers, -1 gets the last layer
+        last_hidden_state = outputs.hidden_states[-1]
+        # Average token embeddings to get sentence embedding
+        embeddings = last_hidden_state.mean(dim=1)
+        # Convert to numpy and then to list
+        return embeddings.squeeze().cpu().numpy()
+def create_gradio_interface():
+    """Create and configure the Gradio interface."""
+    # Initialize the embeddings generator
+    generator = BertEmbeddingsGenerator()
+    def embed_text(input_text):
+        """Gradio interface function."""
+        try:
+            if not input_text or not input_text.strip():
+                return json.dumps({"error": "Please enter some text"})
+            embeddings = generator.get_embeddings(input_text)
+            # Convert numpy array to list and handle NaN/Infinity values
+            embeddings_list = np.where(np.isfinite(embeddings), embeddings, None).tolist()
+            # Create a structured output
+            output = {
+                "embeddings": embeddings_list,
+                "dimensions": len(embeddings_list),
+                "status": "success"
+            }
+            return json.dumps(output, ensure_ascii=False)
+        except Exception as e:
+            return json.dumps({
+                "error": str(e),
+                "status": "error"
+            })
+    # Create Gradio interface
+    iface = gr.Interface(
+        fn=embed_text,
+        inputs=gr.Textbox(
+            lines=2,
+            placeholder="Enter text here...",
+            label="Input Text"
+        ),
+        outputs=gr.JSON(label="Embeddings"),
+        title="BERT Text Embeddings Generator",
+        description="Generate embeddings from text using tahrirchi-bert-base model",
+        examples=[
+            ["This is a sample text to generate embeddings."],
+            ["Another example text to showcase the embedding generation."]
+        ]
+    )
+    return iface
+if __name__ == "__main__":
+    # Create and launch the interface
+    iface = create_gradio_interface()
+    iface.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+transformers==4.38
+torch==2.3.0
+gradio==4.44.1