--- tags: - sentence-transformers - sentence-similarity - feature-extraction base_model: sagorsarker/bangla-bert-base widget: - source_sentence: >- মেহেরপুরে বিএনপি নেতা হামিদুর রহমান হেলাল ও তাঁর মেয়ে সেতু হত্যা মামলার প্রধান আসামি মোস্তাফিজুর রহমান টিপুকে কারাগারে পাঠিয়েছেন আদালত sentences: - >- মেহেরপুরে বিএনপি নেতা হামিদুর রহমান হেলাল ও তাঁর মেয়ে সেতু হত্যা মামলার প্রধান আসামি মোস্তাফিজুর রহমান টিপুকে কারাগারে পাঠিয়েছেন আদালত - স্টেসে কানিংহামকে এক্সচেঞ্জের তম প্রেসিডেন্ট হিসেবে ঘোষণা দেওয়া হয়েছে - আসিফ আকবরের সঙ্গে এটাই আমার প্রথম গান - source_sentence: উদ্দাম নাচলেন তারা sentences: - উদ্দাম নাচলেন তারা - >- শিক্ষাপ্রতিষ্ঠানগুলি অন্য কোনও উপায়ে শিক্ষার্থীদের মূল্যায়ন করবে কিনা সে বিষয়ে এখনও কোনও সিদ্ধান্ত হয়নি - বিয়ের পর তিনি জানতে পারেন তার স্বামী আগেও বিয়ে করেছেন - source_sentence: >- এমনই একটি সংলাপ শোনা যাবে নাট্যনির্মাতা মোস্তফা সারোয়ার ফারুকীর তিন মিনিটের একটি মোটিভেশনাল চলচ্চিত্রে sentences: - আর এ তালিকাই সার্চ কমিটির কাছে জমা দিয়েছিল তারা - >- এমনই একটি সংলাপ শোনা যাবে নাট্যনির্মাতা মোস্তফা সারোয়ার ফারুকীর তিন মিনিটের একটি মোটিভেশনাল চলচ্চিত্রে - আয়োডিনের অভাব হয় শিশু জন্মের আগেই - source_sentence: >- সরকারি একজন মুখপাত্রের বরাত দিয়ে দেশটির গণমাধ্যম জাপান টাইমস এই তথ্য জানিয়েছে sentences: - >- যুগান্তরের এক সপ্তাহের অনুসন্ধানে চোরাই জুতার কারবার নিয়ে উঠে এসেছে বিচিত্র সব তথ্য - >- সম্প্রতি লন্ডনে অনুষ্ঠিত ফাইভজি ওয়ার্ল্ড সামিট এ বেস্ট ফাইভজি কোর নেটওয়ার্ক টেকনোলজি শীর্ষক এই পুরস্কার দেওয়া হয় - >- সরকারি একজন মুখপাত্রের বরাত দিয়ে দেশটির গণমাধ্যম জাপান টাইমস এই তথ্য জানিয়েছে - source_sentence: >- শুক্রবার বিকালে সিলেটের ফেঞ্চুগঞ্জের উত্তর ইসলামপুরে বন্যার্ত পরিবারের মধ্যে ত্রাণ বিতরণ কার্যক্রমের উদ্বোধন শেষে সাংবাদিকদের তিনি একথা জানান sentences: - >- শুক্রবার বিকালে সিলেটের ফেঞ্চুগঞ্জের উত্তর ইসলামপুরে বন্যার্ত পরিবারের মধ্যে ত্রাণ বিতরণ কার্যক্রমের উদ্বোধন শেষে সাংবাদিকদের তিনি একথা জানান - উত্তরাঞ্চল ওভারে নাঈম কাপালি - থিওরি ও সূত্রগুলো ভালোভাবে বুঝতে হবে pipeline_tag: feature-extraction language: - bn --- # SentenceTransformer based on sagorsarker/bangla-bert-base This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sagorsarker/bangla-bert-base](https://huggingface.co/sagorsarker/bangla-bert-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more. ## Model Details ### Model Description - **Model Type:** Sentence Transformer - **Base model:** [sagorsarker/bangla-bert-base](https://huggingface.co/sagorsarker/bangla-bert-base) - **Maximum Sequence Length:** 512 tokens - **Output Dimensionality:** 768 dimensions - **Similarity Function:** Cosine Similarity ### Full Model Architecture ``` SentenceTransformer( (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) ) ``` ## Usage ### Direct Usage (Sentence Transformers) First install the Sentence Transformers library: ```bash pip install -U sentence-transformers ``` Then you can load this model and run inference. ```python from sentence_transformers import SentenceTransformer # Download from the 🤗 Hub model = SentenceTransformer("farhana1996/unsupervised-simcse-bangla-bert-base") # Run inference sentences = [ 'শুক্রবার বিকালে সিলেটের ফেঞ্চুগঞ্জের উত্তর ইসলামপুরে বন্যার্ত পরিবারের মধ্যে ত্রাণ বিতরণ কার্যক্রমের উদ্বোধন শেষে সাংবাদিকদের তিনি একথা জানান', 'থিওরি ও সূত্রগুলো ভালোভাবে বুঝতে হবে', ] embeddings = model.encode(sentences) print(embeddings.shape) # [2, 768] ``` ## Training Details ### Training Dataset * Size: 500,000 training samples ### Training Hyperparameters #### Non-Default Hyperparameters - `per_device_train_batch_size`: 16 - `per_device_eval_batch_size`: 16 - `num_train_epochs`: 1 - `multi_dataset_batch_sampler`: round_robin ### Environment - Python: 3.10.12 - Sentence Transformers: 3.3.1 - Transformers: 4.47.0 - PyTorch: 2.5.1+cu121 - Accelerate: 1.2.1 - Datasets: 3.2.0 - Tokenizers: 0.21.0