--- language: ru tags: - spam-detection - text-classification - russian license: cc-by-nc-nd-3.0 metrics: - F1 model-index: - name: spamNS_v6 results: - task: name: Классификация текста type: text-classification metrics: - name: F1 type: F1 value: 0.87 extra_gated_prompt: Для получения доступа к модели, пожалуйста, заполните форму ниже. extra_gated_fields: Зачем вам нужна модель?: text Согласие с правилами использования (обязательно): checkbox 'Я подтверждаю, что: использование модели в коммерческих целях запрещено; при использовании модели в своих проектах я обязуюсь указывать ссылку на репозиторий модели; в противном случае я могу нести юридическую ответственность, а также доступ к модели будет незамедлительно отозван': checkbox Ваше имя: text Ваша фамилия: text Ваш номер телефона: text --- # RUSpam/spamNS_v1 🚨 Для всех, кто запрашивал доступ, но он был закрыт или не выдан: ❗ Пожалуйста, отмените запрос и отправьте его заново, иначе доступ не будет предоставлен! ## Описание Это модель определения спама, основанная на архитектуре руберта, дообученная на русскоязычных данных о спаме. Она классифицирует текст как спам или не спам. Была обучена на 1млн сообщений. ## Использование ```python import re import torch from transformers import AutoTokenizer, AutoModelForSequenceClassification model_name = 'NeuroSpaceX/ruSpamNS_v6' device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=1).to(device).eval() tokenizer = AutoTokenizer.from_pretrained(model_name) def clean_text(text): text = re.sub(r'http\S+', '', text) text = re.sub(r'[^А-Яа-я0-9 ]+', ' ', text) text = text.lower().strip() return text def classify_message(message): message = clean_text(message) encoding = tokenizer(message, padding='max_length', truncation=True, max_length=128, return_tensors='pt') input_ids = encoding['input_ids'].to(device) attention_mask = encoding['attention_mask'].to(device) with torch.no_grad(): outputs = model(input_ids, attention_mask=attention_mask).logits pred = torch.sigmoid(outputs).cpu().numpy()[0][0] is_spam = int(pred >= 0.5) return is_spam if __name__ == '__main__': while True: message = input("Введите сообщение для классификации (или 'exit' для выхода): ") if message.lower() == 'exit': break is_spam = classify_message(message) print(f"Сообщение {'является спамом' if is_spam else 'не является спамом'}") ``` Просьба при использовании данной модели указывать ссылку на данный репозиторий! # Цитирование ``` @MISC{NeuroSpaceX/ruSpamNS_V6, author = {Kirill Fedko (Neurospacex), Andrey Tolstóy}, title = {Russian Spam Classification Model}, url = {https://huggingface.co/NeuroSpaceX/ruSpamNS_V1}, year = 2024 } ``` Телеграм канал автора: https://t.me/spaceneuro Бот работающай на безе модели: https://t.me/ruSpamNS_bot