isikz/kinase_mc_group_esm1b

Fine-Tuning ESM-1b for Human Kinase Group Prediction

This repository also includes a fine-tuned version of the ESM-1b model for kinase classification, trained using 392 kinases from Manning human kinase dataset. The model is designed for multiclass classification, predicting the kinase group associated with a given sequence. Our aim is to obtain a pLM which is aware of kinase group information.

Developed by:

Zeynep Işık (MSc, Sabanci University)

Dataset & Labeling Strategy

The dataset was constructed using kinase information from Manning. There are 392 human kinases which belong to one of the 10 kinase groups.

Dataset Statistics

Training Samples: 274
Validation Samples: 58
Testing Samples: 58

Test Performance

Accuracy: 0.91
F1-Score: 0.81

Usage

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Load the model and tokenizer
model_name = "isikz/kinase_mc_group_esm1b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Example sequence
sequence = "MKTLLLTLVVVTIVCLDLGYTGV"

# Tokenize input
inputs = tokenizer(sequence, return_tensors="pt")

# Get prediction
with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits
    predicted_class = torch.argmax(logits, dim=-1).item()

print(f"Predicted Kinase Group: {predicted_class}")