Spaces:

kkngan
/

it-service-classifcation

Sleeping

App Files Files Community

kkngan commited on Mar 13, 2024

Commit

7e0431e

verified ·

1 Parent(s): f1f604e

Upload 2 files

Browse files

Files changed (3) hide show

.gitattributes +1 -0
app.py +77 -0
bert-itserviceclassification +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+bert-itserviceclassification filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,77 @@

+import streamlit as st
+from streamlit_mic_recorder import mic_recorder
+from transformers import pipeline
+import torch
+from transformers import BertTokenizer, BertForSequenceClassification
+def callback():
+    if st.session_state.my_recorder_output:
+        audio_bytes = st.session_state.my_recorder_output['bytes']
+        st.audio(audio_bytes)
+def transcribe(upload):
+    pipe = pipeline("automatic-speech-recognition", model="openai/whisper-base")
+    result = pipe(upload, generate_kwargs={'task': 'transcribe'})
+    print(result['text'])
+    return result['text']
+def encode(docs, tokenizer):
+    '''
+    This function takes list of texts and returns input_ids and attention_mask of texts
+    '''
+    encoded_dict = tokenizer.batch_encode_plus(docs, add_special_tokens=True, max_length=128, padding='max_length',
+                            return_attention_mask=True, truncation=True, return_tensors='pt')
+    input_ids = encoded_dict['input_ids']
+    attention_masks = encoded_dict['attention_mask']
+    return input_ids, attention_masks
+def load_model():
+    CUSTOMMODEL_PATH = "./bert-itserviceclassification"
+    PRETRAINED_LM = "bert-base-uncased"
+    tokenizer = BertTokenizer.from_pretrained(PRETRAINED_LM, do_lower_case=True)
+    model = BertForSequenceClassification.from_pretrained(PRETRAINED_LM,
+                                                        num_labels=8,
+                                                        output_attentions=False,
+                                                        output_hidden_states=False)
+    model.load_state_dict(torch.load(CUSTOMMODEL_PATH))
+    return model, tokenizer
+def predict(text, model, tokenizer):
+    lookup_key ={0: 'Hardware',
+    1: 'Access',
+    2: 'Miscellaneous',
+    3: 'HR Support',
+    4: 'Purchase',
+    5: 'Administrative rights',
+    6: 'Storage',
+    7: 'Internal Project'}
+    with torch.no_grad():
+        input_ids, att_mask = encode([text], tokenizer)
+        logits = model(input_ids = input_ids, attention_mask=att_mask).logits
+    predicted_class_id = logits.argmax().item()
+    predicted_label = lookup_key.get(predicted_class_id)
+    return predicted_label
+def main():
+    st.set_page_config(layout="wide", page_title="IT Service NLP Classification",)
+    with st.sidebar:
+        audio = mic_recorder(key='my_recorder', callback=callback)
+        button = st.button('start classification')
+    if button:
+        st.write('Loading')
+        text = transcribe(upload=audio["bytes"])
+        st.write(f'Speech-to-test Result:')
+        st.write(f'{text}')
+        model, tokenizer = load_model()
+        prediction = predict(text=text, model=model, tokenizer=tokenizer)
+        st.write(f'Classifcation Result:')
+        st.write(f'{prediction}')
+if __name__ == '__main__':
+    main()

bert-itserviceclassification ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fbed72a8eda5109d533406b8333c9b23d3f263d0369a0f301198d23ff84095cd
+size 438035988