Spaces:

vietdata
/

llama32_pub

Sleeping

File size: 2,111 Bytes

5ee4e99
fd9353f
 
5ee4e99
fd9353f
 
 
 
 
 
 
 
5ee4e99
fd9353f
5ee4e99
 
 
 
 
 
 
 
fd9353f
5ee4e99
fd9353f
 
 
 
 
 
 
 
5ee4e99
fd9353f
 
 
 
 
 
5ee4e99
fd9353f
 
 
 
5ee4e99
 
fd9353f
 
5ee4e99
fd9353f
 
 
5ee4e99
 
fd9353f
5ee4e99

import gradio as gr
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Load the model and tokenizer locally in bfloat16 precision
model_name = "vietdata/llama32_1b_pub"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,  # Load model in bfloat16 precision
    device_map="auto" if torch.cuda.is_available() else None,  # Automatically map to available devices
)

# Define the respond function
def respond(
    message,
    history: list[tuple[str, str]],
    system_message,
    max_tokens,
    temperature,
    top_p,
):
    from transformers import TextGenerationPipeline

    # Build the conversation context
    prompt = system_message + "\n"
    for user_msg, bot_msg in history:
        if user_msg:
            prompt += f"User: {user_msg}\n"
        if bot_msg:
            prompt += f"Bot: {bot_msg}\n"
    prompt += f"User: {message}\nBot:"

    # Set up a text generation pipeline
    pipe = TextGenerationPipeline(
        model=model, 
        tokenizer=tokenizer, 
        device=torch.cuda.current_device() if torch.cuda.is_available() else -1
    )

    # Generate the response
    response = pipe(
        prompt,
        max_length=len(prompt) + max_tokens,
        temperature=temperature,
        top_p=top_p,
        pad_token_id=tokenizer.eos_token_id
    )[0]["generated_text"]

    # Extract the generated part only
    generated_response = response[len(prompt):]
    yield generated_response


# Gradio app definition
demo = gr.ChatInterface(
    respond,
    additional_inputs=[
        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
        gr.Slider(
            minimum=0.1,
            maximum=1.0,
            value=0.95,
            step=0.05,
            label="Top-p (nucleus sampling)",
        ),
    ],
)

if __name__ == "__main__":
    demo.launch()