from fastapi import FastAPI, Form from fastapi.responses import HTMLResponse from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline import torch app = FastAPI() MODEL_ID = "ibm-granite/granite-3.3-2b-instruct" # Load tokenzier and model tokenizer = AutoTokenizer.from_pretrained(MODEL_ID) model = AutoModelForCausalLM.from_pretrained( MODEL_ID, torch_dtype=torch.float16 if torch.cuda.is_available() else "auto", device_map="auto" ) # Use pipeline for easier text generation pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0 if torch.cuda.is_available() else -1) @app.get("/", response_class=HTMLResponse) def index(): return """ Granite 2B Summarizer

Granite 2B Summarization Demo

""" @app.post("/summarize", response_class=HTMLResponse) def summarize(text: str = Form(...)): prompt = ( "Below is a passage of text. Please provide a concise summary in 2-4 sentences.\n\n" f"Text:\n{text.strip()}\n\nSummary:" ) # Generate output using the pipeline outputs = pipe( prompt, max_new_tokens=150, do_sample=True, temperature=0.7, top_p=0.95, eos_token_id=tokenizer.eos_token_id, pad_token_id=tokenizer.eos_token_id ) output_text = outputs[0]['generated_text'] # Extract only the summary after 'Summary:' summary = output_text.split("Summary:")[-1].strip() return f"

Summary

{summary}

Back"