Spaces:

2ba
/

babyLLM

Sleeping

App Files Files Community

babyLLM / app.py

2ba

Update app.py

14e2188 verified 19 days ago

raw

history blame

2.3 kB

	import os
	from functools import lru_cache
	import gradio as gr
	from huggingface_hub import hf_hub_download
	from llama_cpp import Llama

	REPO_ID = os.getenv("GGUF_REPO_ID", "bartowski/SmolLM2-135M-Instruct-GGUF")
	FILENAME = os.getenv("GGUF_FILENAME", "SmolLM2-135M-Instruct-Q4_K_M.gguf")

	@lru_cache()
	def load_llm():
	model_path = hf_hub_download(
	repo_id=REPO_ID,
	filename=FILENAME,
	local_dir=".",
	local_dir_use_symlinks=False,
	)
	llm = Llama(
	model_path=model_path,
	n_ctx=512,
	n_threads=max(2, os.cpu_count() or 2),
	n_gpu_layers=0,
	n_batch=32,
	verbose=False,
	)
	return llm

	SYSTEM_PROMPT = "به فارسی، روشن و کوتاه پاسخ بده (حداکثر ۲ جمله)."

	def respond(message, history):
	# پیام فعلی را به متن ساده تبدیل کن (messages یا string)
	user_text = message.get("content", "") if isinstance(message, dict) else str(message or "")

	# تاریخچه را فعلاً نادیده می‌گیریم تا پرامپت خیلی کوتاه بماند
	msgs = [
	{"role": "system", "content": SYSTEM_PROMPT},
	{"role": "user", "content": user_text},
	]

	llm = load_llm()
	print(">> gen start (stream minimal)")
	partial = ""
	try:
	for chunk in llm.create_chat_completion(
	messages=msgs,
	max_tokens=48, # کوتاه برای سرعت
	temperature=0.3,
	top_p=0.95,
	stop=["<\|im_end\|>", "</s>"], # مطابق تمپلیت مدل
	stream=True,
	):
	delta = chunk["choices"][0]["delta"].get("content", "")
	if delta:
	partial += delta
	yield partial
	print(">> gen done (stream minimal)")
	except Exception as e:
	print(">> exception:", repr(e))
	yield "یه خطای داخلی رخ داد؛ لطفاً دوباره تلاش کن."



	demo = gr.ChatInterface(
	fn=respond,
	type="messages", # تاریخچه را با role/content می‌فرستد
	title="چت‌بات خیلی ساده (CPU رایگان)",
	description="SmolLM2-135M (GGUF) با llama.cpp روی CPU.",
	)

	if __name__ == "__main__":
	demo.launch(ssr_mode=False)