Spaces:

svsaurav95
/

Financial_chat_bot

Running

App Files Files Community

Financial_chat_bot / app.py

svsaurav95

Update app.py

c66a153 verified 21 days ago

raw

history blame contribute delete

6.68 kB

	import streamlit as st
	import pymupdf
	import re
	import traceback
	import faiss
	import numpy as np
	import requests
	from rank_bm25 import BM25Okapi
	from sentence_transformers import SentenceTransformer
	from langchain.text_splitter import RecursiveCharacterTextSplitter
	from langchain_groq import ChatGroq
	import torch
	import os

	st.set_page_config(page_title="Financial Insights Chatbot", page_icon="📊", layout="wide")

	device = "cuda" if torch.cuda.is_available() else "cpu"

	GROQ_API_KEY = os.getenv("GROQ_API_KEY")
	ALPHA_VANTAGE_API_KEY = os.getenv("ALPHA_VANTAGE_API_KEY")

	try:
	llm = ChatGroq(temperature=0, model="llama3-70b-8192", api_key=GROQ_API_KEY)
	st.success("✅ LLM initialized successfully. Using llama3-70b-8192")
	except Exception as e:
	st.error("❌ Failed to initialize Groq LLM.")
	traceback.print_exc()

	embedding_model = SentenceTransformer("baconnier/Finance2_embedding_small_en-V1.5", device=device)

	text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)

	def fetch_financial_data(company_ticker):
	if not company_ticker:
	return "No ticker symbol provided. Please enter a valid company ticker."

	try:
	overview_url = f"https://www.alphavantage.co/query?function=OVERVIEW&symbol={company_ticker}&apikey={ALPHA_VANTAGE_API_KEY}"
	overview_response = requests.get(overview_url)

	if overview_response.status_code == 200:
	overview_data = overview_response.json()
	market_cap = overview_data.get("MarketCapitalization", "N/A")
	else:
	return "Error fetching company overview."

	income_url = f"https://www.alphavantage.co/query?function=INCOME_STATEMENT&symbol={company_ticker}&apikey={ALPHA_VANTAGE_API_KEY}"
	income_response = requests.get(income_url)

	if income_response.status_code == 200:
	income_data = income_response.json()
	annual_reports = income_data.get("annualReports", [])
	revenue = annual_reports[0].get("totalRevenue", "N/A") if annual_reports else "N/A"
	else:
	return "Error fetching income statement."

	return f"Market Cap: ${market_cap}\nTotal Revenue: ${revenue}"

	except Exception as e:
	traceback.print_exc()
	return "Error fetching financial data."

	def extract_and_embed_text(pdf_file):
	"""Processes PDFs and generates embeddings with GPU acceleration using pymupdf."""
	try:
	docs, tokenized_texts = [], []

	with pymupdf.open(stream=pdf_file.read(), filetype="pdf") as doc:
	full_text = "\n".join(page.get_text("text") for page in doc)
	chunks = text_splitter.split_text(full_text)
	for chunk in chunks:
	docs.append(chunk)
	tokenized_texts.append(chunk.split())

	embeddings = embedding_model.encode(docs, batch_size=64, convert_to_numpy=True, normalize_embeddings=True)

	embedding_dim = embeddings.shape[1]
	index = faiss.IndexHNSWFlat(embedding_dim, 32)
	index.add(embeddings)

	bm25 = BM25Okapi(tokenized_texts)

	return docs, embeddings, index, bm25
	except Exception as e:
	traceback.print_exc()
	return [], [], None, None

	def retrieve_relevant_docs(user_query, docs, index, bm25):
	"""Hybrid search using FAISS cosine similarity & BM25 keyword retrieval."""
	query_embedding = embedding_model.encode(user_query, convert_to_numpy=True, normalize_embeddings=True)
	_, faiss_indices = index.search(np.array([query_embedding]), 8)
	bm25_scores = bm25.get_scores(user_query.split())
	bm25_indices = np.argsort(bm25_scores)[::-1][:8]
	combined_indices = list(set(faiss_indices[0]) \| set(bm25_indices))

	return [docs[i] for i in combined_indices[:3]]

	def generate_response(user_query, pdf_ticker, ai_ticker, mode, uploaded_file):
	try:
	if mode == "📄 PDF Upload Mode":
	docs, embeddings, index, bm25 = extract_and_embed_text(uploaded_file)
	if not docs:
	return "❌ Error extracting text from PDF."

	retrieved_docs = retrieve_relevant_docs(user_query, docs, index, bm25)
	context = "\n\n".join(retrieved_docs)
	prompt = f"Summarize the key financial insights for {pdf_ticker} from this document:\n\n{context}"

	elif mode == "🌍 Live Data Mode":
	financial_info = fetch_financial_data(ai_ticker)
	prompt = f"Analyze the financial status of {ai_ticker} based on:\n{financial_info}\n\nUser Query: {user_query}"
	else:
	return "Invalid mode selected."

	response = llm.invoke(prompt)
	return response.content
	except Exception as e:
	traceback.print_exc()
	return "Error generating response."

	st.markdown(
	"<h1 style='text-align: center; color: #4CAF50;'>📄 FinQuery RAG Chatbot</h1>",
	unsafe_allow_html=True
	)
	st.markdown(
	"<h5 style='text-align: center; color: #666;'>Analyze financial reports or fetch live financial data effortlessly!</h5>",
	unsafe_allow_html=True
	)

	col1, col2 = st.columns(2)

	with col1:
	st.markdown("### 🏢 Choose Your Analysis Mode")
	mode = st.radio("", ["📄 PDF Upload Mode", "🌍 Live Data Mode"], horizontal=True)

	with col2:
	st.markdown("### 🔎 Enter Your Query")
	user_query = st.text_input("💬 What financial insights are you looking for?")

	st.markdown("---")
	if mode == "📄 PDF Upload Mode":
	st.markdown("### 📂 Upload Your Financial Report")
	uploaded_file = st.file_uploader("🔼 Upload PDF (Only for PDF Mode)", type=["pdf"])
	pdf_ticker = st.text_input("🏢 Enter Company Ticker for PDF Insights", placeholder="e.g., INFY, TCS")
	ai_ticker = None
	else:
	st.markdown("### 🌍 Live Market Data")
	ai_ticker = st.text_input("🏢 Enter Company Ticker for AI Insights", placeholder="e.g., AAPL, MSFT")
	uploaded_file = None
	pdf_ticker = None

	if st.button("Analyze Now"):
	if mode == "📄 PDF Upload Mode" and (not uploaded_file or not pdf_ticker):
	st.error("❌ Please upload a PDF and enter a company ticker for insights.")
	elif mode == "🌍 Live Data Mode" and not ai_ticker:
	st.error("❌ Please enter a valid company ticker for AI insights.")
	else:
	with st.spinner("🔍 Your Query is Processing, this can take up to 5 - 7 minutes ⏳"):
	response = generate_response(user_query, pdf_ticker, ai_ticker, mode, uploaded_file)
	st.markdown("---")
	st.markdown("<h3 style='color: #4CAF50;'>💡 AI Response</h3>", unsafe_allow_html=True)
	st.write(response)

	st.markdown("---")