Spaces:

VaultChem
/

molvault

Sleeping

App Files Files Community

molvault / regress_utils.py

VaultChem

initial commit

d831908 verified almost 2 years ago

raw

history blame

11 kB

	import sys
	import os

	import numpy as np
	import random
	import json
	import shutil
	import time
	from scipy.stats import pearsonr
	from sklearn.model_selection import GridSearchCV
	from sklearn.svm import LinearSVR as LinearSVR
	from sklearn.model_selection import KFold
	from chemdata import (
	convert_numpy,
	LinearSVRZAMA,
	XGBRegressorZAMA,
	OnDiskNetwork,
	FHEModelDev,
	FHEModelClient,
	get_ECFP_AND_FEATURES,
	)
	import matplotlib.pyplot as plt
	import xgboost as xgb

	random.seed(42)


	def hyper_opt(X_train, y_train, param_grid, regressor, verbose=10):
	if regressor == "SVR":
	if param_grid is None:
	param_grid = {
	"epsilon": [1e-2, 1e-1, 0.5],
	"C": [1e-4,1e-3, 1e-2, 1e-1],
	"loss": ["squared_epsilon_insensitive"],
	"tol": [0.0001],
	"max_iter": [50000],
	"dual": [True],
	}
	regressor_fct = LinearSVR()
	elif regressor == "XGB":
	if param_grid is None:
	param_grid = {
	"max_depth": [3, 6, 10],
	"learning_rate": [0.01, 0.1, 0.2],
	"n_estimators": [10, 20, 50, 100],
	"colsample_bytree": [0.3, 0.7],
	}
	regressor_fct = xgb.XGBRegressor(objective="reg:squarederror")
	else:
	raise ValueError("Unknown regressor type")

	kfold = KFold(n_splits=5, shuffle=True, random_state=42)
	grid_search = GridSearchCV(
	estimator=regressor_fct,
	param_grid=param_grid,
	cv=kfold,
	verbose=verbose,
	n_jobs=-1,
	)
	grid_search.fit(X_train, y_train)
	return (
	grid_search.best_params_,
	grid_search.best_score_,
	grid_search.best_estimator_,
	)


	def train_xgb_regressor(X_train, y_train, param_grid=None, verbose=10):
	if param_grid is None:
	param_grid = {
	"max_depth": [3, 6],
	"learning_rate": [0.01, 0.1, 0.2],
	"n_estimators": [20],
	"colsample_bytree": [0.3, 0.7],
	}

	xgb_regressor = xgb.XGBRegressor(objective="reg:squarederror")

	kfold = KFold(n_splits=5, shuffle=True, random_state=42)
	grid_search = GridSearchCV(
	estimator=xgb_regressor,
	param_grid=param_grid,
	cv=kfold,
	verbose=verbose,
	n_jobs=-1,
	)

	grid_search.fit(X_train, y_train)
	return (
	grid_search.best_params_,
	grid_search.best_score_,
	grid_search.best_estimator_,
	)


	def evaluate_model(model, X_test, y_test):
	y_pred = model.predict(X_test)
	pearsonr_score = pearsonr(y_test, y_pred).statistic
	return pearsonr_score


	def performance_bits():
	"""
	Test the model performance for different number of bits = feature vector length
	"""
	bits = np.array([2**i for i in range(4, 12)])
	plt.close("all")
	fig, ax = plt.subplots()

	for r in [2, 3, 4]:
	performance = []
	for bit in bits:
	X_train, X_test, y_train, y_test = load_data(
	"LOG HLM_CLint (mL/min/kg)", bits=bit, radius=r
	)
	param_grid = {
	"epsilon": [0.0, 0.1, 0.2, 0.5, 1.0],
	"C": [0.1, 1, 10, 100],
	"loss": ["epsilon_insensitive", "squared_epsilon_insensitive"],
	"tol": [1e-4, 1e-3, 1e-2],
	"max_iter": [1000, 5000, 10000],
	}
	best_params, best_score, best_model = hyper_opt(
	X_train, y_train, param_grid, regressor="SVR", verbose=10
	)
	if not os.path.exists("data"):
	os.makedirs("data")

	with open("data/best_params_{}.json".format(bit), "w") as fp:
	json.dump(best_params, fp, default=convert_numpy)

	pearsonr_score = evaluate_model(best_model, X_test, y_test)
	performance.append(pearsonr_score)

	performance = np.array(performance)
	ax.plot(bits, performance, marker="o", label=f"radius={r}")

	ax.set_xlabel("Number of Bits")
	ax.set_ylabel("Pearson's r Correlation Coefficient")
	ax.legend()
	plt.grid(True)
	if not os.path.exists("figures"):
	os.makedirs("figures")
	plt.savefig("figures/performance_bits.png")

	return bits, performance


	def predict_fhe(model, X_test):
	y_pred_fhe = model.predict(X_test, fhe="execute")
	return y_pred_fhe


	def setup_network(model_dev):
	network = OnDiskNetwork()
	fhemodel_dev = FHEModelDev(network.dev_dir.name, model_dev)
	fhemodel_dev.save()
	return network, fhemodel_dev


	def copy_directory(source, destination="deployment"):
	try:
	# Check if the source directory exists
	if not os.path.exists(source):
	return False, "Source directory does not exist."

	# Check if the destination directory exists
	if not os.path.exists(destination):
	os.makedirs(destination)

	# Copy each item in the source directory
	for item in os.listdir(source):
	s = os.path.join(source, item)
	d = os.path.join(destination, item)
	if os.path.isdir(s):
	shutil.copytree(
	s, d, dirs_exist_ok=True
	) # dirs_exist_ok is available from Python 3.8
	else:
	shutil.copy2(s, d)

	return True, None

	except Exception as e:
	return False, str(e)


	def client_server_interaction(network, fhemodel_client, X_client):
	decrypted_predictions = []
	execution_time = []
	for i in range(X_client.shape[0]):
	clear_input = X_client[[i], :]
	encrypted_input = fhemodel_client.quantize_encrypt_serialize(clear_input)
	execution_time.append(
	network.client_send_input_to_server_for_prediction(encrypted_input)
	)
	encrypted_prediction = network.server_send_encrypted_prediction_to_client()
	decrypted_prediction = fhemodel_client.deserialize_decrypt_dequantize(
	encrypted_prediction
	)[0]
	decrypted_predictions.append(decrypted_prediction)
	return decrypted_predictions, execution_time


	def train_zama(X_train, y_train, best_params, regressor="SVR"):
	if regressor == "SVR":
	best_params["n_bits"] = 12
	model_dev = LinearSVRZAMA(**best_params)
	elif regressor == "XGB":
	best_params["n_bits"] = 6
	model_dev = XGBRegressorZAMA(**best_params)

	print("Training Zama model...")
	model_dev.fit(X_train, y_train)
	print("compiling model...")
	model_dev.compile(X_train)
	print("done")

	return model_dev


	def time_prediction(model, X_sample):
	time_begin = time.time()
	y_pred_fhe = model.predict(X_sample, fhe="execute")
	time_end = time.time()
	return time_end - time_begin


	def setup_client(network, key_dir):
	fhemodel_client = FHEModelClient(network.client_dir.name, key_dir=key_dir)
	fhemodel_client.generate_private_and_evaluation_keys()
	serialized_evaluation_keys = fhemodel_client.get_serialized_evaluation_keys()
	return fhemodel_client, serialized_evaluation_keys


	def compare_predictions(network, fhemodel_client, sklearn_model, X_client):
	fhe_predictions_decrypted, _ = client_server_interaction(
	network, fhemodel_client, X_client
	)
	fhe_predictions_decrypted = [
	item for sublist in fhe_predictions_decrypted for item in sublist
	]
	fhe_predictions_decrypted = np.array(fhe_predictions_decrypted)

	sklearn_predictions = sklearn_model.predict(X_client)

	# try:
	mae = np.mean(
	np.abs(sklearn_predictions.flatten() - fhe_predictions_decrypted.flatten())
	)
	# and pearson correlation
	pearsonr_score = pearsonr(
	sklearn_predictions.flatten(), fhe_predictions_decrypted.flatten()
	).statistic
	# pearsons r
	print("sklearn_predictions")
	print(sklearn_predictions)
	print("fhe_predictions_decrypted:")
	print(fhe_predictions_decrypted)

	print("Pearson's r between sklearn and fhe predictions: " f"{pearsonr_score:.2f}")

	return mae, pearsonr_score


	def predict_ADME(network, fhemodel_client, molecule, bits=256, radius=2):
	encodings = get_ECFP_AND_FEATURES(molecule, bits=bits, radius=radius).reshape(1, -1)
	# generate_fingerprint(molecule, radius=radius, bits=bits).reshape(1, -1)
	enc_inp = fhemodel_client.quantize_encrypt_serialize(encodings)
	network.client_send_input_to_server_for_prediction(enc_inp)
	encrypted_prediction = network.server_send_encrypted_prediction_to_client()
	decrypted_prediction = fhemodel_client.deserialize_decrypt_dequantize(
	encrypted_prediction
	)
	return np.array([decrypted_prediction])


	def fit_final_model(HYPER=True):
	task = "LOG HLM_CLint (mL/min/kg)"
	bits, radius = 1024, 2
	X_train, X_test, y_train, y_test = load_data(task, bits=bits, radius=radius)

	if HYPER:
	param_grid = {
	"epsilon": [0.0, 0.05, 0.1, 0.15, 0.2, 0.25, 0.5, 0.75, 1.0],
	"C": [0.1, 0.5, 1, 5, 10, 50, 100],
	"loss": ["epsilon_insensitive", "squared_epsilon_insensitive"],
	"tol": [1e-5, 5e-5, 1e-4, 5e-4, 1e-3, 5e-3, 1e-2],
	"max_iter": [5000, 1e4, 2e4],
	}
	best_params, best_score, best_model = hyper_opt(
	X_train, y_train, param_grid, regressor="SVR", verbose=10
	)
	with open("best_params.json", "w") as fp:
	json.dump(best_params, fp, default=convert_numpy)
	print(best_params)
	pearsonr_score = evaluate_model(best_model, X_test, y_test)
	print(pearsonr_score)

	try:
	with open("best_params.json", "r") as fp:
	best_params = json.load(fp)
	print(best_params)
	except:
	print(
	"No hyperparameter file found. Please run function with HYPER=True first."
	)
	exit()

	model_dev = train_zama(X_train, y_train, best_params)

	prediction_time = time_prediction(model_dev, X_test[0])
	print(f"Time to predict one sample: {prediction_time:.2f} seconds")

	network, fhemodel_dev = setup_network(model_dev)
	copied, error_message = copy_directory(network.dev_dir.name)
	if not copied:
	print(f"Error copying directory: {error_message}")

	network.dev_send_model_to_server()
	network.dev_send_clientspecs_and_modelspecs_to_client()

	fhemodel_client, serialized_evaluation_keys = setup_client(
	network, network.client_dir.name
	)
	print(f"Evaluation keys size: {len(serialized_evaluation_keys) / (10**6):.2f} MB")

	network.client_send_evaluation_key_to_server(serialized_evaluation_keys)

	mae_fhe, pearsonr_score_fhe = compare_predictions(
	network, fhemodel_client, best_model, X_test[-10:]
	)

	pred = predict_with_fingerprint(
	network, fhemodel_client, "CC(=O)OC1=CC=CC=C1C(=O)O", bits=1024, radius=2
	)
	print(f"Prediction: {pred}")


	if __name__ == "__main__":
	fit_final_model(HYPER=True)
	bits, performance = performance_bits()