Spaces:

Ahmedik95316
/

Fake-News-Detection-with-MLOps

Running

App Files Files Community

Ahmedik95316 commited on Sep 3

Commit

075b701

verified ·

1 Parent(s): 8df371b

Update initialize_system.py

Browse files

Files changed (1) hide show

initialize_system.py +23 -5

initialize_system.py CHANGED Viewed

@@ -7,13 +7,16 @@ import pandas as pd
 from pathlib import Path
 from datetime import datetime
 from sklearn.pipeline import Pipeline
 from sklearn.model_selection import cross_validate
 from sklearn.linear_model import LogisticRegression
 from sklearn.model_selection import train_test_split
 from sklearn.metrics import accuracy_score, f1_score
 from sklearn.feature_extraction.text import TfidfVectorizer
 # Import the new path manager# Cal
 try:
     from path_config import path_manager
@@ -210,13 +213,28 @@ def run_initial_training():
                 log_step("Creating pipeline from existing components...")
                 try:
                     # Load existing components
-                    model = joblib.load(model_path)
                     vectorizer = joblib.load(vectorizer_path)
                     # Create pipeline
                     pipeline = Pipeline([
-                        ('vectorizer', vectorizer),
-                        ('model', model)
                     ])
                     # Save pipeline
@@ -370,7 +388,7 @@ def run_initial_training():
         # Save metadata
         metadata = {
             "model_version": "v1.0_init",
-            "model_type": "logistic_regression_pipeline",
             "test_accuracy": float(accuracy),
             "test_f1": float(f1),
             "train_size": len(X_train),

 from pathlib import Path
 from datetime import datetime
 from sklearn.pipeline import Pipeline
+from sklearn.ensemble import VotingClassifier
 from sklearn.model_selection import cross_validate
 from sklearn.linear_model import LogisticRegression
+from sklearn.ensemble import RandomForestClassifier
 from sklearn.model_selection import train_test_split
 from sklearn.metrics import accuracy_score, f1_score
 from sklearn.feature_extraction.text import TfidfVectorizer
 # Import the new path manager# Cal
 try:
     from path_config import path_manager
                 log_step("Creating pipeline from existing components...")
                 try:
                     # Load existing components
+                    # model = joblib.load(model_path)
                     vectorizer = joblib.load(vectorizer_path)
                     # Create pipeline
+                    # pipeline = Pipeline([
+                    #     ('vectorizer', vectorizer),
+                    #     ('model', model)
+                    # ])
+                    # Create ensemble method pipeline
+                    # Initialize ensemble model
+                    ensemble_model = VotingClassifier(
+                        estimators=[
+                            ('logistic', LogisticRegression(max_iter=1000, random_state=42, class_weight='balanced')),
+                            ('random_forest', RandomForestClassifier(n_estimators=50, random_state=42, class_weight='balanced'))
+                        ],
+                        voting='soft'
+                    )
                     pipeline = Pipeline([
+                        ('vectorizer', TfidfVectorizer(...)),
+                        ('model', ensemble_model)  # Use ensemble instead of single model
                     ])
                     # Save pipeline
         # Save metadata
         metadata = {
             "model_version": "v1.0_init",
+            "model_type": "ensemble_voting_pipeline", # "logistic_regression_pipeline",
             "test_accuracy": float(accuracy),
             "test_f1": float(f1),
             "train_size": len(X_train),