scikitelearn-collections

Elegant, production-ready extensions for Scikit-learn pipelines
Save time, build faster, scale better

Overview

scikitelearn-collections is a curated collection of robust utilities, transformers, wrappers, and experiment tools built on top of the Scikit-learn ecosystem. It helps you streamline model development, experiment tracking, and pipeline customization — all with full Scikit-learn compatibility.

Features

Plug-and-play Pipeline and ColumnTransformer components
Drop-in feature generators (dates, text, outliers, etc.)
Advanced custom transformers and meta-estimators
Support for nested cross-validation and custom scorers
Compatible with GridSearchCV and RandomizedSearchCV
Simple model evaluation wrappers with logging
Utility functions for feature selection, data cleaning, and split strategies
Modular design for experimentation & reproducibility
Clean, tested, and production-grade Python code
100% compatible with Scikit-learn’s API & best practices

Installation

Requirements

Python 3.8+
scikit-learn >= 1.0
numpy, pandas, joblib

Install via pip (PyPI release coming soon)

pip install scikitelearn-collections

Until then, you can clone manually:

git clone https://github.com/your-username/scikitelearn-collections.git cd scikitelearn-collections pip install -e .

Quick Start

fromsklearn.pipelineimportPipelinefromscikitelearn_collections.transformersimportDateFeatureGenerator, OutlierRemoverfromsklearn.linear_modelimportLogisticRegressionpipeline=Pipeline([ ("date_features", DateFeatureGenerator(columns=["signup_date"])), ("remove_outliers", OutlierRemover(method="zscore", threshold=3.0)), ("classifier", LogisticRegression()) ]) pipeline.fit(X_train, y_train)

Modules & Components

Module	Description
`transformers/`	Custom transformers (dates, outliers, encodings, etc.)
`pipelines/`	Reusable ML pipelines with preprocessing and modeling
`wrappers/`	Model wrappers for enhanced evaluation, prediction, and logging
`validators/`	Custom cross-validation strategies and metric calculators
`utils/`	Helper utilities for splits, selection, diagnostics
`examples/`	Real-world usage examples in Jupyter notebooks

Project Structure

scikitelearn-collections/ │ ├── transformers/ # Custom transformers ├── pipelines/ # Ready-to-use ML pipelines ├── wrappers/ # Model and metric wrappers ├── utils/ # Helper functions and classes ├── validators/ # Scoring & validation strategies ├── examples/ # Example notebooks and scripts ├── tests/ # Unit tests └── README.md # You're here!

Examples

Explore the examples/ directory for practical Jupyter notebooks:

Binary classification with preprocessing
Regression with feature engineering
Outlier detection & removal
Cross-validation with custom scoring
Hyperparameter tuning with pipeline integration

Contributing

We contributions! To contribute:

Fork this repository
Create a new branch: git checkout -b feature/your-feature
Write clean, tested code
Ensure all tests pass with pytest
Submit a pull request

Testing

All modules include unit tests in the tests/ directory. Run:

pytest

We use Black for code formatting and expect all code to follow PEP8 guidelines.

License

This project is licensed under the MIT License.

Acknowledgements

Built with using Scikit-learn
Inspired by real-world ML use-cases in research & production
Thanks to open-source contributors and community ideas

Contact

Have questions or suggestions? Open an issue or start a discussion!

Let your pipelines be elegant, reusable, and powerful. — scikitelearn-collections

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

scikitelearn-collections

Overview

Features

Installation

Requirements

Install via pip (PyPI release coming soon)

Quick Start

Modules & Components

Project Structure

Examples

Contributing

Testing

License

Acknowledgements

Contact

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
A Comprehensive Comparative Study of Unsupervised Clustering Algorithms on Synthetic Multivariate Data.ipynb		A Comprehensive Comparative Study of Unsupervised Clustering Algorithms on Synthetic Multivariate Data.ipynb
Assessing_Statistical_Significance_of_Model_Performance_via_Permutation_Testing_An_End_to_End_Scikit_learn_Experiment.ipynb		Assessing_Statistical_Significance_of_Model_Performance_via_Permutation_Testing_An_End_to_End_Scikit_learn_Experiment.ipynb
AutoCLAIM_ An Automated Classification Learning Architecture for Imbalanced Modeling.ipynb		AutoCLAIM_ An Automated Classification Learning Architecture for Imbalanced Modeling.ipynb
AutoPrep_ An Automated Exploratory Data Analysis and Preprocessing Framework for Structured Machine Learning Pipelines.ipynb		AutoPrep_ An Automated Exploratory Data Analysis and Preprocessing Framework for Structured Machine Learning Pipelines.ipynb
Automated Feature Selection Pipeline.ipynb		Automated Feature Selection Pipeline.ipynb
Best_Practices_in_Hyperparameter_Optimization_An_End_to_End_Scikit_learn_Framework_with_Randomized_Search_and_Successive_Halving.ipynb		Best_Practices_in_Hyperparameter_Optimization_An_End_to_End_Scikit_learn_Framework_with_Randomized_Search_and_Successive_Halving.ipynb
Beyond_Exhaustive_Search_Comparative_Evaluation_of_Randomized,_Successive_Halving,_and_Bayesian_Strategies_for_Hyperparameter_Optimization_in_Scikit_learn.ipynb		Beyond_Exhaustive_Search_Comparative_Evaluation_of_Randomized,_Successive_Halving,_and_Bayesian_Strategies_for_Hyperparameter_Optimization_in_Scikit_learn.ipynb
ChronoLearn_ A Time-Aware Framework for Sequential Regression with Lag-Based Feature Engineering and Cross-Validated Estimation.ipynb		ChronoLearn_ A Time-Aware Framework for Sequential Regression with Lag-Based Feature Engineering and Cross-Validated Estimation.ipynb
Comparative Analysis of Dimensionality Reduction Techniques for Visualizing High-Dimensional Data.ipynb		Comparative Analysis of Dimensionality Reduction Techniques for Visualizing High-Dimensional Data.ipynb
Comparative_Evaluation_of_Cross_Validation_Iterators_in_Machine_Learning_An_End_to_End_Scikit_learn_Framework.ipynb		Comparative_Evaluation_of_Cross_Validation_Iterators_in_Machine_Learning_An_End_to_End_Scikit_learn_Framework.ipynb
Comprehensive Cluster Analysis and Visualization of High-Dimensional Data Using Unsupervised Learning Techniques.ipynb		Comprehensive Cluster Analysis and Visualization of High-Dimensional Data Using Unsupervised Learning Techniques.ipynb
CreditScore‑Pro_ A Transparent and Modular Machine Learning Framework for Credit Risk Assessment.ipynb		CreditScore‑Pro_ A Transparent and Modular Machine Learning Framework for Credit Risk Assessment.ipynb
Cross_Validation_as_a_Dual_Tool_for_Performance_Estimation_and_Model_Selection_An_End_to_End_Scikit_learn_Study.ipynb		Cross_Validation_as_a_Dual_Tool_for_Performance_Estimation_and_Model_Selection_An_End_to_End_Scikit_learn_Study.ipynb
CustomerCluster‑AI_ An Automated Framework for Unsupervised Segmentation via Dimensionality Reduction and Cluster Validation.ipynb		CustomerCluster‑AI_ An Automated Framework for Unsupervised Segmentation via Dimensionality Reduction and Cluster Validation.ipynb
Dimensionality_Reduction_with_PCA_From_High_D_to_Key_Structure.ipynb		Dimensionality_Reduction_with_PCA_From_High_D_to_Key_Structure.ipynb
End_to_End_ML_Project_(Scikit_learn_with_Cross_Validation).ipynb		End_to_End_ML_Project_(Scikit_learn_with_Cross_Validation).ipynb
Establishing_Baseline_Paradigms_A_Comparative_Empirical_Study_of_Dummy_Estimators_and_Learned_Models_in_Classification_and_Regression.ipynb		Establishing_Baseline_Paradigms_A_Comparative_Empirical_Study_of_Dummy_Estimators_and_Learned_Models_in_Classification_and_Regression.ipynb
Exhaustive_Grid_Search_for_Hyperparameter_Optimization_A_Rigorous_Cross_Validation_Framework_with_Scikit_learn.ipynb		Exhaustive_Grid_Search_for_Hyperparameter_Optimization_A_Rigorous_Cross_Validation_Framework_with_Scikit_learn.ipynb
Expanding_Sample_Complexity_Learning_Curves_as_an_Empirical_Framework_for_Assessing_Model_Generalization,_Data_Efficiency,_and_Bias–Variance_Trade_offs.ipynb		Expanding_Sample_Complexity_Learning_Curves_as_an_Empirical_Framework_for_Assessing_Model_Generalization,_Data_Efficiency,_and_Bias–Variance_Trade_offs.ipynb
Fairness-Aware Machine Learning_ Auditing and Mitigating Bias in Predictive Models Using AIF360 and scikit-learn Pipelines.ipynb		Fairness-Aware Machine Learning_ Auditing and Mitigating Bias in Predictive Models Using AIF360 and scikit-learn Pipelines.ipynb
Formalizing_Evaluation_Paradigms_A_Unified_Framework_of_Metric_Driven_Model_Assessment_via_Scikit_learn’s_Scoring_Parameter.ipynb		Formalizing_Evaluation_Paradigms_A_Unified_Framework_of_Metric_Driven_Model_Assessment_via_Scikit_learn’s_Scoring_Parameter.ipynb
Global_Vectors_for_Word_Representation_(GloVe)_in_ScikitLearn.ipynb		Global_Vectors_for_Word_Representation_(GloVe)_in_ScikitLearn.ipynb
Hierarchical_Evaluation_of_Multilabel_Learning_A_Metric_Driven_Empirical_Study_of_Ranking_Based_Performance_Paradigms.ipynb		Hierarchical_Evaluation_of_Multilabel_Learning_A_Metric_Driven_Empirical_Study_of_Ranking_Based_Performance_Paradigms.ipynb
Holistic_Paradigms_of_Classification_Model_Assessment_An_Integrative_Empirical_Framework_of_Metrics,_Visual_Analytics,_and_Cross_Validation_via_Scikit_Learn.ipynb		Holistic_Paradigms_of_Classification_Model_Assessment_An_Integrative_Empirical_Framework_of_Metrics,_Visual_Analytics,_and_Cross_Validation_via_Scikit_Learn.ipynb
MetaTransformer Zoo_ A Modular Framework for Feature Engineering with Custom Pipeline Components in Structured Data Modeling.ipynb		MetaTransformer Zoo_ A Modular Framework for Feature Engineering with Custom Pipeline Components in Structured Data Modeling.ipynb
Multifaceted Dimensionality Reduction and Visualization of High-Dimensional Data_ A Comparative Study Using PCA, ICA, SVD, t-SNE, and Random Projections.ipynb		Multifaceted Dimensionality Reduction and Visualization of High-Dimensional Data_ A Comparative Study Using PCA, ICA, SVD, t-SNE, and Random Projections.ipynb
Multiview Exploratory Analysis and Visualization of High-Dimensional Data via Linear and Nonlinear Projection Techniques.ipynb		Multiview Exploratory Analysis and Visualization of High-Dimensional Data via Linear and Nonlinear Projection Techniques.ipynb
On_the_Role_of_Data_Shuffling_in_Cross_Validation_An_Empirical_Study_with_Scikit_learn.ipynb		On_the_Role_of_Data_Shuffling_in_Cross_Validation_An_Empirical_Study_with_Scikit_learn.ipynb
Optimizing_Decision_Boundaries_Post_Tuning_Classification_Thresholds_for_Cost_Sensitive_and_Imbalanced_Learning.ipynb		Optimizing_Decision_Boundaries_Post_Tuning_Classification_Thresholds_for_Cost_Sensitive_and_Imbalanced_Learning.ipynb
Predictive Modeling of Customer Churn Using Balanced Binary Classification and Ensemble Learning Techniques.ipynb		Predictive Modeling of Customer Churn Using Balanced Binary Classification and Ensemble Learning Techniques.ipynb
Quantifying_Hyperparameter_Dynamics_Validation_Curves_as_a_Diagnostic_Framework_for_Model_Bias–Variance_Trade_offs.ipynb		Quantifying_Hyperparameter_Dynamics_Validation_Curves_as_a_Diagnostic_Framework_for_Model_Bias–Variance_Trade_offs.ipynb
Quantifying_Predictive_Fidelity_An_Empirical_Framework_for_Regression_Metrics_and_Model_Evaluation.ipynb		Quantifying_Predictive_Fidelity_An_Empirical_Framework_for_Regression_Metrics_and_Model_Evaluation.ipynb
Quantitative_Indices_of_Representational_Fidelity_A_Metric_Based_Framework_for_Evaluating_Dimensionality_Reduction_Techniques.ipynb		Quantitative_Indices_of_Representational_Fidelity_A_Metric_Based_Framework_for_Evaluating_Dimensionality_Reduction_Techniques.ipynb
Quantitative_Paradigms_of_Model_Evaluation_A_Comprehensive_Empirical_Study_of_Classification_and_Regression_Metrics_in_Scikit_learn.ipynb		Quantitative_Paradigms_of_Model_Evaluation_A_Comprehensive_Empirical_Study_of_Classification_and_Regression_Metrics_in_Scikit_learn.ipynb
Quantitative_Paradigms_of_Unsupervised_Learning_An_Empirical_Framework_for_Clustering_Metrics_and_Algorithmic_Fidelity_Assessment.ipynb		Quantitative_Paradigms_of_Unsupervised_Learning_An_Empirical_Framework_for_Clustering_Metrics_and_Algorithmic_Fidelity_Assessment.ipynb
README.md		README.md
Randomized_Search_for_Efficient_Hyperparameter_Optimization_in_High_Dimensional_Spaces.ipynb		Randomized_Search_for_Efficient_Hyperparameter_Optimization_in_High_Dimensional_Spaces.ipynb
RetailCast_ A Temporal Learning Framework for Sales Forecasting Using Lag-Based Feature Engineering and Tree-Based Regression.ipynb		RetailCast_ A Temporal Learning Framework for Sales Forecasting Using Lag-Based Feature Engineering and Tree-Based Regression.ipynb
Sentiment_Analysis_for_Movie_Reviews_in_Scikitlearn.ipynb		Sentiment_Analysis_for_Movie_Reviews_in_Scikitlearn.ipynb
StackNet_ A Modular Ensemble Learning Architecture via Layered Meta-Classification.ipynb		StackNet_ A Modular Ensemble Learning Architecture via Layered Meta-Classification.ipynb
Successive_Halving_Strategies_for_Efficient_Hyperparameter_Optimization_An_End_to_End_Scikit_learn_Framework.ipynb		Successive_Halving_Strategies_for_Efficient_Hyperparameter_Optimization_An_End_to_End_Scikit_learn_Framework.ipynb
Uncertainty-Aware Regression_ Quantifying Predictive Confidence via Bootstrap Ensembles and Quantile-Aware Learning.ipynb		Uncertainty-Aware Regression_ Quantifying Predictive Confidence via Bootstrap Ensembles and Quantile-Aware Learning.ipynb
Unified Multi-Modal Learning Pipeline_ Integrating Tabular, Textual, and Visual Representations for Predictive Modeling.ipynb		Unified Multi-Modal Learning Pipeline_ Integrating Tabular, Textual, and Visual Representations for Predictive Modeling.ipynb
Unified_Paradigms_of_Model_Evaluation_An_Empirical_Exploration_of_Scikit_learn’s_Scoring_API_Across_Classification_and_Regression_Frameworks.ipynb		Unified_Paradigms_of_Model_Evaluation_An_Empirical_Exploration_of_Scikit_learn’s_Scoring_API_Across_Classification_and_Regression_Frameworks.ipynb
Unsupervised Learning for Customer Archetype Discovery_ A Comparative Clustering Analysis using K-Means and DBSCAN.ipynb		Unsupervised Learning for Customer Archetype Discovery_ A Comparative Clustering Analysis using K-Means and DBSCAN.ipynb

Programming-Ocean-Academy/machine-learning

Folders and files

Latest commit

History

Repository files navigation

scikitelearn-collections

Overview

Features

Installation

Requirements

Install via pip (PyPI release coming soon)

Quick Start

Modules & Components

Project Structure

Examples

Contributing

Testing

License

Acknowledgements

Contact

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages