koaning · FBruzzesi · Apr 10, 2024 · Mar 24, 2024 · Mar 24, 2024 · Mar 25, 2024
diff --git a/sklego/meta/outlier_classifier.py b/sklego/meta/outlier_classifier.py
@@ -23,6 +23,30 @@ class OutlierClassifier(BaseEstimator, ClassifierMixin):
         The fitted underlying outlier detection model.
     classes_ : array-like of shape (2,)
         Classes used for prediction (0 or 1)
+
+    Example
+    -------
+    ```py
+    from sklearn.ensemble import IsolationForest
+    from sklego.meta.outlier_classifier import OutlierClassifier
+
+    X = [[0], [0.5], [-1], [99]]
+    y = [0, 0, 0, 1]
+
+    isolation_forest = IsolationForest()
+
+    outlier_clf = OutlierClassifier(isolation_forest)
+    _ = outlier_clf.fit(X, y)
+
+    preds = outlier_clf.predict([[100], [-0.5], [0.5], [1]])
+    # array[1. 0. 0. 0.]
+
+    proba_preds = outlier_clf.predict_proba([[100], [-0.5], [0.5], [1]])
+    # [[0.34946567 0.65053433]
+    #  [0.79707913 0.20292087]
+    #  [0.80275406 0.19724594]
+    #  [0.80275406 0.19724594]]
+    ```
     """
 
     def __init__(self, model):

diff --git a/sklego/model_selection.py b/sklego/model_selection.py
@@ -260,7 +260,7 @@ def KlusterFoldValidation(**kwargs):
 class ClusterFoldValidation:
     """Cross validator that creates folds based on provided cluster method.
     This ensures that data points in the same cluster are not split across different folds.
-    
+
     !!! info "New in version 0.9.0"
 
     Parameters

diff --git a/sklego/preprocessing/dictmapper.py b/sklego/preprocessing/dictmapper.py
@@ -23,6 +23,34 @@ class DictMapper(TransformerMixin, BaseEstimator):
         Number of features seen during `fit`.
     dim_ : int
         Deprecated, please use `n_features_in_` instead.
+
+    Example
+    -------
+    ```py
+    import pandas as pd
+    from sklego.preprocessing.dictmapper import DictMapper
+    from sklearn.compose import ColumnTransformer
+
+    X = pd.DataFrame({
+        "city_pop": ["Amsterdam", "Leiden", "Utrecht", "None", "Haarlem"]
+    })
+
+    mapper = {
+        "Amsterdam": 1_181_817,
+        "Leiden": 130_181,
+        "Utrecht": 367_984,
+        "Haarlem": 165_396,
+    }
+
+    ct = ColumnTransformer([("dictmapper", DictMapper(mapper, 0), ["city_pop"])])
+    X_trans = ct.fit_transform(X)
+    X_trans
+    # array([[1181817],
+    #        [ 130181],
+    #        [ 367984],
+    #        [      0],
+    #        [ 165396]])
+    ```
     """
 
     def __init__(self, mapper, default):

diff --git a/sklego/preprocessing/outlier_remover.py b/sklego/preprocessing/outlier_remover.py
@@ -34,7 +34,7 @@ class OutlierRemover(TrainOnlyTransformerMixin, BaseEstimator):
 
     isolation_forest = IsolationForest()
     isolation_forest.fit(X)
-    detector_preds = isolator_forest.predict(X)
+    detector_preds = isolation_forest.predict(X)
 
     outlier_remover = OutlierRemover(isolation_forest, refit=True)
     outlier_remover.fit(X)

diff --git a/sklego/preprocessing/pandastransformers.py b/sklego/preprocessing/pandastransformers.py
@@ -19,8 +19,8 @@ class ColumnDropper(BaseEstimator, TransformerMixin):
     feature_names_ : list[str]
         The names of the features to keep during transform.
 
-    Examples
-    --------
+    Example
+    -------
     ```py
     # Selecting a single column from a pandas DataFrame
     import pandas as pd
@@ -183,6 +183,33 @@ class PandasTypeSelector(BaseEstimator, TransformerMixin):
     !!! warning
 
         Raises a `TypeError` if input provided is not a DataFrame.
+
+    Example
+    -------
+    ```py
+    import pandas as pd
+    from sklego.preprocessing import PandasTypeSelector
+
+    df = pd.DataFrame({
+        "name": ["Swen", "Victor", "Alex"],
+        "length": [1.82, 1.85, 1.80],
+        "shoesize": [42, 44, 45]
+    })
+
+    #Excluding single column
+    PandasTypeSelector(exclude="int64").fit_transform(df)
+    #	name	length
+    #0	Swen	1.82
+    #1	Victor	1.85
+    #2	Alex	1.80
+
+    #Including multiple columns
+    PandasTypeSelector(include=["int64", "object"]).fit_transform(df)
+    #	name	shoesize
+    #0	Swen	42
+    #1	Victor	44
+    #2	Alex	45
+    ```
     """
 
     def __init__(self, include=None, exclude=None):

diff --git a/sklego/preprocessing/projections.py b/sklego/preprocessing/projections.py
@@ -155,6 +155,24 @@ class InformationFilter(BaseEstimator, TransformerMixin):
         The projection matrix that can be used to filter information out of a dataset.
     col_ids_ : List[int] of length `len(columns)`
         The list of column ids of the sensitive columns.
+
+    Example
+    -------
+    ```py
+    import pandas as pd
+    from sklego.preprocessing import InformationFilter
+
+    df = pd.DataFrame({
+        "user_id": [101, 102, 103],
+        "length": [1.82, 1.85, 1.80],
+        "age": [21, 37, 45]
+    })
+
+    InformationFilter(columns=["length", "age"], alpha=0.5).fit_transform(df)
+    # array([[50.10152483,  3.87905643],
+    #        [50.26253897, 19.59684308],
+    #        [52.66084873, 28.06719867]])
+    ```
     """
 
     def __init__(self, columns, alpha=1):

diff --git a/sklego/preprocessing/repeatingbasis.py b/sklego/preprocessing/repeatingbasis.py
@@ -41,6 +41,22 @@ class RepeatingBasisFunction(TransformerMixin, BaseEstimator):
     ----------
     pipeline_ : ColumnTransformer
         Fitted `ColumnTransformer` object used to transform data with repeating basis functions.
+
+    Example
+    -------
+    ```py
+    import pandas as pd
+    from sklego.preprocessing import RepeatingBasisFunction
+
+    df = pd.DataFrame({
+        "user_id": [101, 102, 103],
+        "created_day": [5, 1, 7]
+    })
+    RepeatingBasisFunction(column="created_day", input_range=(1,7)).fit_transform(df)
+    # array([[0.06217652, 0.00432024, 0.16901332, 0.89483932, 0.64118039],
+    #        [1.        , 0.36787944, 0.01831564, 0.01831564, 0.36787944],
+    #        [1.        , 0.36787944, 0.01831564, 0.01831564, 0.36787944]])
+    ```
     """
 
     def __init__(self, column=0, remainder="drop", n_periods=12, input_range=None, width=1.0):