python-mastery

# theory

custom funcs in agg()

You can use custom functions with groupby().agg():

def range_func(x):
    return x.max() - x.min()

df.groupby("category")["value"].agg(range_func)

multiple custom aggregations

df.groupby("category")["value"].agg([
    "sum",
    "mean",
    ("range", lambda x: x.max() - x.min()),
    ("cv", lambda x: x.std() / x.mean())  # coefficient of variation
])

named aggregations w/ custom funcs

df.groupby("category").agg(
    total=("value", "sum"),
    average=("value", "mean"),
    spread=("value", lambda x: x.max() - x.min())
)

transform() vs agg()

agg(): Returns one row per group
transform(): Returns same shape as input

# agg - one value per group
df.groupby("category")["value"].agg("mean")

# transform - value for each row (group's mean)
df["group_mean"] = df.groupby("category")["value"].transform("mean")

import pandas as pd
import io

sales_csv = """SaleID,SalesRep,Region,Product,Category,Quantity,UnitPrice,SaleDate,CustomerSegment
S001,Alice Chen,North,Widget Pro,Electronics,15,49.99,2023-01-05,Enterprise
S002,Bob Martinez,South,Gadget Plus,Tools,8,29.99,2023-01-08,SMB
S003,Carol Davis,East,Widget Pro,Electronics,22,49.99,2023-01-10,Enterprise
S004,Dan Wilson,West,Super Tool,Tools,45,19.99,2023-01-12,Consumer
S005,Eva Brown,North,Power Unit,Electronics,10,89.99,2023-01-15,Enterprise
S006,Alice Chen,North,Gadget Plus,Tools,30,29.99,2023-01-18,SMB
S007,Bob Martinez,South,Widget Pro,Electronics,18,49.99,2023-01-20,Consumer
S008,Carol Davis,East,Super Tool,Tools,55,19.99,2023-02-01,SMB
S009,Dan Wilson,West,Power Unit,Electronics,8,89.99,2023-02-05,Enterprise
S010,Eva Brown,North,Widget Basic,Electronics,65,24.99,2023-02-10,Consumer
S011,Alice Chen,North,Super Tool,Tools,40,19.99,2023-02-15,Consumer
S012,Bob Martinez,South,Power Unit,Electronics,12,89.99,2023-02-20,Enterprise
S013,Carol Davis,East,Gadget Plus,Tools,25,29.99,2023-03-01,SMB
S014,Dan Wilson,West,Widget Pro,Electronics,20,49.99,2023-03-05,Enterprise
S015,Eva Brown,North,Widget Basic,Electronics,80,24.99,2023-03-10,Consumer"""

sales = pd.read_csv(io.StringIO(sales_csv))
sales["Revenue"] = sales["Quantity"] * sales["UnitPrice"]

# Task:
# 1. Define a coefficient_of_variation function: (std / mean) * 100
# 2. Group by Category and calculate: sum, mean, std, and CV
# 3. Print the results showing revenue variability by category

import pandas as pd
import io

sales_csv = """SaleID,SalesRep,Region,Product,Category,Quantity,UnitPrice,SaleDate,CustomerSegment
S001,Alice Chen,North,Widget Pro,Electronics,15,49.99,2023-01-05,Enterprise
S002,Bob Martinez,South,Gadget Plus,Tools,8,29.99,2023-01-08,SMB
S003,Carol Davis,East,Widget Pro,Electronics,22,49.99,2023-01-10,Enterprise
S004,Dan Wilson,West,Super Tool,Tools,45,19.99,2023-01-12,Consumer
S005,Eva Brown,North,Power Unit,Electronics,10,89.99,2023-01-15,Enterprise
S006,Alice Chen,North,Gadget Plus,Tools,30,29.99,2023-01-18,SMB
S007,Bob Martinez,South,Widget Pro,Electronics,18,49.99,2023-01-20,Consumer
S008,Carol Davis,East,Super Tool,Tools,55,19.99,2023-02-01,SMB
S009,Dan Wilson,West,Power Unit,Electronics,8,89.99,2023-02-05,Enterprise
S010,Eva Brown,North,Widget Basic,Electronics,65,24.99,2023-02-10,Consumer
S011,Alice Chen,North,Super Tool,Tools,40,19.99,2023-02-15,Consumer
S012,Bob Martinez,South,Power Unit,Electronics,12,89.99,2023-02-20,Enterprise
S013,Carol Davis,East,Gadget Plus,Tools,25,29.99,2023-03-01,SMB
S014,Dan Wilson,West,Widget Pro,Electronics,20,49.99,2023-03-05,Enterprise
S015,Eva Brown,North,Widget Basic,Electronics,80,24.99,2023-03-10,Consumer"""

sales = pd.read_csv(io.StringIO(sales_csv))
sales["Revenue"] = sales["Quantity"] * sales["UnitPrice"]

# Task:
# 1. Define a coefficient_of_variation function: (std / mean) * 100
# 2. Group by Category and calculate: sum, mean, std, and CV
# 3. Print the results showing revenue variability by category

🐍

Loading PythonSetting up pandas & numpy...

Custom Aggregations

custom funcs in agg()

multiple custom aggregations

named aggregations w/ custom funcs

transform() vs agg()

See also

Calculate Sales Variance