import plotly.io as pio

pio.renderers.default = "notebook"

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import plotly.express as px
import plotly.graph_objects as go
import seaborn as sns
from scipy.cluster.hierarchy import linkage, dendrogram
import scipy.cluster.hierarchy as sch
from sklearn.metrics import silhouette_score

customers_df = pd.read_csv("customers.csv")

numerical_features = ["Age", "Income", "Score"]

scaler = StandardScaler()
customers_df[numerical_features] = scaler.fit_transform(customers_df[numerical_features])

customers_df.head()

X = customers_df[numerical_features]

wcss = []
silhouette_scores = []

for k in range(2, 11):
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans.fit(X)

    wcss.append(kmeans.inertia_)

    if k < len(X):
        silhouette_scores.append(silhouette_score(X, kmeans.labels_))
    else:
        silhouette_scores.append(float("-inf"))

# Elbow Method
plt.figure(figsize=(8, 5))
plt.plot(range(2, 11), wcss, marker="o", linestyle="--", label="WCSS")
plt.xlabel("Number of Clusters (k)")
plt.ylabel("Within-Cluster Sum of Squares (WCSS)")
plt.title("Elbow Method for Optimal k")
plt.legend()
plt.grid(True)
plt.show()

# Silhouette Scores
plt.figure(figsize=(8, 5))
plt.plot(range(2, 11), silhouette_scores, marker="o", linestyle="--", color="red", label="Silhouette Score")
plt.xlabel("Number of Clusters (k)")
plt.ylabel("Silhouette Score")
plt.title("Silhouette Score for Different k")
plt.legend()
plt.grid(True)
plt.show()

best_k = range(2, 11)[np.argmax(silhouette_scores)]
print(f"The best value of k based on silhouette score is: {best_k}")

The best value of k based on silhouette score is: 6

kmeans = KMeans(n_clusters=best_k, random_state=42, n_init=10)
customers_df["Cluster"] = kmeans.fit_predict(customers_df[["Age", "Income", "Score"]])

centroids = kmeans.cluster_centers_

customers_denormalized = customers_df.copy()
customers_denormalized[["Age", "Income", "Score"]] = scaler.inverse_transform(customers_df[["Age", "Income", "Score"]])

centroids_denormalized = scaler.inverse_transform(centroids)
centroids_df = pd.DataFrame(centroids_denormalized, columns=["Age", "Income", "Score"])

fig = px.scatter_3d(customers_denormalized, x="Age", y="Income", z="Score",
                     color=customers_denormalized["Cluster"].astype(str),
                     opacity=0.7, title=f"Customer Clusters with k={best_k}",
                     labels={"Cluster": "Cluster Group"})

fig.add_trace(go.Scatter3d(
    x=centroids_df["Age"],
    y=centroids_df["Income"],
    z=centroids_df["Score"],
    mode="markers",
    marker=dict(size=10, color="black", symbol="x"),
    name="Centroids"
))

fig.update_layout(
    scene=dict(
        xaxis_title="Age",
        yaxis_title="Income",
        zaxis_title="Score"
    ),
    legend_title="Cluster",
    width=1000,
    height=800
)

fig.show(config={"displayModeBar": True, "responsive": True})

feature_pairs = [("Age", "Income"), ("Age", "Score"), ("Income", "Score")]

best_k_values = {}

for features in feature_pairs:
    X_subset = customers_df[list(features)]
    wcss = []
    silhouette_scores = []

    for k in range(2, 11):
        kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
        kmeans.fit(X_subset)

        wcss.append(kmeans.inertia_)

        if k < len(X_subset):
            silhouette_scores.append(silhouette_score(X_subset, kmeans.labels_))
        else:
            silhouette_scores.append(float("-inf"))

    best_k = range(2, 11)[np.argmax(silhouette_scores)]
    best_k_values[features] = best_k

    # Elbow Method (WCSS)
    plt.figure(figsize=(8, 4))
    plt.plot(range(2, 11), wcss, marker="o", linestyle="--", label="WCSS")
    plt.xlabel("Number of Clusters (k)")
    plt.ylabel("Within-Cluster Sum of Squares")
    plt.title(f"Elbow Method for {features}")
    plt.legend()
    plt.grid(True)
    plt.show()

    # Silhouette Scores
    plt.figure(figsize=(8, 4))
    plt.plot(range(2, 11), silhouette_scores, marker="o", linestyle="--", color="red", label="Silhouette Score")
    plt.xlabel("Number of Clusters (k)")
    plt.ylabel("Silhouette Score")
    plt.title(f"Silhouette Score for {features}")
    plt.legend()
    plt.grid(True)
    plt.show()

    print(f"Best k for {features}: {best_k}")

    kmeans = KMeans(n_clusters=best_k, random_state=42, n_init=10)
    customers_df[f'Cluster_{features}'] = kmeans.fit_predict(customers_df[list(features)])

    plt.figure(figsize=(8,6))
    sns.scatterplot(
        x=customers_df[features[0]], y=customers_df[features[1]],
        hue=customers_df[f'Cluster_{features}'], palette='viridis', edgecolor='k'
    )
    plt.xlabel(features[0])
    plt.ylabel(features[1])
    plt.title(f'Clustering for {features} with k={best_k}')
    plt.legend()
    plt.show()

best_k_df = pd.DataFrame(list(best_k_values.items()), columns=["Feature Pair", "Best k"])
best_k_df

Best k for ('Age', 'Income'): 3

Best k for ('Age', 'Score'): 2

Best k for ('Income', 'Score'): 5

for features in feature_pairs:
    X_subset = customers_df[list(features)]

    best_k = best_k_values[features]
    kmeans = KMeans(n_clusters=best_k, random_state=42, n_init=10)
    customers_df["Cluster"] = kmeans.fit_predict(X_subset)

    plt.figure(figsize=(8, 6))
    sns.scatterplot(x=customers_df[features[0]],
                    y=customers_df[features[1]],
                    hue=customers_df["Cluster"],
                    style=customers_df["Gender"],
                    palette="tab10",
                    markers={"Female": "o", "Male": "s"},  # More explicit marker mapping
                    s=150,  # Increase marker size for better visibility
                    alpha=0.8)

    plt.xlabel(features[0])
    plt.ylabel(features[1])
    plt.title(f"Clusters for {features} with Gender Distinction")
    plt.legend(title="Cluster & Gender")
    plt.grid(True)
    plt.show()

customers_noisy_df = pd.read_csv("customers_noisy.csv")

X_noisy = customers_noisy_df.iloc[:, :]

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_noisy)

linked = linkage(X_scaled, method="ward")

plt.figure(figsize=(12, 6))
dendrogram(linked, orientation="top", distance_sort="ascending", show_leaf_counts=True)
plt.title("Hierarchical Clustering Dendrogram (Noisy Dataset)")
plt.xlabel("Customer Index")
plt.ylabel("Euclidean Distance")
plt.grid(True)
plt.show()

customers_df = pd.read_csv("customers.csv")

df_for_clustering = customers_df.drop(columns=["ID"]).copy()
df_for_clustering["Gender"] = df_for_clustering["Gender"].map({"Male": 0, "Female": 1})

scaler = StandardScaler()
X_scaled = scaler.fit_transform(df_for_clustering)

linked = linkage(X_scaled, method="ward")

plt.figure(figsize=(12, 6))
dendrogram(linked, orientation="top", distance_sort="ascending", show_leaf_counts=True)
plt.title("Hierarchical Clustering Dendrogram (Clean Dataset)")
plt.xlabel("Customer Index")
plt.ylabel("Euclidean Distance")
plt.grid(True)
plt.show()

	ID	Gender	Age	Income	Score
0	1	Male	-1.424569	-1.738999	-0.434801
1	2	Male	-1.281035	-1.738999	1.195704
2	3	Female	-1.352802	-1.700830	-1.715913
3	4	Female	-1.137502	-1.700830	1.040418
4	5	Female	-0.563369	-1.662660	-0.395980

	Feature Pair	Best k
0	(Age, Income)	3
1	(Age, Score)	2
2	(Income, Score)	5

Data-Driven Customer Segmentation: A Clustering Approach¶

Introduction¶

Data Preprocessing¶

Clustering Analysis¶

Conclusion¶