Phân nhóm hành vi khách hàng dựa trên hành vi mua sắm
📉

Phân nhóm hành vi khách hàng dựa trên hành vi mua sắm

Year
Project
Expertise
Machine Learning
Python Programming
Clustering
Date
Mar 12, 2026

Introduction

  • Objective: Đánh giá hành vi mua sắm của khách hàng thương mại điện tử nhằm tối ưu hóa Giá trị vòng đời khách hàng (CLV) và chuyển dịch chiến lược từ tiếp thị đại trà sang cá nhân hóa trải nghiệm.
  • Focus Areas:
    • Phân tích nhân khẩu học khách hàng, chi tiết giao dịch và các chỉ số hành vi tương tác.
    • Áp dụng và so sánh hai thuật toán phân cụm K-means và DBSCAN để nhận diện và phân khúc chân dung khách hàng.
  • Key Recommendations:
    • Cung cấp các đặc quyền và dịch vụ chăm sóc ưu tiên cho nhóm khách hàng nam VIP có mức chi tiêu cao.
    • Ra mắt các chương trình khuyến mãi combo gia đình và tối ưu hóa quy trình thanh toán cho nhóm khách hàng nữ mua sắm cho gia đình.
    • Triển khai chiến lược tiếp thị dựa trên xu hướng cho nhóm khách hàng nữ mua sắm theo cảm xúc và sở thích.
    • Sử dụng mã giảm giá và chương trình khách hàng thân thiết để gia tăng sự gắn kết của nhóm khách hàng nam vãng lai.

Methodology

Data Preparation
  • Làm sạch dữ liệu (24.049 bản ghi) bằng cách xử lý các giá trị khuyết thiếu, cụ thể là gán giá trị Trung vị (Median) cho các biến định lượng (Tuổi, Thời gian giao hàng, Điểm đánh giá) và Yếu vị (Mode) cho các biến định danh (Thành phố, Phương thức thanh toán).
  • Loại bỏ 1.935 bản ghi trùng lặp để ngăn ngừa hiện tượng thiên lệch (bias) trong quá trình phân tích.
  • Xử lý giá trị ngoại lai (outliers) bằng kỹ thuật Winsorization (phân vị) cho các biến có độ biến động cao và kỹ thuật biến đổi Logarit cho cột Tổng tiền (Total_Amount) nhằm bảo toàn dữ liệu của khách hàng VIP.
  • Chuẩn hóa dữ liệu bằng phương pháp Min-Max Scaling và mã hóa các biến định danh bằng One-Hot Encoding.
  • Áp dụng kỹ thuật Phân tích thành phần chính (PCA) để giảm số chiều dữ liệu từ 37 đặc trưng cốt lõi xuống còn 22 thành phần (bảo toàn 90% lượng thông tin).
Analysis workflow
  • Tiến hành Phân tích khám phá dữ liệu (EDA) để tìm ra các quy luật phân phối, điểm bất thường và mối tương quan giữa các biến số hành vi và nhân khẩu học.
  • Huấn luyện và so sánh hiệu suất của hai mô hình học máy không giám sát tiêu biểu: K-means (dựa trên khoảng cách) và DBSCAN (dựa trên mật độ).
  • Đánh giá chất lượng mô hình thông qua hệ số Silhouette, qua đó xác định thuật toán K-means với số lượng cụm tối ưu k=4 là lựa chọn tốt nhất để phân khúc dữ liệu.
Hình: Phân phối theo độ tuổi của khách hàng.
Hình: Phân phối theo độ tuổi của khách hàng.
Hình: 10 thành phố hàng đầu theo khách hàng.
Hình: 10 thành phố hàng đầu theo khách hàng.
Hình: Phân phối theo giá trị đơn hàng.
Hình: Phân phối theo giá trị đơn hàng.
Hình: Tổng doanh thu theo danh mục sản phẩm.
Hình: Tổng doanh thu theo danh mục sản phẩm.
Hình: Phân phối thời gian cho trang web.
Hình: Phân phối thời gian cho trang web.
Hình: Biểu đồ phương sai tích lũy.
Hình: Biểu đồ phương sai tích lũy.
Findings and Insights
  • Demographic & Revenue Trends: Khách hàng nữ nhỉnh hơn khách hàng nam về mặt số lượng, đồng thời thành phố Istanbul áp đảo hoàn toàn về mức độ tập trung khách hàng so với các thành phố khác. Xét về doanh thu, danh mục "Electronics" (Điện tử) mang lại tổng doanh thu cao nhất, vượt xa các ngành hàng khác.
  • Behavioral Correlation: Không có mối tương quan rõ rệt nào giữa việc khách hàng ở lại trang web lâu (Session Duration) và việc họ chi tiêu nhiều tiền hơn. Tuy nhiên, đơn giá sản phẩm (Unit Price) có tương quan dương rất mạnh với tổng giá trị đơn hàng.
Hình: Biểu đồ nhiệt tương quan giữa các biến số (Correlation Heatmap).
Hình: Biểu đồ nhiệt tương quan giữa các biến số (Correlation Heatmap).
  • Phân cụm khách hàng (K-means)
    • Cluster 0 (Nam giới thông thường): Chiếm 21,46% tổng khách hàng. Đây là nhóm nam giới duy trì tương tác ổn định nhưng mua sắm dàn trải, số lượng mặt hàng ít và chủ yếu mua khi có nhu cầu cấp thiết.
    • Cluster 1 (Nam giới VIP/Tiềm năng): Chiếm 27,37% tổng khách hàng. Nhóm này quan tâm mạnh mẽ tới đồ công nghệ, thể thao, sách và là nơi xuất hiện các giao dịch đột biến có giá trị cực lớn lên tới xấp xỉ 37.852 đơn vị tiền tệ.
    • Cluster 2 (Phụ nữ gia đình): Là nhóm chiếm tỷ trọng cao nhất với 28,72%. Bao gồm các khách hàng nữ có hành vi mua sắm đa dạng cho gia đình (Nhà cửa, Làm đẹp, Thực phẩm, Đồ chơi) với tần suất ổn định, đóng vai trò quyết định chi tiêu sinh hoạt.
    • Cluster 3 (Nữ giới thời trang & trải nghiệm): Chiếm 22,46% tổng khách hàng. Nhóm này tập trung vào thời trang và làm đẹp, mang tính cảm xúc ngẫu hứng cao và rất dễ bị ảnh hưởng bởi các xu hướng trên mạng xã hội.
    • Hình: Số lượng khách hàng theo giới tính.
      Hình: Số lượng khách hàng theo giới tính.

Recommendations

Các khuyến nghị được tinh chỉnh cho từng phòng ban nhằm xây dựng các chiến lược phù hợp với mục tiêu chung.
Marketing & Sales team
Targeted Marketing for Trend-Driven and Average Segments
  • Focus Groups: Khách hàng nữ ở Cụm 3 (Thời trang/Làm đẹp) và khách hàng nam ở Cụm 0 (Mua sắm dàn trải).
  • Rationale: Việc sử dụng Livestream, Influencer Marketing và Flash Sale sẽ kích thích hiệu quả nhu cầu mua sắm thị giác của Cụm 3. Ngược lại, Cụm 0 cần các chiến lược như tặng mã giảm giá, miễn phí vận chuyển và chương trình tích điểm đổi quà để gia tăng sự trung thành và tránh nguy cơ rời bỏ.
Product team
Introduce Segment-Specific Product Bundles
  • For Family Women (Cluster 2): Xây dựng các gói "Combo gia đình", ví dụ như mua sắm thực phẩm thiết yếu tặng kèm đồ gia dụng.
  • For VIP Males (Cluster 1): Giới thiệu các dòng sản phẩm công nghệ mới ra mắt hoặc các công cụ thể thao chuyên nghiệp.
  • Rationale: Việc thiết kế sản phẩm sát với nhu cầu cụ thể của từng nhóm độ tuổi và giới tính sẽ khuyến khích họ chi tiêu nhiều hơn, đồng thời đáp ứng được việc quản lý mức độ nhạy cảm về giá của từng phân khúc.
Hình: Biểu đồ phân bố Danh mục sản phẩm theo cụm.
Hình: Biểu đồ phân bố Danh mục sản phẩm theo cụm.
Business Development team
Incentivize High-Value Buyers and Optimize Operations
  • VIP Care (Cluster 1): Thiết lập kênh chăm sóc ưu tiên để giải quyết khiếu nại ngay lập tức và tặng các đặc quyền phi tài chính như lời mời tham gia sự kiện ra mắt sản phẩm.
  • Operational Optimization (Cluster 2): Đơn giản hóa quy trình thanh toán, đẩy nhanh tốc độ giao hàng và tự động gửi thông báo nhắc nhở mua lại đối với các mặt hàng tiêu dùng nhanh.
  • Rationale: Khách hàng VIP cần chất lượng dịch vụ đặc biệt để tránh tỷ lệ rời bỏ, trong khi nhóm khách hàng mua sắm cho gia đình luôn đề cao sự tiện lợi khi mua với số lượng lớn.
Data Analytics & IT team
Optimize Models and Expand Research
  • Thực nghiệm và so sánh thêm các thuật toán phân cụm khác (như Spectral Clustering) để tìm ra mô hình tối ưu hơn cho bộ dữ liệu.
  • Nghiên cứu sâu hơn về tác động của các chương trình mã giảm giá và khoảng thời gian giữa các lần mua sắm để xây dựng chiến lược giữ chân khách hàng chính xác hơn.
  • Reason: Việc liên tục cập nhật và đào sâu mô hình phân tích dữ liệu sẽ giúp doanh nghiệp thấu hiểu rõ hơn vòng đời khách hàng và củng cố vững chắc chiến lược ra quyết định định hướng dữ liệu (Data-driven).