Trung vị (Median) là giá trị nằm chính giữa của một dãy số đã được sắp xếp theo thứ tự tăng dần hoặc giảm dần. Trong thống kê cơ bản, trung vị là một trong ba đại lượng đo xu hướng trung tâm quan trọng nhất, cùng với trung bình cộng (mean) và mode. Điểm đặc biệt của trung vị: nó không bị ảnh hưởng bởi các giá trị cực đoan, làm cho nó trở thành thước đo đáng tin cậy hơn trong nhiều tình huống thực tế.
Trung Vị (Median) Là Gì? Định Nghĩa Đầy Đủ
Trung vị là giá trị chia dãy số (đã sắp xếp) thành hai phần bằng nhau: 50% giá trị nhỏ hơn hoặc bằng median, và 50% giá trị lớn hơn hoặc bằng median. Median còn được gọi là phân vị 50% hay phân vị thứ hai (Q2).
Ký hiệu: Median được ký hiệu là Me hoặc Md hoặc đơn giản là M̃.
Không giống như trung bình cộng, median không phụ thuộc vào giá trị của tất cả các phần tử — nó chỉ phụ thuộc vào vị trí giữa trong dãy số đã sắp xếp.
Cách Tính Trung Vị Cho Dãy Số Lẻ
Khi tập dữ liệu có số lượng phần tử lẻ (n là số lẻ), trung vị là giá trị nằm đúng ở vị trí giữa:
Vị trí median = (n + 1) / 2
Ví dụ: Dãy số 7 phần tử: 3, 7, 8, 12, 15, 19, 24 (đã sắp xếp)
n = 7 (lẻ) → Vị trí = (7+1)/2 = 4
Median = phần tử thứ 4 = 12
Kiểm tra: có 3 giá trị nhỏ hơn 12 (3, 7, 8) và 3 giá trị lớn hơn 12 (15, 19, 24). ✓
Cách Tính Trung Vị Cho Dãy Số Chẵn
Khi tập dữ liệu có số lượng phần tử chẵn (n là số chẵn), không có phần tử nào ở đúng giữa. Trung vị là trung bình cộng của hai phần tử ở giữa:
Median = (giá trị thứ n/2 + giá trị thứ n/2 + 1) / 2
Ví dụ: Dãy số 6 phần tử: 4, 9, 11, 14, 18, 23 (đã sắp xếp)
n = 6 (chẵn) → Hai phần tử giữa: thứ 3 và thứ 4 = 11 và 14
Median = (11 + 14) / 2 = 25 / 2 = 12.5
Lưu ý: 12.5 không xuất hiện trong tập dữ liệu gốc — đây là giá trị trung gian được tính toán.
Hướng Dẫn Tính Trung Vị Step-by-Step
- Bước 1: Thu thập toàn bộ dữ liệu.
- Bước 2: Sắp xếp dữ liệu theo thứ tự tăng dần (từ nhỏ đến lớn).
- Bước 3: Đếm số lượng phần tử (n).
- Bước 4a: Nếu n lẻ → Median = giá trị tại vị trí (n+1)/2.
- Bước 4b: Nếu n chẵn → Median = trung bình của giá trị thứ n/2 và (n/2 + 1).
Ví Dụ Thực Tế: Thu Nhập Và Bất Động Sản
Tại sao báo cáo thu nhập dùng median thay vì mean?
Đây là ví dụ kinh điển trong thống kê. Giả sử thu nhập hàng tháng của 9 người trong một nhóm bạn (triệu đồng):
Dữ liệu gốc: 8, 10, 12, 11, 9, 13, 10, 15, 150
Sau khi sắp xếp: 8, 9, 10, 10, 11, 12, 13, 15, 150
| Đại lượng | Kết quả | Nhận xét |
|---|---|---|
| Mean (trung bình) | (8+9+10+10+11+12+13+15+150)/9 = 26.4 triệu | Bị kéo lên bởi giá trị 150 triệu |
| Median (trung vị) | Vị trí 5 = 11 triệu | Phản ánh đúng thu nhập điển hình |
Mean 26.4 triệu cho thấy “thu nhập trung bình” gây hiểu lầm vì phần lớn mọi người chỉ kiếm 8-15 triệu. Median 11 triệu mới phản ánh thu nhập của người “ở giữa” thực sự.
Đây chính xác là lý do Tổng cục Thống kê và các tổ chức quốc tế (IMF, World Bank) thường công bố median household income thay vì mean khi so sánh mức sống.
Giá bất động sản — tại sao luôn dùng median?
Giá nhà tại TP.HCM quý 1/2024 (tỷ đồng): 2.5, 3.0, 3.2, 3.5, 4.0, 4.2, 4.8, 5.0, 50, 80
Mean = (2.5+3.0+3.2+3.5+4.0+4.2+4.8+5.0+50+80)/10 = 160.2/10 = 16.02 tỷ (bị kéo lên bởi 2 căn biệt thự cao cấp)
Median = (4.0 + 4.2)/2 = 4.1 tỷ (phản ánh giá nhà thực tế của phần lớn giao dịch)
Khi một môi giới nói “giá trung bình” — hãy hỏi xem họ đang nói về mean hay median!
So Sánh Median Và Mean: Khi Nào Dùng Cái Nào?
| Tiêu chí so sánh | Median (Trung vị) | Mean (Trung bình cộng) |
|---|---|---|
| Chịu ảnh hưởng outlier | ❌ Không (kháng outlier) | ✅ Có (rất nhạy cảm) |
| Phân phối lệch | ✅ Phù hợp | ❌ Không phù hợp |
| Phân phối chuẩn/đối xứng | ✅ Dùng được | ✅ Tốt hơn (dùng toàn dữ liệu) |
| Dễ tính | Cần sắp xếp trước | Cộng và chia |
| Dùng trong phép tính tiếp theo | Hạn chế | ✅ Dễ dùng hơn (mean của mean) |
| Ứng dụng điển hình | Thu nhập, nhà đất, thời gian chờ | Điểm thi, nhiệt độ, chiều cao |
Median Trong Các Lĩnh Vực Thực Tế
Trong y tế: Thời gian sống sót
Trong nghiên cứu ung thư, “median survival time” (thời gian sống trung vị) là thước đo tiêu chuẩn. Nó cho biết: 50% bệnh nhân sống lâu hơn X tháng, 50% ngắn hơn. Mean không phù hợp vì một số bệnh nhân có thể sống cực kỳ lâu, kéo lệch kết quả.
Trong kinh tế: GDP bình quân đầu người
Nhiều nước có GDP/người (mean) cao nhưng bất bình đẳng lớn. Median income thấp hơn nhiều cho thấy của cải tập trung vào thiểu số. Hệ số Gini và median income là hai chỉ số bổ sung nhau để đánh giá thực trạng kinh tế.
Trong IT: Thời gian phản hồi server
Kỹ sư backend thường dùng P50 (median), P95, P99 để đánh giá hiệu suất. P50 = 200ms nghĩa là 50% request hoàn thành dưới 200ms — thông tin thực tế hơn mean vì một vài request chậm bất thường không kéo lệch P50.
Tính Median Trong Excel Và Google Sheets
Hàm tính trung vị trong Excel/Google Sheets:
=MEDIAN(A1:A10)— tính median từ ô A1 đến A10=MEDIAN(3, 7, 8, 12, 15)— tính trực tiếp từ giá trị- Excel/Sheets tự động sắp xếp và xác định vị trí giữa.
Lưu ý: Hàm MEDIAN bỏ qua ô trống nhưng vẫn tính ô có giá trị 0. Kiểm tra dữ liệu trống trước khi dùng.
Phân Phối Dữ Liệu Và Vị Trí Của Median
Mối quan hệ giữa mean và median tiết lộ hình dạng phân phối dữ liệu:
- Mean = Median: Phân phối đối xứng (symmetric distribution), thường là phân phối chuẩn.
- Mean > Median: Phân phối lệch phải (right-skewed), có outlier lớn ở phía phải. Ví dụ: thu nhập, giá bất động sản.
- Mean < Median: Phân phối lệch trái (left-skewed), có outlier nhỏ ở phía trái. Ví dụ: tuổi nghỉ hưu sớm.
Quy tắc thực dụng: Nếu Mean và Median chênh nhau hơn 10%, dữ liệu có thể bị lệch — hãy kiểm tra lại và cân nhắc dùng median.
Câu Hỏi Thường Gặp (FAQ)
Trung vị có thể bằng trung bình không?
Hoàn toàn có thể. Khi dữ liệu phân phối đối xứng (như phân phối chuẩn), mean và median bằng nhau hoặc rất gần nhau. Ví dụ: chiều cao người trưởng thành thường có mean ≈ median vì phân phối gần chuẩn.
Trung vị của dữ liệu chẵn có phải là số thực không?
Không nhất thiết phải là số trong tập dữ liệu gốc. Khi n chẵn, median là trung bình cộng của hai giá trị giữa, có thể là số thập phân không tồn tại trong dữ liệu. Điều này hoàn toàn bình thường và hợp lệ về mặt thống kê.
Tại sao các báo cáo lương thường dùng median thay vì mean?
Vì phân phối lương luôn lệch phải: đa số người có lương thấp đến trung bình, nhưng một số ít người có lương cực cao. Mean bị kéo lên bởi nhóm nhỏ này và không đại diện cho phần đông. Median phản ánh mức lương của người “ở giữa” thực sự, hữu ích hơn để đánh giá thị trường lao động.
Median dùng được cho dữ liệu định tính không?
Median dùng được cho dữ liệu thứ tự (ordinal) — ví dụ: xếp hạng Rất tệ / Tệ / Bình thường / Tốt / Rất tốt. Nhưng không dùng được cho dữ liệu danh nghĩa (nominal) như màu sắc, nghề nghiệp. Với dữ liệu danh nghĩa, dùng mode.
Làm thế nào để tính median khi có dữ liệu nhóm (bảng tần số)?
Khi dữ liệu được nhóm vào các khoảng, dùng công thức nội suy: Median = L + [(n/2 – F) / f] × h, trong đó L là cận dưới lớp chứa median, F là tần số tích lũy trước lớp đó, f là tần số lớp chứa median, h là độ rộng khoảng. Đây là chủ đề nâng cao hơn thống kê cơ bản.
Kết Luận
Trung vị là công cụ thống kê không thể thiếu trong kho vũ khí phân tích dữ liệu của bạn. Hiểu rõ khi nào dùng median thay vì mean giúp bạn tránh được những kết luận sai lầm phổ biến — đặc biệt khi làm việc với dữ liệu thu nhập, giá cả, hoặc bất kỳ tập dữ liệu nào có giá trị cực đoan.
Để hiểu đầy đủ hơn về các đại lượng thống kê, đọc thêm về phương sai và độ lệch chuẩn — đo lường mức độ phân tán quanh trung vị và trung bình. Hoặc xem lại hướng dẫn thống kê cơ bản tổng quan để nắm bức tranh toàn cảnh.
🔢 Dùng ngay công cụ tính % tại phantram.online — So sánh median và mean theo phần trăm, tính tỉ lệ chênh lệch giữa các giá trị thống kê nhanh chóng!