ASSESSING NORMALITY OF DATA USING SPSS AMOS

(ĐÁNH GIÁ PHÂN PHỐI CHUẨN CỦA DỮ LIỆU)

 

Trong bài này, chúng ta sẽ tìm hiểu kỹ thuật kiểm tra tính phôi phối của dữ liệu. Phân phối chuẩn là một phân phối xác suất liên tục đối xứng xung quanh giá trị trung bình của nó, hầu hết các quan sát tập hợp xung quanh đỉnh trung tâm và xác suất đối với các giá trị xa trung bình giảm dần theo cả hai hướng. Phân phối chuẩn tắc (standard normal distribution) là phân phối chuẩn với giá trị trung bình (μ) bằng 0 và độ lệch chuẩn (σ) bằng 1. Phân phối chuẩn còn được gọi là đường cong chuông (bell curve) vì đồ thị của mật độ xác suất có dạng chuông.


Kiểm định phân phối chuẩn là một bước quan trọng trong thủ tục thống kê suy luận, giúp chúng ta xác định được cơ bản hình dạng chung của một phân phối, từ đó đánh giá kiểm định có bị lệch hay không, và có độ lệch dương hay âm. Kiểm định phân phối chuẩn được sử dụng để kiểm tra xem một tập hợp dữ liệu có tuân theo phân phối chuẩn hay không. Nếu tập hợp dữ liệu tuân theo phân phối chuẩn, chúng ta có thể sử dụng các thống kê liên quan đến phân phối chuẩn như kiểm định t và ANOVA. Ngoài ra, còn thực hiện các thống kê khác như: giá trị trung bình (mean); độ lệch chuẩn (standard deviation); phân vị (percentile); hệ số tương quan Pearson (Pearson correlation coefficient); kiểm định giả thuyết về giá trị trung bình của một mẫu (t-test). Nếu dữ liệu không tuân theo phân phối chuẩn, chúng ta có thể sử dụng các phương pháp khác như kiểm định Mann-Whitney U hoặc Kruskal-Wallis. Tuy nhiên, các phương pháp này có nhược điểm là không nhạy với các giá trị ngoại lai và không cho phép sử dụng các thống kê liên quan đến phân phối chuẩn.


Thông thường để nhận biết một phân phối chuẩn trong SPSS có thể sử dụng các cách sau:

   + Xem biểu đồ với đường cong chuẩn (Histograms with normal curve) với dạng hình chuông đối xứng với tần số cao nhất nằm ngay giữa và các tần số thấp dần nằm ở 2 bên.

   + Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot) – phân phối chuẩn khi biểu đồ có quan hệ tuyến tính (đường thẳng).

   + Kiểm tra giá trị Skewness và Kurtosis của biến độc lập. Nếu Skewness và Kurtosis nằm trong khoảng từ -1 đến 1 thì phân phối của biến độc lập được coi là phân phối chuẩn (Hair và ctg, 2019, p.48). Còn theo Collier (2020) thì phạm vi Skewness nằm trong khoảng từ -2 đến 2, và Kurtosis nằm trong khoảng từ -10 đến 10 thì dữ liệu được đánh giá là có phân phối chuẩn. Nếu dữ liệu của bạn không có phân phối chuẩn thì sử dụng phương pháp ước lượng maximum likelihood là không được, mà phải thay thế bằng phương pháp ước lượng khác như GLM - general linear model (Collier, 2020, p.166).


Sau đây chúng ta sử dụng SPSS để kiểm định phân phối chuẩn cho bộ dữ liệu.

Đầu tiên, tại giao diện chính của SPSS, nhấn chọn Analyze > Descriptive Statistics > Frequencies… Đưa các biến cần kiểm định vào ô Variable(s). Tiếp tục nhấn chọn các lệnh theo thứ tự Charts > Histograms > Show normal curve on histogram. Nhấn Continue > OK và chờ kết quả.



Vẽ biểu đồ đường cong chuẩn:

Trên thanh công cụ, nhấn chọn Analyze > Descriptive Statistics > Descriptives. Đưa biến cần kiểm định vào ô Variable(s), nhấn chọn Options. Tích chọn vào 2 ô Kurtosis và Skewness, chọn Continue và nhấn OK, sau đó chờ kết quả.



Giá trị Skewness của biến độc lập là -1.596 thì có thể kết luận rằng phân phối của biến độc lập không phải là phân phối chuẩn. Tuy nhiên, để đưa ra kết luận chính xác hơn về tính chuẩn của phân phối, bạn có thể sử dụng các cách kiểm tra khác như kiểm tra Shapiro-Wilk hoặc Kolmogorov-Smirnov.

Vẽ biểu đồ xác suất chuẩn (Biểu đồ Q-Q)

Biểu đồ Q-Q cho thấy một hình ảnh trực quan về sự phân bố dữ liệu, thường được sử dụng với những nghiên cứu có kích thước mẫu lớn (>100). Cách vẽ biểu đồ Q-Q như sau.


Có thể thấy rằng, các dầu chấm phân bố cách xa đường xu hướng. Điều này cung cấp thêm bằng chứng rằng dữ liệu không đạt phân phối chuẩn. Chúng ta hoàn toàn có thể kết hợp biểu đồ Q-Q này cùng với những kết quả của những bài kiểm tra thống kê trên để khẳng định chắc chắn dữ liệu này có là phân phối chuẩn hay không.


Normality Assessment


Trong AMOS để đánh giá tính phân phối chuẩn của dữ liệu, chúng ta sử dụng kỹ thuật Tests for normality and outliers.



Giá trị tuyệt đối của skewness ≤ 1 thì dữ liệu được đánh giá là phân phối chuẩn. Tuy nhiên, SEM sử dụng Công cụ MLE (Maximum Likelihood Estimator) như AMOS khá mạnh với skewness có trị tuyệt đối lớn hơn 1.0 nếu kích thước mẫu lớn và Vùng tới hạn (CR) cho độ lệch không vượt quá 8,0. Điều này có nghĩa là, chúng ta có thể tiến hành phân tích sâu hơn (SEM) vì công cụ ước tính được sử dụng là MLE. Thông thường, kích thước mẫu lớn hơn 200 được coi là đủ lớn trong MLE mặc dù phân phối dữ liệu không ở dạng chuẩn. Đối với kurtosis, phạm vi là −10 đến +10 thì dữ liệu vẫn được coi là phân bố bình thường (Collier, 2020).


Có nhiều cách để xử lý dữ liệu như xóa đi các items có độ lệch lớn. Tuy nhiên, phương pháp phổ biến nhất gần đây là tiếp tục phân tích với MLE (không xóa bất kỳ mục nào và cũng không loại bỏ bất kỳ quan sát nào) và xác nhận lại kết quả phân tích thông qua Bootstrapping. Bootstrapping là quá trình lấy mẫu lại trên tập dữ liệu hiện có bằng phương pháp lấy mẫu với thay thế. Quy trình thống kê sẽ tính toán độ lệch trung bình và chuẩn cho mỗi mẫu có kích thước N để tạo ra phân phối lấy mẫu mới.


Tài liệu tham khảo:


Collier, J. E. (2020). Applied structural equation modeling using AMOS: Basic to advanced techniques. Routledge.

Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (2019). Multivariate Data Analysis. In Cengage Learning (8th ed.). Cengage Learning.




0971202308