XÁC ĐỊNH CỠ MẪU TỐI THIỂU TRONG PHÂN TÍCH NHÂN TỐ KHÁM PHÁ

Bạn đọc tham khảo thêm bài viết về cỡ mẫu liên quan tại đây Click here.

A. Tầm quan trọng của cỡ mẫu trong phân tích nhân tố khám phá (EFA)

Trong phân tích nhân tố khám phá (Exploratory Factor Analysis - EFA), cỡ mẫu là yếu tố rất quan trọng để đảm bảo kết quả chính xác và đáng tin cậy. Một cỡ mẫu đủ lớn giúp cải thiện độ ổn định và độ tin cậy của các ước lượng, từ đó nâng cao chất lượng của phân tích. Tuy nhiên, không có một cỡ mẫu “lý tưởng” cố định cho tất cả các nghiên cứu EFA, vì cỡ mẫu phụ thuộc vào nhiều yếu tố như số lượng biến quan sát, số lượng nhân tố, tính chất dữ liệu, và độ phức tạp của mô hình.

B. Tại sao cỡ mẫu quan trọng trong EFA?

1. Đảm bảo độ tin cậy của kết quả

   • Ổn định các tải trọng nhân tố: Cỡ mẫu đủ lớn giúp đảm bảo các tải trọng nhân tố (factor loadings) ổn định và đáng tin cậy hơn. Khi cỡ mẫu nhỏ, tải trọng nhân tố có thể thay đổi mạnh khi bạn thêm hoặc bớt vài quan sát, dẫn đến kết quả không ổn định.

   • Ước lượng chính xác các phương sai: Một cỡ mẫu lớn giúp ước lượng chính xác hơn phương sai của các biến và nhân tố. Phương sai là chỉ số quan trọng để đánh giá sự phân tán của dữ liệu, ảnh hưởng trực tiếp đến độ tin cậy của các kết quả phân tích.

2. Nâng cao khả năng phát hiện cấu trúc tiềm ẩn

   • Phát hiện các nhân tố tiềm ẩn: Với cỡ mẫu lớn, khả năng phát hiện các nhân tố thực sự có trong dữ liệu sẽ cao hơn. Nếu cỡ mẫu quá nhỏ, những nhân tố yếu hoặc các mối quan hệ phức tạp có thể bị bỏ qua.

   • Đánh giá độ phù hợp của mô hình: Cỡ mẫu lớn cũng giúp các chỉ số độ phù hợp của mô hình như KMO (Kaiser-Meyer-Olkin) và Bartlett’s test of sphericity trở nên đáng tin cậy hơn. Khi mẫu quá nhỏ, các chỉ số này có thể bị sai lệch (Kaiser, 1974). Chỉ số KMO, được đề xuất bởi Kaiser, là một công cụ để kiểm tra mức độ phù hợp của dữ liệu với phân tích nhân tố. KMO cao (thường ≥ 0.6) gợi ý rằng mẫu có thể đủ lớn để tiến hành phân tích nhân tố. Kích thước mẫu thường không được đề cập trực tiếp nhưng là một phần không thể thiếu để đảm bảo tính chính xác của KMO. Như vậy, khi các bạn phân tích KMO < 0.6 cho thấy rằng, cỡ mẫu nghiên cứu của bạn đang không hợp lý, nó quá thấp, giải pháp lúc này là nâng cỡ mẫu lên.

3. Giảm thiểu các lỗi mẫu

   • Đại diện tốt hơn cho tổng thể: Cỡ mẫu lớn giúp mẫu nghiên cứu phản ánh chính xác hơn đặc điểm của tổng thể dân số. Điều này giúp giảm thiểu lỗi mẫu và làm cho kết quả nghiên cứu có tính khái quát cao hơn.

   • Giảm ảnh hưởng của các điểm dị biệt (outliers): Cỡ mẫu lớn giúp làm giảm ảnh hưởng của các điểm dị biệt trong dữ liệu, những điểm có thể làm sai lệch kết quả phân tích, nhất là khi cỡ mẫu nhỏ.

C. Cỡ mẫu tối thiểu trong EFA

Dưới đây là một số gợi ý về cỡ mẫu tối thiểu từ các nghiên cứu uy tín:

1.   Kaiser: Henry F. Kaiser được biết đến với những đóng góp quan trọng trong phân tích nhân tố, đặc biệt là chỉ số KMO (Kaiser-Meyer-Olkin), nhưng ông không xuất bản một bài báo chuyên biệt nào dành riêng cho kích thước mẫu tối thiểu trong phân tích nhân tố. Tuy nhiên, có một số tài liệu do ông và các đồng nghiệp viết đã gián tiếp đề cập hoặc được sử dụng để suy ra các hướng dẫn về cỡ mẫu tối thiểu, đây được xem như là một Quy tắc kinh nghiệm:

·   Ít nhất 5-10 quan sát trên mỗi biến;

·   Tổng kích thước mẫu ≥ 100 thường được xem là tối thiểu để đảm bảo tính ổn định của kết quả.

2.      MacCallum và cộng sự (1999): Các nghiên cứu sau này dựa trên công trình của Kaiser đã đưa ra thêm những hướng dẫn cụ thể hơn về kích thước mẫu, chẳng hạn như MacCallum và cộng sự (1999) chỉ ra rằng, không chỉ số lượng mẫu mà cả cấu trúc nhân tố và độ mạnh của tải trọng nhân tố đều ảnh hưởng đến độ tin cậy của kết quả EFA. Tác giả đã đề xuất rằng kích thước mẫu tối thiểu phụ thuộc vào độ phức tạp của dữ liệu, mức độ tương quan giữa các biến và tải trọng nhân tố. Tác giả chỉ ra rằng, cỡ mẫu cần thiết trong phân tích nhân tố không cố định. Khi cộng hưởng cao (communality – độ giải thích phương sai của các biến - một quan sát được xem là cộng hưởng cao khi có hệ số tải nhân tố lớn hơn 0.708 (Hair et al., 2019)) và các nhân tố được xác định rõ (overdetermination – một nhân tố được xác định rõ khi nhân tố đó có số lượng biến quan sát nhiều (≥3) và có ít nhất 3 đến 4 quan sát có tải trọng cao), cỡ mẫu nhỏ vẫn đủ dùng. Ngược lại, với dữ liệu phức tạp và cộng hưởng thấp, cần cỡ mẫu lớn hơn. Tác giả khuyến nghị cỡ mẫu cụ thể như sau:

·    Với cộng hưởng cao và nhân tố được xác định rõ: cỡ mẫu 60-100 có thể đủ.

·    Với cộng hưởng thấp: cỡ mẫu cần ít nhất 300-500.

·    Khi các yếu tố không rõ ràng và cộng hưởng thấp: cỡ mẫu có thể cần tới 500+ để đảm bảo kết quả đáng tin cậy.

3.      Tabachnick và cộng sự  (2018): Khuyến nghị cỡ mẫu tối thiểu là 300 để đảm bảo độ chính xác cao. Tuy nhiên, nếu các tải trọng nhân tố mạnh (≥ 0.6), cỡ mẫu nhỏ hơn 100 vẫn có thể chấp nhận được.

4.      Hair và cộng sự (2019): Cỡ mẫu tối thiểu cho EFA là 50, tốt nhất là từ 100 trở lên. Các tác giả khuyến nghị mẫu nên là 5 lần hoặc 10 lần số biến quan sát tham gia phân tích. Nếu communality (độ giải thích phương sai của các biến) cao, cụ thể là từ 0.70 trở lên, thì cỡ mẫu khoảng 100 là đủ, với điều kiện mỗi nhân tố có ít nhất 3 biến có tải nhân tố cao. Trong trường hợp communality trung bình, dao động từ 0.40 đến 0.70, cỡ mẫu cần thiết tăng lên ít nhất 200 quan sát để đảm bảo kết quả đáng tin cậy. Tuy nhiên, nếu communality thấp hơn 0.40 và mỗi nhân tố chỉ có một số ít biến có tải nhân tố cao, cỡ mẫu cần thiết có thể tăng lên đến 400 quan sát để đảm bảo tính ổn định và chính xác của kết quả phân tích nhân tố.

D. Tóm lại

Việc xác định cỡ mẫu trong EFA là một quyết định quan trọng, cần phải cân nhắc kỹ lưỡng nhiều yếu tố. Mặc dù công thức "5 lần số biến quan sát" được khuyến nghị phổ biến, nhưng cỡ mẫu tối thiểu thực tế có thể thay đổi tùy vào cấu trúc nghiên cứu, đặc điểm dữ liệu và yêu cầu độ chính xác của kết quả. Vì vậy, ngoài việc tính toán cỡ mẫu, bạn cũng nên xem xét các yếu tố khác như độ mạnh của các tải trọng nhân tố và tính chất của dữ liệu để đảm bảo phân tích EFA hiệu quả và đáng tin cậy. Nguyên tắc chung là cỡ mẫu càng lớn càng tốt!

E. Tài liệu tham khảo

Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (2019). Multivariate Data Analysis. In Cengage Learning (8th ed.). Cengage Learning.

Kaiser, H. F. (1974). An index of factorial simplicity. Psychometrika, 39(1), 31–36.

MacCallum, R. C., Widaman, K. F., Zhang, S., & Hong, S. (1999). Sample size in factor analysis. Psychological Methods, 4(1), 84.

Tabachnick, B. G., Fidell, L. S., & Ullman, J. B. (2018). Using multivariate statistics (7th ed.). Pearson Boston, MA.

Link tải các bài báo tham khảo tại đây. Click here.


0971202308