La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

PHƯƠNG PHÁP THU THẬP DỮ LIỆU SƠ CẤP

Presentaciones similares


Presentación del tema: "PHƯƠNG PHÁP THU THẬP DỮ LIỆU SƠ CẤP"— Transcripción de la presentación:

1 PHƯƠNG PHÁP THU THẬP DỮ LIỆU SƠ CẤP
CÁC PHƯƠNG PHÁP CHỌN MẪU

2 Nội dung Chọn mẫu xác suất Chọn mẫu phi xác suất

3 Chọn mẫu (sampling) Là quá trình lựa chọn một bộ phận tương đối nhỏ từ tổng thể với tích cách là đại diện cho tổng thể cần nghiên cứu. Dựa trên kết quả thu được từ mẫu, nhà nghiên cứu sẽ suy diễn rộng ra cho tổng thể.

4 Vì sao phải chọn mẫu? Để có thông tin nhanh hơn và tiết kiệm hơn.
Vd: muốn có số liệu về thu nhập của các hộ gia đình ở Việt Nam thì nên điều tra toàn bộ hay điều tra chọn mẫu? Trường hợp khi tiến hành điều tra làm biến dạng hay phá hủy thuộc tính của đơn vị Vd: thử độ bền của vỏ xe sản xuất

5 Vì sao phải chọn mẫu? Trường hợp số đơn vị của hiện tượng vô hạn hoặc không xác định Vd: muốn có số liệu về những người bệnh cao huyết áp tại TPHCM Khi muốn so sánh các hiện tượng với nhau mà chưa có thông tin cụ thể hoặc khi muốn kiểm định một giả thuyết đặt ra, người ta thường dùng điều tra chọn mẫu để thu thập dữ liệu. Vd: kiểm tra tác dụng của một loại thuốc đối với điều trị tim mạch

6 Một số khái niệm Phần tử (element): đơn vị cần quan sát và thu thập dữ liệu (cá nhân, hộ gia đình, tổ chức,…). Tổng thể nghiên cứu (study population): tập hợp các phần tử mà thực tế có thể nhận dạng và lấy mẫu. Ví dụ tổng thể nghiên cứu là số hộ gia đình của một địa phương, số doanh nghiệp tại một địa phương, số sinh viên tại một trường đại học, số người tiêu dùng tại một vùng... Khung mẫu (sampling frame): Danh sách các đơn vị lấy mẫu có sẵn để phục vụ cho việc lấy mẫu.

7 Quá trình chọn mẫu B1: Định nghĩa tổng thể và phần tử
B2: Xác định khung lấy mẫu B3: Xác định kích thước mẫu B4: Xác định phương pháp chọn mẫu B5: Tiến hành lấy mẫu theo phương pháp đã chọn

8 Chọn mẫu xác suất Biết trước xác suất xuất hiện của các phần tử vào trong mẫu. Quá trình chọn mẫu tuân theo quy luật toán, không thể tự ý thay đổi. Các thông số của mẫu có thể dùng để ước lượng/kiểm nghiệm các thông số của tổng thể. Nhược điểm: ?

9 Hạn chế (1) Trong nhiều trường hợp không mang tính khả thi vì không thể có được danh sách tất cả các đối tượng liên hệ, hoặc nhà nghiên cứu không đủ thời gian để tiếp cận các đối tượng khi họ phân tán ở nhiều địa bàn cách xa nhau. (2) Tốn kém nhiều thời gian và công sức

10 Chọn mẫu phi xác suất Nhà nghiên cứu chọn các phần tử vào mẫu không theo quy luật ngẫu nhiên Không biết xác suất xuất hiện của các phần tử. Chọn mẫu tùy thuộc vào nhà nghiên cứu. Ví dụ đến siêu thị phỏng vấn các bà nội trợ về chi tiêu hàng ngày cho lương thực Nhược điểm: ?

11 Hạn chế Việc chọn mẫu phải dựa vào kỹ năng của nhà nghiên cứu hay của nhân viên chọn mẫu.

12 Phân loại Chọn mẫu xác suất Chọn mẫu phi xác suất Ngẫu nhiên đơn giản (simple random) Lấy mẫu thuận tiện (convenience) Hệ thống (systematic) Lấy mẫu phán đoán (judgment) Phân tầng (stratified random) Lấy mẫu theo lớp (quota) Theo nhóm (cụm, chùm) (cluster) Lấy mẫu theo mầm (snow ball)

13 Chọn mẫu ngẫu nhiên đơn giản
Quy trình: Cần danh sách của tất cả các đơn vị mẫu Số lượng các đơn vị (cỡ mẫu). Chọn ngẫu nhiên các đơn vị trong danh sách Ví dụ: Khảo sát thực trạng hiểu biết về luật giao thông đường bộ trong 1000 học sinh tại một trường phổ thông trung học, chọn mẫu ngẫu nhiên 100 học sinh để khảo sát.

14 Câu hỏi Theo danh sách chọn mẫu, người thu thập dữ liệu phải phỏng vấn sinh kế của hộ A. Nhưng hộ A đi vắng, hộ B (không có trong danh sách mẫu) sẵn sàng cung cấp dữ liệu sinh kế của gia đình mình (hộ B) . Người thu thập dữ liệu nên chờ hộ A về phỏng vấn hay phỏng vấn hộ B?

15 Thực hành trên Excel Cần lấy mẫu ngẫu nhiên 10 phần tử từ khung mẫu có 20 phần tử. Thực hiện 1. Tạo một danh sách số thứ tự từ 1 đến 20 (giả sử đây là khung mẫu) 2. Tại cột mới (cột Ngẫu nhiên) dùng hàm RAND() 3. Sắp xếp theo thứ tự cột mới 4. Chọn 10 phần tử đầu tiên vào mẫu.

16 Chọn mẫu hệ thống Chọn ngẫu nhiên một điểm xuất phát, dựa vào bước nhảy để xác định các phần tử tiếp theo

17 Chọn mẫu hệ thống

18 Chọn mẫu phân tầng (stratified random)
Tổng thể được chia ra nhiều tầng (strata) theo nguyên tắc: “cùng tầng đồng nhất, khác tầng dị biệt”. Để chọn phần tử trong mỗi tầng: có thể dùng p.p. hệ thống. Số phần tử trong mỗi tầng được xác định theo tỷ lệ hoặc không theo tỷ lệ với kích thước tổng thể. Ví dụ về các tầng: Theo địa lý: bắc, trung, nam, 7 vùng kinh tế; Tôn giáo/sắc tộc; mức thu nhập; giới tính, nghề nghiệp…

19 Chọn mẫu phân tầng

20 Chọn mẫu theo nhóm (cluster)
Tổng thể được chia làm nhiều nhóm (mỗi nhóm mang tính đại diện cho tổng thể) và tuân theo nguyên tắc: “cùng nhóm dị biệt, khác nhóm đồng nhất”. Các nhóm sẽ được chọn một cách ngẫu nhiên để tạo thành mẫu Ví dụ: Chọn mẫu điều tra hộ gia đình Bước 1: lựa chọn ngẫu nhiên một số huyện. Bước 2: các hộ gia đình được lựa chọn trong các huyện vừa được chọn. Bước 3: những cá nhân được lựa chọn từ hộ.

21 Chọn mẫu theo nhóm (cluster)
Ví dụ 2: Chuỗi cửa hàng thức ăn nhanh muốn tìm hiểu món ăn nào được đặt nhiều nhất. B1: Chọn ngẫu nhiên một vài cửa hàng B2: Hỏi ý kiến tất cả khách hàng tại các cửa hàng được chọn.

22 Ví dụ Một nhà phân tích thị trường ô tô khảo sát mức độ hài lòng của những người mới mua ô tô. Danh sách có tên của chủ xe, trong đó người mua Ford, người mua Honda, người mua Toyota, người mua GM. Nhà phân tích này lấy một mẫu danh sách 400 chủ xe bằng cách chọn ngẫu nhiên 100 chủ xe ở mỗi nhãn hiệu. Nhà phân tích đang sử dụng phương pháp chọn mẫu nào? Giải thích.

23 Câu hỏi Giống và khác giữa chọn mẫu phân tầng và chọn mẫu theo nhóm?

24 Trả lời Giống: Chia tổng thể thành nhiều nhóm (tầng) Khác:
Phân tầng: Khi lấy mẫu thì chọn một vài quan sát trong tầng Nhóm: Khi lấy mẫu thì chọn tất cả quan sát trong nhóm

25 Chọn mẫu thuận tiện (convenience)
Chọn phần tử dựa trên sự thuận tiện, dễ tiếp cận, dễ lấy thông tin. Nhược điểm: Không xác định được sai số lấy mẫu và không thể kết luận cho tổng thể từ kết quả mẫu. Sử dụng phổ biến khi bị giới hạn về thời gian và chi phí. Vd: phỏng vấn các bà nội trợ tại các siêu thị để tìm hiểu về hành vi tiêu dùng của người nội trợ.

26 Chọn mẫu phán đoán (judgment)
Nhà nghiên cứu tự phán đoán sự thích hợp của các phần tử để mời họ tham gia vào mẫu. Đặc điểm giống như chọn mẫu thuận tiện, nhưng nếu khả năng/kinh nghiệm phán đoán tốt sẽ cho mẫu tốt hơn thuận tiện. Ví dụ muốn tìm hiểu thói quen tiêu dùng của phụ nữ thành đạt, nhà nghiên cứu theo phán đoán sẽ chọn những phụ nữ ăn mặc sang trọng để phỏng vấn.

27 Chọn mẫu theo lớp (quota)
Dựa vào một số thuộc tính kiểm soát xác định một số phần tử sao cho chúng đảm bảo tỷ lệ của tổng thể và các đặc trưng kiểm soát. Có thể dùng 1 hoặc nhiều thuộc tính kiểm soát như tuổi, giới tính, thu nhập, loại hình DN… Vd. Cần phỏng vấn 800 người có tuổi trên 18 tại 1 thành phố. Phân tổ theo giới tính và tuổi như sau: chọn 400 người (200 nam và 200 nữ) có tuổi từ 18 đến 40, chọn 400 người (200 nam và 200 nữ) có tuổi từ 40 trở lên.

28 Chọn mẫu theo mầm (snow ball)
Chọn ngẫu nhiên những người phỏng vấn ban đầu, những người tiếp theo được chọn dựa trên sự giới thiệu của người trước

29 Sai lệch liên quan đến việc chọn mẫu
Sai lệch do chọn mẫu (do tính đại diện của mẫu) Sai lệch không do chọn mẫu (xảy ra trong quá trình phỏng vấn, hiệu chỉnh, nhập dữ liệu,..).

30 Bài tập Một công ty có ba nhà máy A, B, C cùng sản xuất linh kiện điện tử với số lượng lần lượt tại các nhà máy là 20%, 50% và 30%. Bộ phận quản lý chất lượng của công ty muốn kiểm tra ngẫu nhiên chất lượng 100 linh kiện ở ba nhà máy nên yêu cầu mỗi nhà máy gửi số lượng linh kiện như sau: A gửi 20, B gửi 50, C gửi 30. a. Bộ phận quản lý chất lượng có phải đang lấy mẫu ngẫu nhiên đơn giản không? b. Nếu không phải thì bộ phận này đang lấy mẫu theo phương pháp nào?

31 Bài tập Công ty A muốn khảo sát việc sử dụng ngân hàng điện tử của những người trong độ tuổi từ 18 trở lên. Ở gần địa bàn của công ty A có năm công ty khác nên A đến phỏng vấn các nhân viên của năm công ty này. a. Tổng thể mà A quan tâm là gì? b. Phương pháp thu thập dữ liệu như vậy là phương pháp gì? c. Anh chị cho rằng kết quả phân tích việc sử dụng ngân hàng điện tử của mẫu này có phản ánh đúng tổng thể không?

32 BÀI TẬP Cho danh sách 100 công ty được đánh số thứ tự từ 0 đến 99 và sản lượng sản xuất năm qua. (ĐTV: bảng Anh) 1. Lấy hai mẫu theo phương pháp ngẫu nhiên đơn giản, mỗi mẫu chọn 20 công ty. 2. Tính trung bình sản lượng của các công ty ở 2 mẫu. 3. Giả sử trung bình tổng thể là 66,08900 bảng Anh. Trung bình mẫu so với trung bình tổng thể có sai lệch không? 25/11/2018

33 Hướng dẫn Lấy giấy cắt thành 20 tờ thăm. Chia đôi thành 2 phần
Phần 1: 10 tờ thăm đánh số từ 0 đến 9 biểu thị cho hàng đơn vị Phần 2: 10 tờ thăm đánh số từ 0 đến 9 biểu thị cho hàng chục Bốc ngẫu nhiên hàng chục trước, ví dụ số 1. Bốc ngẫu nhiên hàng đơn vị, ví dụ số 3 Vậy công ty thứ 13 được chọn vào mẫu. Làm tiếp tục để có thêm các công ty khác vào mẫu. Nếu thăm bốc trùng thứ tự công ty thì bốc lại. 25/11/2018 chuong 5- Thiết kế nghiên cứu và các phương pháp lấy mẫu

34 BÀI TẬP 4. Chọn quy mô mẫu là 10% so với tổng thể và chọn theo phương pháp hệ thống 5. Tính trung bình cho mẫu này. 6. So sánh với trung bình tổng thể là 660,8900 thì trung bình mẫu này cho kết quả tốt hơn hay tệ hơn so với trung bình hai mẫu trên? 25/11/2018

35 25/11/2018 chuong 5- Thiết kế nghiên cứu và các phương pháp lấy mẫu

36 Giả sử trung bình tổng thể là 660. 89
Giả sử trung bình tổng thể là Trung bình mẫu so với trung bình tổng thể có sai lệch không? Trung bình bàn 1: Trung bình bàn 2: 593.8 Trung bình bàn 3: Trung bình bàn 4: 632.6 Trung bình thứ 5: 989.6

37 BÀI TẬP Tổng thể có dân phân bố theo tuổi và giới tính như dưới đây. Hãy chọn mẫu 10% theo quota 25/11/2018 chuong 5- Thiết kế nghiên cứu và các phương pháp lấy mẫu

38 ƯỚC TÍNH CỠ MẪU Số liệu cần thiết để ước tính cỡ mẫu:
1 Xác suất sai sót lại I và II, 2. Độ dao động của đo lường, 3. Độ ảnh hưởng (hoặc sai số)

39 ƯỚC TÍNH CỠ MẪU Xác suất sai sót: thông thường một nghiên cứu chấp nhận sai sót loại I 1% hoặc 5% và xác suất sai sót loại II khoảng 0.1, 0.2 (hay power từ 0.8 đến 0.9). Độ dao động chính là độ lệch chuẩn σ (standard deviation) của đo lường Độ ảnh hưởng ∆, nếu là công trình nghiên cứu so sánh hai nhóm, là độ khác biệt trung bình giữa hai nhóm mà nhà nghiên cứu muốn phát hiện. Chẳng hạn như nhà nghiên cứu có thể giả thiết rằng bệnh nhân được điều trị bằng thuốc A có áp suất máu giảm 10 mmHg so với nhóm giả dược. Ở đây, 10 mmHg được xem là độ ảnh hưởng.

40 ƯỚC TÍNH CỠ MẪU Xác suất sai sót: thông thường một nghiên cứu chấp nhận sai sót loại I 1% hoặc 5% và xác suất sai sót loại II khoảng 0.1, 0.2 (hay power từ 0.8 đến 0.9). Độ dao động chính là độ lệch chuẩn σ (standard deviation) của đo lường Độ ảnh hưởng ∆, nếu là công trình nghiên cứu so sánh hai nhóm, là độ khác biệt trung bình giữa hai nhóm mà nhà nghiên cứu muốn phát hiện. Chẳng hạn như nhà nghiên cứu có thể giả thiết rằng bệnh nhân được điều trị bằng thuốc A có áp suất máu giảm 10 mmHg so với nhóm giả dược. Ở đây, 10 mmHg được xem là độ ảnh hưởng.

41 Công thức 1. Trường hợp một nhóm đối tượng
2. Trường hợp hai nhóm đối tượng

42 Trong đó, hằng số C được xác định từ xác suất sai sót loại I và II như sau
α β = 0.20 (Power = 0.80) β = 0.10 (Power = 0.90) β = 0.05 (Power = 0.95) 0.10 6.15 8.53 10.79 0.05 7.85 10.51 13.00 0.01 13.33 16.74 19.84

43 Ví dụ 1: Thực hành trên Minitab: Stat\Power and Sample Size
Chúng ta muốn ước tính chiều cao của đàn ông người Việt, và chấp nhận sai số trong vòng 1 cm (d = 1) với khoảng tin cậy 0.95 (tức α=0.05) và power = 0.8 (hay β = 0.2). Các nghiên cứu trước cho biết độ lệch chuẩn chiều cao ở người Việt khoảng 4.6 cm. Áp dụng công thức [1] để ước tính cỡ mẫu cần thiết cho nghiên cứu:

44 Thực hành Một loại thuốc điều trị có khả năng tăng độ alkaline phosphatase ở bệnh nhân loãng xương. Độ lệch chuẩn của alkaline phosphatase là 15 U/l. Một nghiên cứu mới sẽ tiến hành trong một quần thể bệnh nhân ở Việt Nam, và các nhà nghiên cứu muốn biết bao nhiêu bệnh nhân cần tuyển để chứng minh rằng thuốc có thể tăng alkaline phosphatase từ 60 đến 65 U/l sau 3 tháng điều trị, với sai số I α = 0.05 và power = 0.8?

45 Thực hành Một nghiên cứu được thiết kế để thử nghiệm thuốc alendronate trong việc điều trị loãng xương ở phụ nữ sau thời kì mãn kinh. Có hai nhóm bệnh nhân được tuyển: nhóm 1 là nhóm can thiệp (được điều trị bằng alendronate), và nhóm 2 là nhóm đối chứng (tức không được điều trị). Tiêu chí để đánh giá hiệu quả của thuốc là mật độ xương (bone mineral density – BMD). Số liệu từ nghiên cứu dịch tễ học cho thấy giá trị trung bình của BMD trong phụ nữ sau thời kì mãn kinh là 0.80 g/cm2, với độ lệch chuẩn là 0.12 g/cm2. Vấn đề đặt ra là chúng ta cần phải nghiên cứu ở bao nhiêu đối tượng để “chứng minh” rằng sau 12 tháng điều trị BMD của nhóm 1 tăng khoảng 5% so với nhóm 2?

46 Đáp Trong ví dụ này, tạm gọi trị số trung bình của nhóm 2 là µ2 và nhóm 1 là µ1, chúng ta có: µ1 = 0.8*1.05 = 0.84 g/cm2 (tức tăng 5% so với nhóm 2), và do đó, ∆ = 0.84 – 0.80 = 0.04 g/cm2. Độ lệch chuẩn là σ=0.12 g/cm2. Với power = 0.90 và α = 0.05, cỡ mẫu cần thiết áp dụng theo công thức [2].

47 Hỏi đáp

48 Anh chị tải phần mềm tại

49 Anh chị tải phần mềm tại


Descargar ppt "PHƯƠNG PHÁP THU THẬP DỮ LIỆU SƠ CẤP"

Presentaciones similares


Anuncios Google