Cách xác định loại phân phối xác suất cho dữ liệu

Mục lục:

Anonim

Khi bạn đã thu thập dữ liệu trên hệ thống hoặc quy trình của mình, bước tiếp theo là xác định loại phân phối xác suất mà người ta có. Các loại phân phối xác suất là: đồng phục rời rạc, Bernoulli, nhị thức, nhị thức âm, Poisson, hình học, đồng phục liên tục, bình thường (đường cong hình chuông), phân phối hàm mũ, gamma và beta. Thu hẹp thậm chí một vài từ danh sách các khả năng giúp xác định giá trị bình phương R gần nhất nhanh hơn nhiều.

Các mặt hàng bạn sẽ cần

  • Phần mềm vẽ đồ thị

  • Phương tiện tính giá trị bình phương R (phân tích phù hợp nhất)

Vẽ dữ liệu cho một đại diện trực quan của loại dữ liệu.

Một trong những bước đầu tiên để xác định phân phối dữ liệu nào có - và do đó loại phương trình sẽ sử dụng để mô hình hóa dữ liệu - là loại trừ những gì nó không thể. • Nếu có bất kỳ đỉnh nào trong tập dữ liệu, thì đó không thể là phân phối thống nhất rời rạc. • Nếu dữ liệu có nhiều hơn một đỉnh, nó không phải là Poisson hoặc nhị thức. • Nếu nó có một đường cong duy nhất, không có các đỉnh thứ cấp và có độ dốc chậm ở mỗi bên, thì đó có thể là phân phối Poisson hoặc gamma. Nhưng nó không thể là một phân phối thống nhất rời rạc. • Nếu dữ liệu được phân phối đồng đều và không bị lệch về một phía, có thể loại trừ phân phối gamma hoặc Weibull. • Nếu hàm có phân phối chẵn hoặc cực đại ở giữa các kết quả được vẽ đồ thị, thì đó không phải là phân phối hình học hoặc phân phối theo cấp số nhân. • Nếu sự xuất hiện của một yếu tố thay đổi theo một biến môi trường, thì đó có thể không phải là phân phối Poisson.

Sau khi loại phân phối xác suất đã được thu hẹp, hãy phân tích bình phương R của từng loại phân phối xác suất có thể. Giá trị bình phương R cao nhất rất có thể đúng.

Loại bỏ một điểm dữ liệu ngoại lệ. Sau đó tính lại R bình phương. Nếu cùng loại phân phối xác suất xuất hiện dưới dạng khớp gần nhất, thì có độ tin cậy cao rằng đây là phân phối xác suất chính xác để sử dụng cho tập dữ liệu.

Lời khuyên

  • Nếu dữ liệu cho thấy nhiều đỉnh phân tán rộng, có thể hai quá trình riêng biệt đang diễn ra hoặc sản phẩm được lấy mẫu được trộn lẫn. Nhớ lại dữ liệu và sau đó phân tích lại.

Cảnh báo

Xác thực các phương trình được tạo ra đối với các tập dữ liệu sau này để xác nhận rằng nó vẫn chính xác cho tập dữ liệu. Có thể các yếu tố môi trường và quá trình trôi dạt đã làm cho các phương trình và mô hình hiện tại không chính xác.