tailieunhanh - Modeling Hydrologic Change: Statistical Methods - Chapter 4

Sau khi vẽ một biểu đồ tần số, một sự kiện lớn hơn hoặc nhỏ hơn nhiều so với phần còn lại của mẫu có thể được hiển nhiên. Điều này ban đầu sẽ được dán nhãn như là một sự kiện cực đoan. Một số mẫu dữ liệu có thể chứa nhiều hơn một sự kiện cực đoan. Sự kiện cực đoan có thể tạo ra các vấn đề trong phân tích dữ liệu và mô hình hóa. Ví dụ, một giá trị rất lớn có thể gây ra các mẫu trung bình và độ lệch chuẩn lớn hơn. | 4 Outlier Detection INTRODUCTION After plotting a frequency histogram an event that is much larger or much smaller than the remainder of the sample may be evident. This will initially be labeled as an extreme event. Some data samples may contain more than one extreme event. Extreme events can create problems in data analysis and modeling. For example an extremely large value can cause the sample mean and standard deviation to be much larger than the population values. In bivariate analysis . X vs. Y an extreme point can adversely influence the sample value of a correlation coefficient it can also distort the coefficients of the regression line thus suggesting an effect that may not reflect the true relationship between the two variables. Having subjectively decided that one or more values in a sample are extreme events the values should be objectively evaluated. The intent is to to assess whether the extreme event is likely to have occurred if the sample were correctly obtained from the assumed population. Statistical theory in the form of a hypothesis test can be used to make a decision. If the statistical test indicates that the observed extreme event is unlikely to have occurred during sampling from the assumed population the extreme event is called an outlier. An outlier is a measured value that according to a statistical test is unlikely to have been drawn from the same population as the remainder of the sample data. Having determined that an extreme event is an outlier the question arises What can be done with the value If the value is kept in the sample then it may distort values or relationships computed from the sample. Eliminating a data point proven to be an outlier should yield more accurate statistics and relationships with other variables. However some professionals oppose censoring eliminating the statistically proven outlier from the sample . Their argument is that if the value was measured it could have occurred and it is incorrect to censor

TỪ KHÓA LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.