tailieunhanh - Bài giảng Hiển thị dữ liệu (Data visualization)
Nội dung của bài giảng trình bày biểu đồ phân bố geom histogram; điểm thi mô Toán; tuổi thọ của vài lãnh đạo; box plot geom boxplot; 5 yếu tố trong biểu đồ hộp; không nên dùng barplot để mô tả biến liên tục; biểu đồ tán xạ; scatter plot dữ liệu theo thời gian. | Bài giảng Hiển thị dữ liệu (Data visualization) Tuan V. Nguyen Senior Principal Research Fellow, Garvan Institute of Medical Research Professor, UNSW School of Public Health and Community Medicine Professor of Predictive Medicine, University of Technology Sydney Adj. Professor of Epidemiology and Biostatistics, School of Medicine Sydney, University of Notre Dame Australia Phân tích dữ liệu và ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019 © Tuan V. Nguyen Biểu đồ • Phân bố: histogram • Tần số: barplot • So sánh: boxplot • Liên quan: scatterplot Obesity data (Vietnam) • Cross-sectional study of obesity in Vietnam • Aim: to predict percent body fat (pcfat) by using gender, age, bmi. dat = ("~/Dropbox/_Conferences and Workshops/TDTU 2018/Datasets/obesity ;) dim(dat) [1] 1217 11 head(dat) id gender height weight bmi age WBBMC wbbmd fat lean pcfat 1 1 F 150 49 53 1312 17802 28600 2 2 M 165 52 65 1309 8381 40229 3 3 F 157 57 64 1230 19221 36057 4 4 F 156 53 56 1171 17472 33094 5 5 M 160 51 54 1681 7336 40621 6 6 F 153 47 52 1358 14904 30068 Histogram Biểu đồ phân bố: geom_histogram() • Mục tiêu: mô tả phân bố của dữ liệu • Có thể so sánh phân bố giữa 2 hay nhiều hơn 2 nhóm • Ví dụ: Phân bố của pcfat (tỉ trọng mỡ) dat = ("~/Dropbox/_Conferences and Workshops/TDTU 2018/Datasets/obesity ;) # Biểu đồ đơn giản library(ggplot2); library(gridExtra) p = ggplot(data=dat, aes(x=pcfat)) p1 = p + geom_histogram(color="white", fill="blue") p = p + geom_histogram(aes(y=density), color="white", fill="blue") p2 = p + geom_density(col="red") (p1, p2, ncol=2) # Biểu đồ đơn giản 100 library(ggplot2); library(gridExtra) p = ggplot(data=dat, aes(x=pcfat)) 75 p1 = p + .
đang nạp các trang xem trước