Thursday, October 1, 2015

Bảng xếp hạng đại học QS Top 100

Trong note này tôi sẽ dùng R để “đọc” bảng xếp hạng đại học top 100 của nhóm QS. Dữ liệu là trong excel file như sau:




# Đọc dữ liệu vào R
d=read.csv("~/Google Drive/Science Evaluation/QS Ranking/QS Ranking 2015-2016.csv", header=T)

# tách thành 2 dữ liệu của năm 2011 và 2015
qs11 = data.frame(d$University2011, d$Rank2011, d$Country2011)
qs15 = data.frame(d$University2015, d$Rank2015, d$Country2015)
qs11$University = qs11$d.University2011
qs15$University = qs15$d.University2015

# Nhập lại theo tên trường và tính hiệu số của rank
qs = merge(qs11, qs15, by="University")
qs$Difference = qs$d.Rank2015-qs$d.Rank2011
attach(qs)

Chúng ta muốn biết có bao nhiêu trường top 100 trong mỗi quốc gia. Để trả lời câu hỏi này chúng ta sẽ dùng barplot trong ggplot2:  

library(ggplot2)
p = ggplot(qs, aes(d.Country2015, fill=d.Country2015))
p + geom_bar() + coord_flip() + theme(legend.position="none")


Kế đến, chúng ta muốn biết mối tương quan giữa thứ hạng trong 2 năm 2011 và 2015:

p = ggplot(qs, aes(d.Country2015, Difference, color=d.Country2015))
p = p + geom_boxplot() + coord_flip()
p + theme_bw()



hoặc cũng có thể dùng plot đơn giản:

plot(d.Rank2011, d.Rank2015, pch=16)
text(d.Rank2011, d.Rank2015, labels=d.University2011, cex=0.6, col="blue")
abline(a=0, b=1, col="red", lty=2)






No comments:

Post a Comment