Wednesday, February 24, 2016

Vẽ biểu đồ barplot đơn giản

Thỉnh thoảng, chúng ta cần vẽ nhanh những biểu đồ đơn giản từ số liệu sẵn có. R có thể làm việc này rất tốt. Dưới đây là ví dụ tiêu biểu:

Wednesday, February 17, 2016

Cài đặt package trong R khi có thông điệp "Package xxx not availabe in yyy"

Thỉnh thoảng khi cài đặt một package trong R, chúng ta gặp một message rất khó chịu là package đó không có cho R phiên bản yyy. Ví dụ như khi tôi cài đặt package sas7dbat trên máy MacBook thì gặp "nó" như sau:

Warning message:
package ‘http://cran.r-project.org/src/contrib/Archive/sas7dbat/     sas7bdat_0.5.tar.gz’ is not available (for R version 3.1.3)

Một bạn đọc chỉ có một mẹo rất hữu hiệu để hoá giải vấn đề này. Các bạn làm như sau:

Thursday, November 19, 2015

Công bố quốc tế 2005-2014 của Mĩ, Nhật, Tàu, và Hàn

Tôi mới đọc một báo cáo của UNESCO về khoa học đến năm 2030, và thấy có vài dữ liệu thú vị để làm bài tập vẽ biểu đồ. Vấn đề đặt ra là xu hướng công bố quốc tế của 4 nước trên biến đổi ra sao trong thời gian 2005 đến 2014. Để trả lời câu hỏi đó, cách tốt nhất là vẽ biểu đồ “line graph” bằng R.

 

Saturday, November 7, 2015

Vài link có ích

Trong note này tôi sẽ cung cấp một số website có ích trong phân tích dữ liệu. Notes này sẽ cập nhật thường xuyên.


Vẽ đường biểu diễn ROC

ROC là viết tắt từ chữ "Receiver Operating Characteristic", thường được dùng để đánh giá một phương pháp hay một mô hình tiên lượng. Đường biểu diễn ROC gồm có trục tung là độ nhậy, và trục hoành là xác suất dương tính giả (tức lấy 1 trừ cho độ đặc hiệu). Do đó, có thể xem đường biểu diễn ROC là một thước đo dung hoà giữa độ nhậy và tỉ lệ dương tính giả của một mô hình tiên lượng.

Sunday, October 4, 2015

Biểu đồ bánh tằm (spaghetti plot)

Trong các nghiên cứu theo thời gian (prospective study), nhà nghiên cứu thường theo dõi một nhóm cá nhân trong một thời gian, có thể là vài tuần, vài tháng, vài năm. Mỗi cá nhân, do đó, có nhiều giá trị theo thời gian. Mục tiêu là xem xu hướng biến chuyển của biến số theo thời gian cho mỗi cá nhân. Thuật ngữ tiếng Anh gọi biểu đồ này là spaghetti plot, tức "biểu đồ bánh tằm", vì đường biểu diễn giống ... bánh tằm. Chúng ta có thể dùng ggplot2 để đáp ứng mục tiêu này.

Cỡ mẫu để so sánh 2 số trung bình

Đối với nghiên cứu so sánh hai nhóm độc lập với biến kết quả là biến liên tục, tham số quan tâm là hiệu số của hai số trung bình quần thể μ1 và μ2, tức δ = μ1 – μ2. Giả thuyết đặt ra là:

Biểu đồ rừng (forest plot)

Biểu đồ rừng là một dạng biểu đồ hay được dùng trong phân tích tổng hợp để thể hiện [thường là] effect size và khoảng tin cậy 95%. Effect size có thể là odds ratio, relative risk, hay hiệu số giữa hai nhóm cho biến liên tục. Bài này sẽ hướng dẫn cách sử dụng ggplot2 để vẽ biểu đồ rừng qua một ví dụ thực tế dưới đây.

Biểu đồ bong bóng (bubble graph)

Biểu đồ bong bóng là một dạng biểu đồ tương quan, nhưng thay vì dùng "dot" (dấu chấm) thì được thay thế bằng hình bong bóng. Nhưng kích thước của bong bóng có thể phụ thuộc vào một biến thứ 3. Do đó, biểu đồ bong bóng rất có ích để chúng ta xem xét phân bố của dữ liệu. Bài này sẽ trình bày cách vẽ biểu đồ bong bóng bằng ggplot2.

Saturday, October 3, 2015

Nghiên cứu khoa học: chất và lượng

Hôm qua, tôi trình bày kết quả phân tích từ dữ liệu của ISI cho thấy các đại học ViệtNam có nhiều khác biệt về chất lượng nghiên cứu. Theo kết quả này, ĐH TĐT có chỉ số trích dẫn cao nhất so với các đại học khác. Câu hỏi đặt ra là tại sao? Tôi nghĩ có nhiều cách giải thích và hiểu kết quả phân tích trên. Nhưng trước khi giải thích, tôi muốn mượn câu chuyện để nói về bảng xếp hạng đại học 2015 của QS.