Thursday, November 19, 2015

Công bố quốc tế 2005-2014 của Mĩ, Nhật, Tàu, và Hàn

Tôi mới đọc một báo cáo của UNESCO về khoa học đến năm 2030, và thấy có vài dữ liệu thú vị để làm bài tập vẽ biểu đồ. Vấn đề đặt ra là xu hướng công bố quốc tế của 4 nước trên biến đổi ra sao trong thời gian 2005 đến 2014. Để trả lời câu hỏi đó, cách tốt nhất là vẽ biểu đồ “line graph” bằng R.

 

Saturday, November 7, 2015

Vài link có ích

Trong note này tôi sẽ cung cấp một số website có ích trong phân tích dữ liệu. Notes này sẽ cập nhật thường xuyên.


Vẽ đường biểu diễn ROC

ROC là viết tắt từ chữ "Receiver Operating Characteristic", thường được dùng để đánh giá một phương pháp hay một mô hình tiên lượng. Đường biểu diễn ROC gồm có trục tung là độ nhậy, và trục hoành là xác suất dương tính giả (tức lấy 1 trừ cho độ đặc hiệu). Do đó, có thể xem đường biểu diễn ROC là một thước đo dung hoà giữa độ nhậy và tỉ lệ dương tính giả của một mô hình tiên lượng.

Sunday, October 4, 2015

Biểu đồ bánh tằm (spaghetti plot)

Trong các nghiên cứu theo thời gian (prospective study), nhà nghiên cứu thường theo dõi một nhóm cá nhân trong một thời gian, có thể là vài tuần, vài tháng, vài năm. Mỗi cá nhân, do đó, có nhiều giá trị theo thời gian. Mục tiêu là xem xu hướng biến chuyển của biến số theo thời gian cho mỗi cá nhân. Thuật ngữ tiếng Anh gọi biểu đồ này là spaghetti plot, tức "biểu đồ bánh tằm", vì đường biểu diễn giống ... bánh tằm. Chúng ta có thể dùng ggplot2 để đáp ứng mục tiêu này.

Cỡ mẫu để so sánh 2 số trung bình

Đối với nghiên cứu so sánh hai nhóm độc lập với biến kết quả là biến liên tục, tham số quan tâm là hiệu số của hai số trung bình quần thể μ1 và μ2, tức δ = μ1 – μ2. Giả thuyết đặt ra là:

Biểu đồ rừng (forest plot)

Biểu đồ rừng là một dạng biểu đồ hay được dùng trong phân tích tổng hợp để thể hiện [thường là] effect size và khoảng tin cậy 95%. Effect size có thể là odds ratio, relative risk, hay hiệu số giữa hai nhóm cho biến liên tục. Bài này sẽ hướng dẫn cách sử dụng ggplot2 để vẽ biểu đồ rừng qua một ví dụ thực tế dưới đây.

Biểu đồ bong bóng (bubble graph)

Biểu đồ bong bóng là một dạng biểu đồ tương quan, nhưng thay vì dùng "dot" (dấu chấm) thì được thay thế bằng hình bong bóng. Nhưng kích thước của bong bóng có thể phụ thuộc vào một biến thứ 3. Do đó, biểu đồ bong bóng rất có ích để chúng ta xem xét phân bố của dữ liệu. Bài này sẽ trình bày cách vẽ biểu đồ bong bóng bằng ggplot2.

Saturday, October 3, 2015

Nghiên cứu khoa học: chất và lượng

Hôm qua, tôi trình bày kết quả phân tích từ dữ liệu của ISI cho thấy các đại học ViệtNam có nhiều khác biệt về chất lượng nghiên cứu. Theo kết quả này, ĐH TĐT có chỉ số trích dẫn cao nhất so với các đại học khác. Câu hỏi đặt ra là tại sao? Tôi nghĩ có nhiều cách giải thích và hiểu kết quả phân tích trên. Nhưng trước khi giải thích, tôi muốn mượn câu chuyện để nói về bảng xếp hạng đại học 2015 của QS.


Ước tính cỡ mẫu để so sánh 2 tỉ lệ

Trong nhiều nghiên cứu, mục tiêu là so sánh tỉ lệ giữa hai nhóm. Chẳng hạn như một nghiên cứu lâm sàng đối chứng ngẫu nhiên (RCT) so sánh tỉ lệ mắc bệnh giữa nhóm chứng và nhóm điều trị. Gọi tỉ lệ mắc bệnh của hai nhóm là π1 và π2, và tham số mà chúng ta quan tâm là hiệu số δ = π1 – π2.  Để kiểm định giả thuyết vô hiệu π1 = π2, chúng ta sẽ ước tính 2 tỉ lệ p1 và p2 từ mẫu nghiên cứu n1n2 đối tượng. Kiểm định z cho 2 tỉ lệ là:

Ước tính cỡ mẫu để ước tính một tỉ lệ

Nhiều nghiên cứu có mục đích đơn giản là ước tính tỉ lệ. Chẳng hạn như các cuộc điều tra xã hội muốn biết bao nhiêu người thích hay không thích một đảng phái chính trị hay một món hàng, hoặc nghiên cứu y tế có mục đích ước tính tỉ lệ hiện hành (prevalence) của một bệnh. 

Biểu đồ sống sót (survival graph)

Trong phân tích sống còn hay phân tích sự kiện (survival analysis), việc thể hiện dữ liệu bằng biểu đồ có khi khá nan giải. Trong R có vài hàm có thể giúp chúng ta thể hiện dữ liệu sống còn với chất lượng cao. Trong bài này tôi sẽ giới thiệu các hàm đó.

Friday, October 2, 2015

Biểu đồ tương quan (scatter plot)

Để mô tả mối tương quan giữa hai biến liên tục, biểu đồ tán xạ (scatter plot) rất có ích. Bài này giới thiệu những hàm R phổ biến để thể hiện mối tương quan.

Biểu đồ phân bố (histogram)

Biểu đồ phân bố là một cách mô tả các biến liên tục (continuous variables) rất hữu hiệu. Trong R có nhiều hàm để vẽ biểu đồ phân bố, và bài này sẽ trình bày các hàm phổ biến.

Biểu đồ hộp

Dưới đây là dữ liệu trích từ một nghiên cứu (n = 1500 cá nhân). Chúng ta sẽ sử dụng dữ liệu này để minh hoạ một số biểu đồ phổ biến trong khoa học. Bài này sẽ hướng dẫn cách vẽ biểu đồ hộp (box plot) để trả lời một số câu hỏi nghiên cứu mang tính mô tả.

Thursday, October 1, 2015

Biểu đồ thanh với số trung bình

Biểu đồ thanh (barplot) cũng có thể sử dụng để mô tả một biến số liên tục. Chẳng hạn như số liệu dưới đây (trích từ dữ liệu PISA) về điểm môn toán (PV1MATH) của mỗi học sinh phân theo vùng và địa phương (Group). Mục tiêu là vẽ biểu đồ điểm trung bình cho từng vùng & địa phương. Bài này sẽ hướng dẫn cách vẽ bằng cách dùng ggplot2.

Thể hiện tần số bằng barplot

Giả dụ rằng chúng ta có một dữ liệu như sau:

School = c("A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "B", "B", "B", "B", "B", "B", "C", "C", "C", "C", "C", "C", "D", "D", "D", "D", "D", "D", "D", "D", "D", "D", "E", "E", "E", "E", "E", "E", "E", "F", "F", "F", "F", "G", "G", "G", "G", "G", "G", "G", "H", "H", "H", "H")

Biểu đồ thanh (barplot)

Thỉnh thoảng, chúng ta có một dữ liệu đơn giản và muốn thể hiện bằng một biểu đồ để dễ nhìn hơn. Trong R có hàm giúp chúng ta đạt mục đích này rất đơn giản. Bài này sẽ giới thiệu vài hàm cơ bản. Để bắt đầu, tôi muốn giới thiệu dữ liệu về chiều cao và cân nặng của hoa hậu Việt Nam:

Giới thiệu ggplot2

Đây là một bài giảng về giới thiệu ggplot2 đến bạn đọc. Theo tôi thấy, ggplot2 là một software rất quan trọng cho phân tích biểu đồ. Do đó, các bạn cần phải tìm hiểu và tập sử dụng cho quen. Tôi hi vọng bài này sẽ giúp ích phần nào cho việc học tập của các bạn.  Vì không biết cách upload một bài powerpoint lên blog, nên tôi dùng hình ảnh là chủ yếu.


Bảng xếp hạng đại học QS Top 100

Trong note này tôi sẽ dùng R để “đọc” bảng xếp hạng đại học top 100 của nhóm QS. Dữ liệu là trong excel file như sau:


Vẽ biểu đồ tán xạ chồng lên nhau

Một bạn đọc viết thư hỏi làm sao vẽ biểu đồ tán xạ (scatterplot) chồng lên nhau. Số liệu là nhiệt độ thu thập từ 2 địa điểm BC và CO cho 12 tháng như sau:

Thang = 1:12
BC = c(15.5, 21.5,20.6,23.6,26.4,29.2,29,29.3,28.4,25.9,20.8,18.8)
CO = c(14.9,21,20,23,26.1,28.8,28.7,29.1,20.2,25.6,20.4,18.2)

Saturday, September 12, 2015

Biểu đồ tương quan và text: Công bố quốc tế và bằng sáng chế

Bảng số liệu dưới đây trình bày số bài báo khoa học công bố trong thời gian 2010-2014 (papers) và số bằng sáng chế tính từ 1976 đến 2015 (số liệu USPTO do Ts Lê Văn Út cung cấp) của vài nước Á châu là dưới đây.