Wednesday, February 20, 2013

Trị số P hầu toà

Trong lịch sử khoa học hiện đại, hiếm thấy một trị số nào có ảnh hưởng sâu rộng đến hoạt động khoa học và đời sống như trị số P, thường viết hoa và nghiêng. P là viết tắt chữ Probability – xác suất. Trị số P được sử dụng như là một thước đo chứng cứ khoa học. Vì tính chất chứng cứ, nên mới đây trị số này phải ra toà về một loại thuốc trị cảm cúm. Nhưng rất ít người hiểu rõ ý nghĩa của trị số P là gì. Nhân dịp trị số P ra hầu toà bên Mĩ, có lẽ chúng ta nên tìm hiểu ý nghĩa của trị số này và ảnh hưởng của nó trong cuộc sống kinh tế - xã hội.

Trị số P hầu tòa
Câu chuyện bắt đầu từ một phiên tòa liên quan đến thuốc Zicam. Zicam là một loại kẽm được bào chế để điều trị bệnh cảm cúm. Nhà sản xuất Zicam là công ti dược Matrixx. Thuốc bán khá chạy trên thị trường. Nhưng từ 1999 về sau, nhiều bệnh nhân và bác sĩ để ý thấy thuốc có vài phản ứng phụ đáng kể như cảm giác nóng bừng, có khi mất khứu giác. Các bác sĩ và bệnh nhân báo cho Matrixx biết, nhưng công ti không trả lời và có vẻ lờ đi.
http://graphics8.nytimes.com/images/2011/03/23/business/BIZCOURT/BIZCOURT-articleInline.jpg
Một bác sĩ bức xúc trước thái độ của công ti và xuất hiện trên chương trình truyền hình Good Morning America nói về những phản ứng của thuốc Zicam. Sau đó cổ phần của Matrixx bị giảm trầm trọng. Thế là các nhà đầu tư kiện Matrixx ra toà, vì họ cho rằng Matrixx đã không thành thật báo cáo về phản ứng phụ của thuốc, và việc dấu diếm làm cho họ … mất tiền. Phía công ti Matrixx, họ lí giải rằng những phản ứng phụ đó không có ý nghĩa thống kê (statistically non-significant). Và, theo lí giải của Matrixx, vì không có ý nghĩa thống kê, nên không thể kết luận rằng thuốc là nguyên nhân gây nên những phản ứng đó.
Tuy nhiên, khi ra toà, với một nhân chứng là một nhà kinh tế và cũng là một chuyên gia thống kê, toà phán rằng không thể biện minh rằng có ý nghĩa thống kê là điều kiện để suy luận nhân quả được. Matrixx thua kiện và phải bồi thường rất nhiều tiền cho bệnh nhân và các nhà đầu tư.
Vậy trị số P là gì mà được tòa án quan tâm như thế? Có thể nói rằng trị số P (hay P value) là một trị số rất phổ biến trong khoa học. P là viết tắt chữ probability trong ngữ vựng tiếng Anh, có nghĩa là xác suất. Bất cứ ai từng học đại học, bất cứ ngành nào, từ khoa học tự nhiên đến kinh tế học và khoa học nhân văn, đều phải học qua trị số P. Tuy được học nhiều như thế, nhưng số người thật sự hiểu ý nghĩa của nó thì không nhiều. Trong một cuộc điều tra trên 100 bác sĩ trên 15 năm kinh nghiệm và một số giáo sư đại học (những người đã từng có công bố quốc tế), chỉ có 15% hiểu đúng trị số P, phần còn lại đều hiểu sai!  
Vô tội cho đến khi được chứng minh có tội
Qui trình mà khoa học sử dụng để kiểm định một giả thuyết rất giống với qui trình của bồi thẩm đoàn trong toà án. Nhưng trước khi giải thích phát biểu đó, có lẽ cần phải làm quen với khái niệm giả thuyết vô hiệu (null hypothesis) qua một ví dụ. Bạn là nhà kinh tế học và có một nghi ngờ rằng có sự kì thị giới tính sự bổ nhiệm giám đốc điều hành doanh nghiệp. Nhưng là nhà khoa học, bạn không chỉ “nghi ngờ” mà phải phát biểu thành một giả thuyết cụ thể: trong giới giám đốc doanh nghiệp tỉ lệ nữ giới thấp hơn nam giới.
Nhưng theo Karl Popper (một triết gia khoa học lớn) thì chúng ta không thể chứng minh giả thuyết, mà chỉ bác bỏ một giả thuyết. Để bác bỏ giả thuyết, bạn cần đến một giả thuyết vô hiệu. Giả thuyết vô hiệu, như tên gọi là một phát biểu ngược lại với giả thuyết chính. Trong ví dụ trên, giả thuyết vô hiệu sẽ phát biểu là: trong giới giám đốc doanh nghiệp tỉ lệ nữ giới bằng với nam giới.
Sau đó, bạn sẽ thu thập dữ liệu, có thể là dữ liệu so sánh tỉ lệ nữ giám đốc trong các doanh nghiệp với tỉ lệ ngoài cộng đồng hay một ngành nghề khác. Vấn đề đặt ra là hai tỉ lệ có thật sự khác nhau, và để trả lời câu hỏi này, bạn phải tính trị số P. Nếu trị số P quá nhỏ, bạn có thể bác bỏ giả thuyết bình đẳng (tức giả thuyết vô hiệu). Hầu hết các phương pháp thuyết thống kê được phát triển để bác bỏ giả thuyết vô hiệu.
Qui trình bác bỏ giả thuyết vô hiệu cũng giống như qui trình suy luận của bồi thẩm đoàn trong toà án. Có thể lấy ví dụ song song về tòa án và ảnh hưởng của thuốc Zicam như sau:
  • Bồi thẩm đoàn bắt đầu với giả định rằng nguyên đơn vô tội. Tương tự, nhà khoa học bắt đầu với giả thuyết vô hiệu rằng thuốc Zicam không có tác động phụ;
  • Tòa án cần chứng cứ. Nhà khoa học cần dữ liệu (data). Nhà khoa học làm thí nghiệm (nghiên cứu) để thu thập dữ liệu;
  • Tòa án và bồi thẩm đoàn phải xử lí chứng cứ. Nhà khoa học cũng xử lí dữ liệu bằng phân tích thống kê để đi đến quyết định, và kết quả xử lí dữ liệu thường là trị số P. Trị số P được xem là thước đo về chứng cứ.
  • Bồi thẩm đoàn sẽ quyết định nguyên đơn có tội nếu chứng cứ không phù hợp với giả định vô tội. Tương tự, nếu dữ liệu nghiên cứu không nhất quán với giả thuyết vô hiệu, nhà khoa học sẽ bác bỏ giả thuyết vô hiệu và tuyên bố chấp nhận giả thuyết chính.
Qui trình kiểm định giả thuyết vừa mô tả là một phương pháp trong triết lí phản nghiệm (falsificationism) rất phổ biến và trở thành một mô hình để giải thích sự tiến bộ của khoa học. Chịu ảnh hưởng bởi triết lí này, Ronald A. Fisher (1890 – 1962), một nhà di truyền học người Anh và cũng là “cha đẻ” của nền thống kê học hiện đại, đề xuất một phương pháp định lượng để phản nghiệm một giả thuyết khoa học. Ông gọi phương pháp này là “Test of Significance” (tôi tạm dịch là: phương pháp kiểm định ý nghĩa thống kê). Fisher quan niệm rằng thống kê là một bộ phận quan trọng của phương pháp suy luận theo phép qui nạp (inductive inference), tức là phương pháp suy luận dựa vào quan sát từ các mẫu (sample) và khái quát cho một quần thể (population). Theo Fisher, qui trình phản nghiệm có thể tóm lược như sau:
  • Đề ra một giả thuyết vô hiệu, gọi là H0;
  • Tiến hành thí nghiệm để thu thập dữ liệu, gọi dữ liệu là D;
  • Tính xác suất quan sát D nếu H0 là đúng, tức tính P(D | H0). Đây là trị số P.
Ông đề nghị lấy P = 0.05 như là một ngưỡng để quyết định bác bỏ hay chấp nhận giả thuyết vô hiệu.
Do đó, tiêu chuẩn để bác bỏ giả thuyết vô hiệu là trị số P < 0.05. Khi kết quả có P < 0.05, có thể kết luận rằng mối tương quan giữa Zicam và tác động phụ có ý nghĩa thống kê (tức statistically significance). Một mối tương quan có ý nghĩa thống kê có nghĩa là một mối tương quan đáng chú ý, chứ không phải là hiện tượng ngẫu nhiên. Nếu một thuốc có ảnh hưởng lâm sàng có ý nghĩa thống kê được hiểu rằng đó là hiệu quả thật, chứ không phải là ngẫu nhiên.
Ngược lại nếu P > 0.05, thì mối tương quan không có ý nghĩa thống kê, và chúng ta chấp nhận giả thuyết vô hiệu, tức không có khác biệt. Đây cũng chính là cách lí giải của của công ti Matrixx: vì P > 0.05, nên không thể nói rằng thuốc gây tác hại hay phản ứng phụ. Đã gần một thế kỉ nay, chúng ta được dạy như thế, và chấp nhận cách diễn giải đó.
http://www.economics.soton.ac.uk/staff/aldrich/fisherguide/Doc1_files/image001.gif
Ronald Fisher (người Anh), một nhà di truyền học, nhưng cũng là một "đại thụ", cũng có thể xem là cha đẻ của khoa học thống kê hiện đại. Các z test, r-to-z test, F- test, v.v. mà chúng ta dùng ngày nay là sáng kiến của ông Fisher (mẫu tự F trong F-test là viết tắt của chữ Fisher). Ông này cực kì thông minh (dĩ nhiên), nhưng cũng cực kì khó tính và có khi hẹp hòi. Ông từng làm cố vấn cho công ti thuốc lá và dùng khả năng thống kê của ông để biện minh rằng hút thuốc lá chẳng gây ung thư phổi!  Về khoản này (thuốc lá và ung thư phổi) thì ông sai hoàn toàn. 

Nhưng trị số P rất dễ bị hiểu lầm. Một trong những hiểu lầm phổ biến nhất là trị số P phản ảnh xác suất của một giả thuyết. Trong ví dụ trên vì giả thuyết là không có ảnh hưởng của thuốc, nên nếu P = 0.03 thì được hiểu là xác suất của giả thuyết không có ảnh hưởng là 3% (hoặc xác suất của giả thuyết có ảnh hưởng là 97%). Nhưng cách hiểu đó sai.
Nếu xem xét kĩ qui trình trên, chúng ta dễ dàng thấy rằng trị số P phản ảnh xác suất của dữ liệu nếu giả thuyết vô hiệu là đúng (chứ không hề phản ảnh xác suất của giả thuyết vô hiệu). Nếu gọi dữ liệu là D, và giả thuyết vô hiệu là H, trị số P chính là (chú ý dấu | có nghĩa là “với điều kiện”, và P là xác suất):
P(D | H)
Chứ không phải:
P(H)

P(H) là xác suất không có điều kiện, còn xác suất P(D | H) là xác suất có điều kiện. Trị số P không phải là P(H), mà là P(D | H). Nói cách khác, trị số P là một xác suất có điều kiện. Do đó, trị số P ý nghĩa khá … lắt léo. Trong thực tế, chúng ta muốn biết “với dữ liệu có được thì xác suất thuốc gây ảnh hưởng là bao nhiêu” (cũng giống như nếu kết quả xét nghiệm là dương tính, thì xác suất tôi thật sự mắc bệnh là bao nhiêu). Chúng ta không cần biết “nếu giả thuyết không ảnh hưởng là đúng thì khả năng dữ liệu xảy ra là bao nhiêu” (nếu tôi mắc bệnh thì xác suất tôi có kết quả dương tính là bao nhiêu). Ấy thế mà trị số P trả lời câu hỏi thứ hai. Do đó, trị số P cung cấp cho chúng ta một thông tin chúng ta không cần biết!
Do đó, cách lí giải của Matrixx (vd: vì P > 0.05 nên không thể nói rằng thuốc có ảnh hưởng) là không đúng. Giả dụ như P = 0.10, thì Matrixx không thể nói rằng khả năng thuốc không có ảnh hưởng phụ là 10%, bởi vì ý nghĩa thật có nó là: nếu không có ảnh hưởng phụ thì xác suất mà dữ liệu xảy ra là 10%.
Có lẽ nói không ngoa rằng trị số P là một con số phổ biến nhất trong khoa học từ khoảng 100 năm qua.  Hầu hết các bài báo khoa học đều trình bày trị số P như hàm ý nâng cao tính khoa học và độ tin cậy của bài báo.  Tuy nhiên, ngay từ lúc mới “ra đời”, trị số P đã bị phê bình dữ dội.  Một trong những phê bình là trị số P không phản ảnh giá trị mà chúng ta cần biết (trong trường hợp Matrixx, chúng ta cần biết thuốc có tác động phụ hay không). Ngoài ra, rất dễ có một kết quả có ý nghĩa thống kê (P < 0.05) nếu nhà nghiên cứu chịu khó tăng số cỡ mẫu hay làm thí nghiệm rất nhiều lần. Cách chọn ngưỡng 0.05 cũng là một cách làm tùy tiện, và dẫn đến nhiều hệ quả bất lợi cho khoa học, kể cả gian dối trong phân tích dữ liệu.
Rất nhiều lần đi dự hội nghị khoa học bên Việt Nam (và nhiều nơi khác ở Á châu) tôi thấy “rầu” khi diễn giả tỏ ra “nô lệ” với trị số P. Họ thường nhầm lẫn rằng hễ kết quả nào có trị số P < 0.05 là “có ý nghĩa” hay “có ảnh hưởng”, còn P > 0.05 – thậm chí 0.051 – họ suy luận rằng “không có ảnh hưởng”. Suy luận này dần dần trở thành quán tính, nó làm cho người ta lười suy nghĩ, không xem xét gì đến giả thuyết khoa học và các chứng cứ khác. Nhưng muốn thay một văn hoá trị số P không phải dễ chút nào. Mỗi lần nói chuyện với các bạn trong nước là mỗi lần phải thuyết phục họ rằng trị số P không quan trọng như họ tưởng, nhưng họ nói các thầy cô dạy P < 0.05 là “có ý nghĩa”, cái nào P > 0.05 là bỏ qua (có người còn không chịu trình bày kết quả với P > 0.05), làm tôi rất ngạc nhiên và bất ngờ. Cần phải thay đổi cách dạy như thế, nhất là trong thế giới y học.
Các tập san khoa học cũng bắt đầu “mệt” với trị số P. Trước đây, khi tập san Epidemiology (rất nổi tiếng một thời) có tổng biên tập mới là K. Rothman, việc đầu tiên ông này làm là tẩy chay trị số P. Bài báo nào báo cáo trị số P là bị ông ấy bác bỏ hay bắt phân tích / trình bày lại. Sau một năm thực hiện “luật Rothman” thì số bản thảo đệ trình cho tập san giảm rõ rệt. Kết quả là ông Rothman bị yêu cầu nghỉ trước nhiệm kì! Mới đây, khi tôi được bầu vào Publication Committee của ASBMR, tôi được giao nhiệm vụ soạn thảo bản guidelines cho tập san Journal of Bone and Mineral Research. Cơ hội tới tay, nên tôi viết rõ rằng nếu tác giả nào lệ thuộc vào trị số P thì bài báo sẽ bị từ chối, rằng tập san sẽ không chào đón những bài báo chỉ dựa vào trị số P để kết luận. Chưa biết sắp tới tôi sẽ bị cho ra khỏi Committee hay là sao, nhưng phải thử một phen cho biết.
Có người cho rằng việc ứng dụng trị số P trong suy luận khoa học là một bước lùi, là một sự thoái hóa của khoa học, nên đề nghị không sử dụng trị số này trong nghiên cứu khoa học.  Nhưng dù chịu nhiều chỉ trích và phê bình, ứng dụng phương pháp kiểm định giả thuyết và trị số P vẫn còn phổ biến trong khoa học và tòa án, đơn giản vì chúng ta chưa có một phương pháp khác tốt hơn, hay hợp lí hơn, hay đơn giản hơn.  Vấn đề không phải là xóa bỏ trị số P khỏi khoa học và tòa án (vì chuyện này khó xảy ra), nhưng cần phải diễn giải trị số P đúng theo ý nghĩa thật của nó cũng như những hạn chế về logic.
http://nguyenvantuan.net/science/4-science/1649-tri-so-p-hau-toa-

No comments: