الإحصاء الإستدلالي Inferential Statistics

نظرة عامة

 

الإحصاء الإستدلالي

Inferential Statistics

الإحصاء الوصفي يقوم كما يوحي الاسم بوصف مجموعة البيانات فقط ولكنه لا يعطينا أي استدلال (استنتاج) عن الفرضية الأساسية Null Hypothesis، أو بمعنى آخر لا يرينا الفرق بين المجموعات في حالة وجود فرق، ونادراً ما يتاح لنا عند إجراء البحوث الطبية والصيدلانية القيام بتقييم كل مجتمع population المرضى، ونستعيض عن ذلك بدراسة عينة sample من هؤلاء المرضى، وبعد ذلك تتم محاولة التقدير الإستقرائي extrapolation لنتائج العينة باستخدام الإحصاء الاستدلالي بواسطة القيام بإجراء الاختبارات الإحصائية المعنوية Tests of Significance لمعرفة ما إذا كانت نتائج العينة تماثل النتائج التي يحتمل أن نصادفها في مجتمع المرضى بأكمله.

 

الفرضية الأساسية: Null Hypothesis (Ho)

يمكننا القيام باستدلال إحصائي عن مجتمع population من مجتمعات المرضى باستخدام معلومات العينة sample، والقيم التي نحصل عليها من العينة نطلق عليها اسم "قيمة إحصائية" statistic ونرمز لها برموز مكونة من أحرف إنجليزية مثل المتوسط () والانحراف المعياري "s" أما القيم التقديرية للمجتمع فنطلق عليها اسم "مؤشرات" أو "بارامترات" parameters ونرمز لها برموز إغريقية مثل متوسط المجتمع "µ" والانحراف المعياري "σ"، وتختلف القيمة الإحصائية من عينة لأخرى، حتى في العينات التي تم سحبها من نفس المجتمع بطريقة عشوائية، فعلى سبيل المثال، لو سحبنا عينة من 100 شخص من مجتمع كبير وحسبنا إحدى القيم الإحصائية كالمتوسط مثلاً، ثم أعدنا سحب عينة أخرى من نفس المجتمع عشوائياً وقمنا بحساب المتوسط، وأعدنا هذه العملية عشرات المرات، فإننا لن نحصل على نفس قيمة المتوسط في كل مرة، ويمكننا الحصول على توزيع تكراري Frequency distribution  من هذه المتوسطات.

عادةً ما نرغب في مقارنة مجموعتين أو أكثر من المجموعات العلاجية باستخدام عينات تمثل هذه المجموعات، فمثلاً قد نقوم بمقارنة معدل الشفاء من أحد الالتهابات البكتيرية باستخدام نوعين مختلفين من المضادات الحيوية، أو مقارنة درجة تخفيف الألم بعد تناول أحد ثلاثة أدوية مسكنة للألم. لهذا الغرض نستخدم أحد الاختبارات الإحصائية statistical tests المناسبة لكي نعرف ما إذا كان الفرق بين هذه المجموعات هو فرق ناجم عن الصدف chance أو أنه فرق حقيقي real difference. والخطوة الأولى لإجراء أي اختبار إحصائي هو صياغة "الفرضية الأساسية" Null Hypothesis (Ho) والتي تنص دوماً على "أنه لا يوجد فرق حقيقي بين المجموعات، وأي فرق هو نتيجة للخطأ في أخذ العينة". أما الفرضية البديلة Alternative Hypothesis ونرمز لها بالرمز HA أو H1 فتنص على "أن  هناك فرقاً حقيقياً بين المجموعات"، وقد تم تصميم الاختبارات الإحصائية لرفض Reject الفرضية الأساسية مما يسمح بقبول Accept الفرضية البديلة، فعلى سبيل المثال، لو أن باحثاً رغب في مقارنة دواء مسكن analgesic بدواء وهمي "دواء شبيه" placebo فإن فرضيته الأساسية ستكون أن الدواء المسكن والدواء الوهمي متكافئان في تأثيرهما المسكن (أي لا فرق بينهما). وبعد إجراء الدراسة وأخذ البيانات تبين أن تأثير الدواء المسكن كان أكبر من تأثير الدواء الوهمي في خفض الألم، وكانت نتيجة إجراء الاختبار الإحصائي المناسب هي رفض الفرضية الأساسية، لذلك نستنتج أن الفرق بين الدوائين هو فرق حقيقي وليس نتيجة للصدفة. أما إذا فشل الاختبار الإحصائي في رفض الفرضية الأساسية، فإن ذلك يعني أن الفرق هو نتيجة للصدفة وليس فرقاً حقيقياً. ولا يوجد اختبار إحصائي بمقدوره قبول الفرضية الأساسية بتأكيد مطلق إذ أن أي اختبار إحصائي لا يزودنا بتقييم مطلق لوجود أو عدم وجود العلاقة بين السبب cause والتأثير effect، ولكنه يتيح لنا تقدير احتمالية probability اتخاذ القرار الصحيح من ناحية رفض أو عدم رفض الفرضية الأساسية. وهناك نوعان من أنواع الخطأ error يمكن ارتكابهما في محاولة الوصول إلى القرار الصحيح بشأن الفرضية الأساسية (الجدول 1.8)، وهما كالتالي:

 

  • خطأ النوع الأول Type I error: ويتمثل هذا الخطأ في أننا قد نرفض الفرضية الأساسية في الوقت الذي تكون فيه صحيحة وكان يجب علينا عدم رفضها. ويدعى هذا الخطأ أيضاً "خطأ ألفا" α-error.
  • خطأ النوع الثاني Type II error: ويتمثل هذا الخطأ في أننا قد لا نرفض الفرضية الأساسية في الوقت الذي كان يجب علينا رفضها لأنها غير صحيحة. ويدعى هذا الخطأ أيضاً "خطأ بيتا" β-error.

وينتج الخطأ الأول لأسباب عديدة وأهمها سبب رئيسي واحد وهو استخدام الاختبار الإحصائي الخاطئ لتحليل البيانات ومعرفة الفروقات بين المجموعات. أما الخطأ الثاني فإنه ينتج عن استخدام حجم عينة sample size صغير. كما أن بعض الاختبارات الإحصائية أقوى من غيرها في التعرف على الفروقات بين المجموعات. ويمكننا تعريف "قوة الاختبار الإحصائي Statistical power" على أنها "قدرة الاختبار الإحصائي على رفض الفرضية الأساسية عندما تكون غير صحيحة ويجب رفضها". ويمكن تعريف "القوة" أيضاً بالمعادلة التالية:

 

Power =1-β

 

حيث أن β كما أسلفنا هي مقدار خطأ النوع الثاني وتبلغ في العادة (0.8). وكقاعدة عامة، فإن قوة الاختبار الإحصائي تزداد بزيادة حجم العينة sample size.

 

الجدول 1.8: تفسير النتائج المحتملة من التحليل الإحصائي:

النتيجة التي أظهرها الاختبار الإحصائي

النتيجة الحقيقية

لا يوجد فرق معنوي بين المجموعات

يوجد فرق معنوي                       بين المجموعات

لا يوجد فرق معنوي بين المجموعات لذلك لا نرفض الفرضية الأساسية

نتيجة صحيحة

 (قرار سليم)

خطأ النوع الأول

 Type I error

 (نتيجة موجبة زائفة)

يوجد فرق معنوي بين المجموعات لذلك نرفض الفرضية الأساسية

خطأ النوع الثاني

Type II error

(نتيجة سلبية زائفة)

نتيجة صحيحة

(قرار سليم)

 

 

أنواع الإحصاء الاستدلالي:

تتطلب جميع اختبارات الإحصاء الاستدلالي معرفة الأمور التالية قبل الشروع في اختيار الاختبار الإحصائي المناسب:

  • نوع البيانات data type (أي، بيانات اسمية Nominal، أو ترتيبية ordinal، أو بيانات الفترة Interval، أو بيانات النسبة Ratio).
  • التوزيع distribution الذي تنتمي إليه البيانات (هل هي موزعة توزيعاً طبيعياً Normally distributed أو غير ذلك؟).
  • عدد مجموعات أو عينات الدراسة Number of groups or samples.
  • نوع العينات (المجموعات)، (هل هي عينات مستقلة independent أو عينات مرتبطة dependent or paired).

ويمكن التعرف على جميع النقاط السابقة بسهولة تامة ما عدا معرفة نوع التوزيع الذي تنمي إليه البيانات، إذا نحتاج في بعض الأحيان إلى إجراء بعض الاختبارات الإحصائية الخاصة بذلك، ولن نخوض في تفاصيل كثيرة هنا حول هذا الموضوع إذ أن بإمكان القارئ الرجوع إلى الكتب المتخصصة في هذا المجال، ولكن أهم الاختبارات الإحصائية التي يمكننا إجراؤها لمعرفة ما إذا كان توزيع البيانات توزيعاً طبيعياً هي ما يلي:

 

  • إختبار "شابيرو- ويلك" Shapiro-Wilk test.
  • إختبار "كولموغوروف-سميرنوف" Kolmogorov-smirnov test.
  • إختبار ليليفورز Lilliefors test.
  • إختبار أندرسون-دارلنج Anderson-Darling test.
  • إختبار رايان-جوينر  Ryan-Joiner test.
  • إختبار جاك-بيرا Jarque-Bera test.
  • منحنى الإحتمالية الطبيعية.

 

هناك نوعان من أنواع الإحصاء الإستدلالي هما:

  1. الاختبارات الإحصائية المقياسية Parametric tests:

تستخدم هذه الاختبارات عندما تكون البيانات من النوع الكمي (أي بيانات الفترة أو النسبة) وتكون هذه البيانات موزعة توزيعاً طبيعياً.

  1. الاختبارات الإحصائية اللامقياسية Nonparametric tests:

تستخدم هذه الاختبارات عندما تكون البيانات الكمية غير موزعة توزيعاً طبيعياً، كما يمكن استخدام بعضها في حالة البيانات الإسمية والبيانات الترتيبية والتي لا تنطبق عليها معايير الإحصاء المقياسي.

ماذا تعني قيمة p:

دائما ما نطالع في المنشورات الصيدلانية والطبية ذكراً لقيمة p (p-value) مع اهتمام كبير بهذا الحرف الصغير وهذه القيمة دون فهم حقيقي لمعناها الصحيح. لقد جرى العرف على أخذ قيمة (0.05) كأكبر قيمة لها. وتمثل هذه القيمة احتمالية probability ارتكاب خطأ النوع الأول Type I error  وذلك عند رفض الفرضية الأساسية في الوقت الذي كان يجب فيه عدم رفضها، وعند الحصول على قيمة p أصغر من 0.05 (أي p<0.05) فإننا نستنج في هذه الحالة أن الفرق بين مجموعات الدراسة له دلالة إحصائية هام (أي فرق معنوي) Statistically Significant Difference وعندما تكون قيمة p أكبر من 0.05 (أي p>0.05) فإننا نستنتج أن الفرق بين مجموعات الدراسة ليست له دلالة إحصائية وأنه غير هام (أي أن الفرق غير معنوي إحصائياً) Statistically Insignificant، وأن هذا الفرق الملحوظ بين المجموعات ليس فرقاً حقيقياً وإنما حدث بالصدفة.

إن الحصول على قيمة p أقل من 0.05 (أي أن الفرق بين المجموعات هو فرق حقيقي) لا يثبت بالضرورة أن دواء معيناً أفضل من غيره إذا كنا نعقد هذه المقارنة بين دوائين، فقيمة p الصغيرة هذه تعني وبمنتهى البساطة أنه من غير المحتمل أن الفرق الملحوظ بين الدوائين كان نتيجة للصدفة chance، ولذلك فإنه من المحتمل أن يكون الفرق نتيجة لعوامل أخرى. لذلك يصبح من الضروري القيام بتقييم دقيق لأهداف الدراسة والطرائق التي اتبعها الباحث، فإذا تأكدنا أن الفرق الملحوظ لم يكن نتيجة للصدفة (p<0.05) وأن هذا الفرق لم يكن نتيجة لبعض الهفوات في طريقة الدراسة، فإننا في هذه الحالة نستطيع افتراض وجود فرق بين الدوائين.

وسوم :

تحليل احصائي بحوث ودراسات محلل احصائي