العينات المستقلة Independent samples والعينات المرتبطة أو المزدوجة Dependent or paired samples

نظرة عامة

أنواع العينات:

هناك نوعان من العينات هما: العينات المستقلة Independent samples والعينات المرتبطة أو المزدوجة Dependent or paired samples:

  • العينات المستقلة Independent samples: ومثالها تقسيم عينة الدراسة إلى مجموعتين وإعطاء الدواء A للمجموعة الأولى وإعطاء الدواء B للمجموعة الثانية، ففي هذه الحالة لا علاقة للمجموعتين ببعضهما البعض، وكل منهما مستقلة عن الأخرى، أي أنه لاتوجد إلا درجة واحدة من القياس لكل فرد في المجموعة.
  • العينات المرتبطة أو المزدوجة paired (dependent) sample: ومثالها تقسيم العينة إلى مجموعتين وإعطاء المجموعة الأولى الدواء A ثم إعطاء الدواء B للمجموعة الثانية. وبعد فترة غسيل (انقطاع) مناسبة washout تعطي المجموعة الأولى الدواء B ثم تعطي المجموعة الثانية الدواء A. وهكذا فإن كل فرد في المجموعتين يكون قد تناول الدوائين، وبالتالي يكون لكل فرد درجتين من القياس.

 

إن استخدام العينات المرتبطة أفضل من استخدام العينات المستقلة في كثير من الأحوال وكلما سمحت الدراسة بذلك، ففيها يتم دراسة الشخص الواحد تحت ظرفين مختلفين أو أكثر، وبالتالي يتم فيها التخلص من التباين الذاتي Intraindividual variability ولكن لا يتم التخلص من التباين بين الأفراد Interindividual variability أما في العينات المستقلة فلا يتم التخلص من هذين النوعين من التباين.

 

فيما يلي من سطور سوف نقوم بشرح أهم النقاط الأساسية في الإحصاء الحيوي المستخدمة في معظم الدراسات الإكلينيكية. وشرحنا هذا لن يكون بديلاً عن الرجوع إلى أحد الكتب المتخصصة في الإحصاء الحيوي، ونفترض أيضاً أن لدى القارئ إلمام مسبق بهذا الموضوع لأن هذا الفصل سوف يتجاهل الكثير من الأمور البسيطة والتي نفترض معرفة القارئ بها. لذلك فإن هذا الفصل لا يحتوي إلا على معلومات مختصرة من شأنها تذكير القارئ بالإحصاء الحيوي على شكل نقاط محددة.

ينقسم الإحصاء الحيوي إلى نوعين رئيسيين هما:

  • الإحصاء الوصفي Descriptive statistics
  •  الإحصاء الاستدلالي Inferential statistics

 

أولاً:    الإحصاء الوصفي Descriptive statistics

يستخدم الإحصاء الوصفي للحصول على ملخصات للبيانات من شأنها وصف بيانات العينة. وينقسم الإحصاء الوصفي إلى نوعين هما:

  • مقاييس النزعة المركزية Measures of Central Tendency.
  • مقاييس التشتت (التباين) Measures of Dispersion (Variability)

 

أ  -مقاييس النزعة المركزية Measures of Central Tendency:

هي طريقة بسيطة ومناسبة لتلخيص البيانات للحصول على قيمة واحدة تمثل مجموعة من القياسات. وحيث أن هذه القيمة تنزع لأن تكون في منتصف مجموعة البيانات فقد أطلق عليها اسم مقاييس النزعة المركزية. وهذه المقاييس هي المتوسط والوسيط والمنوال.

1  -المتوسط (Average) Mean:

  • يدعى المتوسط الحسابي في كثير من الأحيان، لتميزه عن أنواع المتوسطات الأخرى.

ويستخدم هذا المقياس مع البيانات الكمية فقط، ولكن من أهم عيوبه أنه يتأثر بالقيم الناشزة outliers وهي القيم المتطرفة extreme values.

 

2  -الوسيط Median:

هو القيمة الوسطى في مجموعة من البيانات مرتبة ترتيباً تصاعدياً أو تنازلياً، أي أنها القيمة التي يسبقها في الترتيب نصف البيانات ويعقبها النصف الآخر. ويستخدم هذا المقياس مع البيانات الكمية في الغالب، ولكن يمكن استخدامه مع البيانات الترتيبية إذا كان عدد الفئات فيها كبير نسبياً، ومن أهم مميزاته أنه لا يتأثر بالقيم الناشزة.

 

3  -المنوال Mode:

هو القيمة الأكثر تكراراً في مجموعة من البيانات. وقد لا يوجد المنوال في إحدى المجموعات، ولكن قد يتوفر أكثر من منوال في مجموعات أخرى وتسمى المجموعة في هذه الحالة ثنائية المنوال Bimodal. ونظراً لعدم استقرار المنوال لا يتم استخدامه كمقياس للنزعة المركزية بشكل واسع.

 

ب  -  مقاييس التشتت (التباين) (variability) Measures of Dispersion: بالرغم من أن مقاييس النزعة المركزية تمدنا بمعلومات مفيدة عن توزيع البيانات، إلا أنها لا تعطينا معلومات عن كيفية تباين البيانات، ومثال ذلك، إذا كان لدينا مجموعتين من البيانات كالتالي:

 

        المجموعة الأولى: 70   80   100   120   130   المتوسط = 100

        المجموعة الثانية: 80   90   100   110   120          المتوسط = 100

 

        بالنظر إلى المتوسط في المجموعتين، قد يستنتج المرء أن المجموعتين غير مختلفتين. صحيح أن للمجموعتين نفس المتوسط، ولكن الفحص الدقيق للبيانات في المجموعتين يكشف أن تشتت أو تباين البيانات في المجموعتين مختلف. ولهذا من الضروري إيجاد مقياس لوصف التشتت أو التباين. والمقاييس المستخدمة لهذا الغرض هي المتباين variance، والانحراف المعياري standard deviation، والمدى range، ومعامل التباين coefficient of variation.

 

1  -المدى Range:

        هو الفرق بين القيمة القصوى maximum والقيمة الصغرى minimum في مجموعة من البيانات.

 

2  -الإنحراف المعياري Standard Deviation:

هو أهم مقاييس التشتت على الإطلاق، وسوف تتضح أهميته في الإحصاء الاستدلالي. وهو مقياس لدرجة التشتت لبيانات العينة حول متوسط هذه العينة. ونستطيع حسابه باتباع الخطوات الستة التالية:

  • إحسب المتوسط.
  • إحسب قيمة الفرق بين البيانات والمتوسط
  • قم بتربيع هذا الفرق
  • إجمع مربعات الفروق لجميع البيانات،
  • إقسم المجموع من الخطوة السابقة على عدد البيانات مطروحاً منه واحد لتحصل على متوسط مجموع المربعات (وسوف نطلق على هذه القيمة فيما بعد اسم المتباين Variance).
  • خذ الجذر التربيعي لهذه القيمة فتحصل على الانحراف المعياري.

 

وهذه المعادلة هي معادلة اشتقاق الانحراف المعياري، ويمكننا تحويل هذه المعادلة إلى معادلة أنسب وهي التي نستعملها مباشرة لحساب الانحراف المعياري،

والجزء العلوي من المعادلة (البسط) يسمى مجموع المربعاتsum of squares، والجزء السفلي (المقام) يسمى درجات الحرية degrees of freedom. ويعتبر الانحراف المعياري مفيداً في حالة البيانات ذات التوزيع الطبيعي normal distribution، حيث أنه في أي مجموعة بيانات موزعة توزيعاً طبيعياً تقع 68.27% من البيانات في مجال (±إنحراف معياري واحد)، و 95.45% من البيانات في مجال (±إنحرافين معياريين)، و 99,73% من البيانات في مجال (± ثلاثة إنحرافات معيارية).

3 -المتباين Variance:

وهو مربع الانحراف المعياري كما ذكرنا سابقاً، ويستخدم بكثرة في الإحصاء الاستدلالي.

 

4  -الخطأ المعياري للمتوسط Standard error of the mean:

ويرمز له بالرمز SEM وأحيانا ، ويمكن حسابه من الإنحراف المعياري مباشرة وذلك بتقسيم هذا الأخير على الجذر التربيعي لحجم العينة

وهو دائماً أصغر من الإنحراف المعياري، ويمثل دقة أو مصداقية العينة حيث أنه يرتبط ارتباطاً وثيقاً بالمجتمع population الذي تم سحب العينة منه. وهو يقيس مقدار الخطأ في تقدير متوسط المجتمع بواسطة متوسط العينة. ويستخدم الخطأ المعياري للمتوسط في حساب فترة الثقة confidence interval، وفي الإحصاء الاستدلالي.

 

وقبل أن ننتقل إلى الشرح المختصر للإحصاء الاستدلالي، يجب علينا التعرف على بعض المقاييس الأخرى وبعض النقاط الإحصائية الهامة مثل فترة الثقة، والمعنوية الإحصائية، والتوزيع الطبيعي، وقيمة مستوى الإحتمالية ألفا ()، وقيمة p الإحتمالية p-value، وأنواع الخطأ الإحصائي.

 

التوزيع الطبيعي Normal Distribution:

عندما يكون لدينا عدد كبير من البيانات في مجموعة واحدة مثل بيانات الطول أو الوزن أو قياسات ضغط الدم وغيرها من البيانات الكمية التي تم أخذها من مجتمع معين بطريقة عشوائية، ثم نقوم برسمها على شكل منحنى تكراري Frequency Curve فإننا نلاحظ أن بعض البيانات تكون أكبر من المتوسط وأخرى أقل من المتوسط، وسنجد أن معظم البيانات تكون بالقرب من المتوسط، ويكون شكل المنحنى الناتج مثل المنحنى الموضح في الشكل (1.8). ويسمى هذا التوزيع للبيانات بالتوزيع الطبيعي، ويطلق عليه أحياناً إسم التوزيع الجاوسي Gaussian Distribution، وهو على شكل الجرس Bell-shaped، ويقع فيه المتوسط والوسيط والمنوال في نقطة واحدة وجميعها تقسم المنحنى إلى نصفين متطابقين تماماً. ومن خواص هذا المنحنى أن 68.27% من المساحة تحت هذا المنحنى (أي حوالي الثلثين تقريباً) تقع في مدى () إنحراف معياري من المتوسط، و 95.45% من المساحة تحت المنحنى تقع في مدى () إنحراف معياري من المتوسط، و 99.73% من المساحة تحت المنحنى تقع في مدى () إنحراف معياري من المتوسط. وللحصول على مساحة تحت المنحنى تعادل 95% بالضبط فإنها تكون بين مدى (المتوسط ± 1.96 إنحراف معياري)، ومساحة تحت المنحنى تعادل 99% بالضبط تكون بين مدى (المتوسط ± 2.58 إنحراف معياري).

وللتوزيع الطبيعي أهميته البالغة في الإحصاء الاستدلالي، حيث أن اختيار الاختبارات الإحصائية للبيانات الكمية يعتمد على توزيع هذه البيانات، فإذا كان توزيعها طبيعياً فإننا نختار اختبارات إحصائية معينة، أما إذا لم تكن موزعة توزيعاً طبيعياً فإننا نختار اختبارات إحصائية أخرى مختلفة، وهكذا فإن تحليل البيانات وبالتالي تقييم الدراسات يعتمد اعتماداً كبيراً على هذا الأمر.

فترة الثقة Confidence Interval

هي وسيلة أخرى لوصف البيانات، وتوضح فترة الثقة كيف يمكن للمقاييس الوصفية مثل المتوسط والانحراف المعياري والخطأ المعياري للمتوسط أن تقوم بتمثيل المجتمع الحقيقي، تقوم الدراسات الإكلينيكية بعمل افتراضات assumptions حول المجتمع باستخدام عينة من هذا المجتمع، إن قيمة p الاحتمالية p-value تحدد ما إذا كانت إحدى المجموعات تختلف عن أخرى وذلك بالاعتماد على متوسط العينة، ولكنها تفشل في إظهار مدى هذا الاختلاف، وإذا قمنا بسحب عينة أخرى من نفس المجتمع فإننا سوف نحصل على متوسط مختلف، لذلك فإن فترة الثقة تعطينا تقديراً لمدى أكبر من القيم التي تمثل المتوسط الحقيقي للمجتمع، إن أكثر فترات الثقة شيوعاً هي فترة الثقة 95% وفترة الثقة 99% وفترة الثقة 90%، ولكن الأولى هي الأكثر استخداماً في الدراسات الإكلينيكية، وتعني أنه لو تم دراسة المجتمع فإن متوسط المجتمع سوف يقع ضمن نطاق فترة الثقة هذه في 95% من الحالات وذلك باستخدام بيانات العينة. وتستخدم فترة الثقة وقيمة p الاحتمالية (p-value) في الدراسات الوبائية للمساعدة في حساب درجة الخطورة النسبية (RR) Relative Risk ونسبة الأرجحية (OR) Odds Ratio، حيث أن درجة الخطورة النسبية تحدد الفرق في خطورة تأثير غير مقصود للدواء على شخص لم يتعرض للدواء بالمقارنة مع شخص تعرض له، أما نسبة الأرجحية فهي أرجحية تأثير الدواء في حالة التعرض له أو عدم التعرض له عند نقطة زمنية محددة. وإذا تم حساب فترة الثقة لدرجة الخطورة النسبية RR أو لنسبة الأرجحية OR وكانت فترة الثقة تشتمل على الرقم 1 فإننا نستنتج في هذه الحالة أنه لا فرق بين من تعرض للدواء ومن لم يتعرض له (أي أن النسبية ليست أكبر من 1:1). وفي حالة كون فترة الثقة ضيقة فإن ذلك يعني أن البيانات دقيقة وموثوق بها، أما قيمة p الإحتمالية فإنها لا تقوم مقام فترة الثقة إذ أنها تدل على أن درجة الخطورة النسبية/أو نسبة الأرجحية تختلف معنوياً Significantly different عن الرقم 1.

وسوم :

دراسة مشاريع تحليل احصائي