تحليل احصائي statistical analysis

نظرة عامة

تحليل احصائي

الإحصائيات هي فرع من العلوم يتعامل مع جمع وتنظيم وتحليل البيانات ورسم الاستدلالات من العينات إلى وهذا يتطلب تصميمًا مناسبًا للدراسة واختيارًا مناسبًا لعينة الدراسة والاختيار من اختبار إحصائي مناسب المعرفة الكافية للإحصاءات ضرورية لتصميم دراسة أو تجربة مناسبة قد تؤدي الطرق الإحصائية غير الصحيحة إلى استنتاجات خاطئة قد تؤدي إلى نتائج لا تحمد عقباها نتيجة خطا في فرض او تفسير الفرض مثلا

المتغيرات

المتغير هو خاصية تختلف من فرد واحد من المجتمع   إلى فرد آخر  تقاس المتغيرات مثل الطول والوزن بنوع من المقياس ، وتنقل المعلومات الكمية وتسمى كمتغيرات كمية الجنس ولون العين إعطاء معلومات نوعية وتسمى المتغيرات النوعية

المتغيرات الكمية

تنقسم البيانات الكمية أو العددية إلى قياسات منفصلة ومستمرة يتم تسجيل البيانات الرقمية المنفصلة كرقم كامل مثل 0 ، 1 ، 2 ، 3 ،  (عدد صحيح) ، في حين أن البيانات المستمرة يمكن أن تتحمل أي قيمة تشكل الملاحظات التي يمكن حسابها البيانات المنفصلة والرصدات التي يمكن قياسها تشكل البيانات المستمرة أمثلة على البيانات المنفصلة ، فإن أمثلة البيانات المستمرة هي مستويات الجلوكوز في الدم ، والضغط الجزئي للأكسجين في الدم الشرياني ودرجة حرارة المريء

يمكن استخدام مقياس هرمي من زيادة الدقة لمراقبة وتسجيل البيانات التي تقوم على المقاييس الفئوية ، ترتيبي ، الفاصل والنسبة المتغيرات الفئوية أو الاسمية غير مرتبة يتم تصنيف البيانات إلى فئات فقط ولا يمكن ترتيبها بأي ترتيب معين في حالة وجود فئتين فقط (كما هو الحال في الجنس من الذكور والإناث) ، يطلق عليه كبيانات ثنائية التفرع (أو ثنائية) الأسباب المختلفة لإعادة التنبيب في وحدة العناية المركزة بسبب انسداد مجرى الهواء العلوي ونقص الإفرازات ونقص الاوكسجين في الدم وفرط ثنائي أكسيد الكربون وضعف عصبي هي أمثلة على المتغيرات الفئوية

المتغيرات الترتيبية لها ترتيب واضح بين المتغيرات ومع ذلك ، قد لا تحتوي البيانات المطلوبة على فترات زمنية متساوية الأمثلة على ذلك هي حالة الجمعية الأمريكية لأطباء التخدير أو مقياس ريتشموند للتخدير

متغيرات الفاصل الزمني تشبه المتغير الترتيبي ، باستثناء أن الفواصل الزمنية بين قيم المتغير الفاصل الزمني متباعدة بشكل متساوٍ مثال جيد على مقياس الفاصل هو مقياس درجة فهرنهايت المستخدم لقياس درجة الحرارة مع مقياس فهرنهايت ، يكون الفرق بين 70 درجة و 75 درجة مساوياً للفرق بين 80 درجة و 85 درجة: وحدات القياس متساوية عبر النطاق الكامل للمقياس

تتشابه مقاييس النسب مع مقاييس الفاصل ، حيث أن الاختلافات المتساوية بين قيم المقياس لها معنى كمي متساوي ومع ذلك ، فإن مقاييس النسبة لديها أيضًا نقطة الصفر الحقيقية ، والتي تمنحهم خاصية إضافية على سبيل المثال ، نظام السنتيمترات هو مثال على مقياس النسبة هناك نقطة الصفر الحقيقية وقيمة 0 سم تعني الغياب التام للطول قد تكون المسافة الهرمية البالغة 6 سم في الشخص البالغ ضعف المسافة التي يبلغ طولها 3 سم

السياسة إحصائيات: الإحصائيات الوصفية والفعلية

تحاول الإحصاءات الوصفية وصف العلاقة بين المتغيرات في عينة أو مجتمع،  توفر الإحصاءات الوصفية ملخصًا للبيانات في شكل الوسط والوسيط والوضع تستخدم الإحصاءات الاستنتاجيةعينة عشوائية من البيانات المأخوذة من مجتمع لوصف وإجراء استنتاجات حول المجتمع   بأكملهم إنها قيمة عندما لا يكون من الممكن فحص كل فرد من المجتمع    

الإحصاء الوصفي

يوصف مدى التشتت حول الملاحظات حول موقع مركزي بواسطة الاتجاه المركزي والانتشار نحو الأطراف

مقاييس النزعة المركزية

مقاييس الميل المركزي هي الوسط ، الوسيط ، والأسلوب المتوسط ​​(أو المتوسط ​​الحسابي) هو مجموع كل الدرجات مقسومًا على عدد الدرجات قد يتأثر الوسط بعمق بالمتغيرات المتطرفة على سبيل المثال ، قد يتأثر متوسط ​​البقاء لمرضى التسمم بالفسفور العضوي في وحدة العناية المركزة بمريض واحد يبقى في وحدة العناية المركزة لمدة 5 أشهر تقريبًا بسبب تسمم الدم تسمى القيم القصوى القيم المتطرفة صيغة الوسط هي

يعني، 

حيث x = كل ملاحظة و n = عدد المشاهدات يتم تعريف الوسيط على أنه منتصف التوزيع في البيانات المرتبة (مع نصف المتغيرات في العينة أعلى ونصف القيمة المتوسطة) في حين أن النمط هو المتغير الأكثر تكرارًا في التوزيع يحدد النطاق مدى انتشار أو تقلب العينة يتم وصفها بالحد الأدنى والحد الأقصى لقيم المتغيرات إذا قمنا بتصنيف البيانات وبعد التصنيف ، قمنا بتجميع الملاحظات في النسب المئوية ، يمكننا الحصول على معلومات أفضل عن نمط انتشار المتغيرات في النسب المئوية ، نقوم بتصنيف الملاحظات إلى 100 جزء متساوي يمكننا بعد ذلك وصف 25 ٪ ، 50 ٪ ، 75 ٪ أو أي كمية مئوية أخرى متوسط هو 50 عشرالمئوي فإن مجموعة الشرائح الربعية تكون الملاحظات في الوسط 50٪ من الملاحظات حول المتوسط (25 تشرين -75 ث المئويالتباين هو مقياس لكيفية انتشار التوزيع يعطي مؤشرا على مدى قرب مجموعات المراقبة الفردية من القيمة المتوسطة يتم تعريف تباين المجتمع   بالصيغة التالية:

حيث σ 2 هو تباين المجتمع، X هو متوسط عدد المجتمع  ، ط هو ط عشر عنصرا من المجتمع   و N هو عدد العناصر في المجتمع   يتم تعريف تباين العينة بواسطة صيغة مختلفة قليلاً:

حيث ق 2 هو تباين العينة، والعاشر هو متوسط العينة، س ط هو ط عشر عنصرا من العينة و n هو عدد العناصر في العينة تحتوي صيغة تباين المجتمع   على القيمةn ' كمقام يُعرف التعبيرn −1' بدرجات الحرية وهو أقل من عدد المعلمات كل ملاحظة حرة في التغيير ، باستثناء الملاحظة الأخيرة التي يجب أن تكون قيمة محددة يتم قياس التباين بوحدات مربعة لجعل تفسير البيانات بسيطًا والاحتفاظ بوحدة المراقبة الأساسية ، يتم استخدام الجذر التربيعي للتباين الجذر التربيعي للفرق هو الانحراف المعياري (SD) يتم تعريف SD من المجتمع   من خلال الصيغة التالية:

حيث σ هو SD المجتمع  ، X هو متوسط عدد المجتمع  ، ط هو ط عشر عنصرا من المجتمع   و N هو عدد العناصر في المجتمع   يتم تعريف SD للعينة بصيغة مختلفة قليلاً:

حيث الصورة هو SD عينة، س هو متوسط العينة، س ط هو ط عشر عنصرا من العينة و ن هو عدد العناصر في العينة تم توضيح مثال لحساب التباين و SD في  

التوزيع الطبيعي

تتجمع معظم المتغيرات البيولوجية عادة حول قيمة مركزية ، مع انحرافات إيجابية وسلبية متناظرة حول هذه النقطةمنحنى التوزيع الطبيعي القياسي هو شكل جرس متماثل في منحنى التوزيع الطبيعي ، يوجد حوالي 68٪ من الدرجات في حدود 1 SD من المتوسط حوالي 95 ٪ من الدرجات في حدود 2 SD من الوسط و 99 ٪ في 3 SD من الوسط

توزيع الانحراف

هو توزيع مع عدم تناسق المتغيرات حول الوسط في توزيع منحرف سالبًا ، تتركز كتلة التوزيع على يمين  في توزيع منحرف بشكل إيجابي  تتركز كتلة التوزيع على يسار الشكل المؤدي إلى ذيل يمين أطول

إحصاءات استنتاجية

في الإحصاءات الاستنتاجية ، يتم تحليل البيانات من عينة لجعل الاستدلالات في المجموعة الأكبر من المجتمع   والغرض من ذلك هو الإجابة أو اختبار الفرضيات الفرضية (فرضيات الجمع) هي التفسير المقترح لهذه الظاهرة اختبارات الفرضيات هي بالتالي إجراءات لاتخاذ قرارات عقلانية حول واقع الآثار الملاحظة

الاحتمال هو مقياس احتمالية وقوع حدث يتم تقدير الاحتمالية كرقم بين 0 و 1 (حيث تشير 0 إلى الاستحالة و 1 تشير إلى اليقين)

في الإحصاءات الاستنتاجية ، يشير المصطلح "فرضية الصفرية" ( 0 " H-naught ، وH-null ") إلى عدم وجود علاقة (فرق) بين المتغيرات المجتمع  ية المعنية

تشير الفرضية البديلة1 و a ) إلى أنه من المتوقع أن تكون العبارة بين المتغيرات صحيحة

و P قيمة (أو احتمال محسوب) هو احتمال حدوث الحدث عن طريق الصدفة إذا كان فرضية العدم هو الصحيح و P القيمة هي العددية بين 0 و 1، وفسرت من قبل الباحثين في تحديد ما إذا كان رفض أو الإبقاء على فرضية باطلة

إذا كانت قيمة P أقل من القيمة المختارة بشكل تعسفي (المعروفة باسم α أو مستوى الأهمية) ، يتم رفض فرضية صفرية  (H0) [ ومع ذلك ، إذا تم رفض فرضيات صفرية  (H0) بشكل غير صحيح ، فإن هذا يُعرف باسم خطأ من النوع الأول

اختبارات المعلمات وغير المعلمة

يتم تحليل البيانات العددية (المتغيرات الكمية) التي يتم توزيعها عادة مع اختبارات حدودي

أهم اثنين من الشروط الأساسية للتحليل الإحصائي حدودي هي:

  • افتراض الحالة الطبيعية التي تحدد أن وسائل مجموعة العينة يتم توزيعها بشكل طبيعي
  • افتراض التباين المتساوي الذي يحدد أن تباينات العينات والمجموعات المقابلة لها متساوية

ومع ذلك ، إذا كان توزيع العينة يميل نحو جانب واحد أو كان التوزيع غير معروف بسبب حجم العينة الصغير ، يتم استخدام الأساليب الإحصائية غير البارامترية  تستخدم الاختبارات غير المعلمية لتحليل البيانات الترتيبية والفئوية

الاختبارات المعلمية

تفترض الاختبارات المعيارية أن البيانات على نطاق كمي (رقمي) ، مع توزيع طبيعي للسكان الأساسيين العينات لها نفس التباين (تجانس الفروق) يتم سحب العينات بشكل عشوائي من المجتمع   ، وتكون الملاحظات داخل المجموعة مستقلة عن بعضها البعض الاختبارات المعلمية التي يشيع استخدامها هي الطالب ر -test،T تحليل التباين (ANOVA) الطالب ر -test

الطالب ر T -test يستخدم لاختبار فرضية العدم أنه لا يوجد فرق بين وسائل المجموعتين يتم استخدامه في ثلاث حالات:

  1. لاختبار ما إذا كان متوسط العينة (كتقدير لمتوسط عدد المجتمع  ) يختلف بشكل كبير من متوسط عدد المجتمع   معين (وهذا هو واحد عينة ر -test)

صيغة لعينة واحدة ر الاختبار هو

حيث X = يعني العينة ، u = متوسط ​​المجتمع   و SE = خطأ قياسي من الوسط

  1. لاختبار إذا كانت وسائل المجتمع   المقدر من قبل اثنين من عينات مستقلة تختلف اختلافا كبيرا (من أونبايريد ر t-test) صيغة اختبار t unaired هي:

حيث 1 - X 2 هو الفرق بين وسائل المجموعتين و SE تعني الخطأ القياسي للفرق

  1. لاختبار ما إذا كان عدد المجتمع   المقدر بواسطة عينتين تابعتين يختلف اختلافًا كبيرًااختبار t المزدوجالإعداد المعتاد للاختبار t المقترن هو عندما يتم إجراء قياسات على نفس الموضوعات قبل وبعد العلاج

صيغة اختبار t المقترن هي:

حيث d هو الفرق المتوسط ​​و SE تعني الخطأ القياسي لهذا الاختلاف

يمكن مقارنة الفروق بين المجموعات باستخدام اختبار و F -test هي نسبة التباين (فار ل / فار 2) إذا كان F مختلفًا عن 10 ، فسيتم استنتاج أن تباينات المجموعة تختلف اختلافًا كبيرًا

تحليل التباين

على الطالب ر T-test لا يمكن استخدامها للمقارنة بين ثلاثة أو أكثر من المجموعات الغرض من ANOVA هو اختبار ما إذا كان هناك أي فرق كبير بين وسيلة مجموعتين أو أكثر

في ANOVA ، ندرس نوعين من التباين - (أ) التباين بين المجموعة و (ب) التباين داخل المجموعة التباين داخل المجموعة (تباين الخطأ) هو التباين الذي لا يمكن حسابه في تصميم الدراسة لأنه يقوم على الاختلافات العشوائية الموجودة في عينات لدينا

ومع ذلك ، فإن الفرق بين المجموعة (أو تأثير التباين) هو نتيجة لعلاجنا تتم مقارنة هذين التقديرين للفروق باستخدام اختبار F

الصيغة المبسطة للإحصاء F هي:

حيث MS b هي المربعات المتوسطة بين المجموعتين و MS w هي المربعات المتوسطة داخل المجموعات

تحليل التباين

كما هو الحال مع ANOVA ، التدابير المتكررة ANOVA يحلل المساواة في وسائل ثلاث مجموعات أو أكثر ومع ذلك ، يتم استخدام مقياس تكرار ANOVA عندما يتم قياس جميع متغيرات العينة في ظروف مختلفة أو في نقاط زمنية مختلفة

كما يتم قياس المتغيرات من عينة في نقاط زمنية مختلفة ، يتم تكرار قياس المتغير التابع استخدام ANOVA قياسي في هذه الحالة ليس مناسبًا لأنه يفشل في صياغة نموذج الارتباط بين التدابير المتكررة: تنتهك البيانات افتراض ANOVA بالاستقلال وبالتالي ، في قياس المتغيرات التابعة المتكررة ، ينبغي استخدام التدابير المتكررة ANOVA

اختبارات غير حدودي

عندما لا يتم الوفاء بافتراضات الحالة الطبيعية ، وتكون العينة غير طبيعية ، يمكن أن تؤدي اختبارات المعلمات الموزعة إلى نتائج خاطئة تُستخدم الاختبارات غير البارامترية (اختبار خالٍ من التوزيع) في مثل هذه المواقف لأنها لا تتطلب افتراض الحالة الطبيعية قد تفشل الاختبارات غير البارامترية في اكتشاف اختلاف كبير عند مقارنتها باختبار حدودي وهذا هو ، لديهم عادة أقل قوة

كما هو الحال بالنسبة للاختبارات حدودي ، تتم مقارنة إحصائية الاختبار مع القيم المعروفة لتوزيع أخذ العينات من تلك الإحصائية وقبول فرضية صفرية  أو رفضها يتم تحديد أنواع تقنيات التحليل غير البارامترية وتقنيات التحليل البارامترية المقابلة في 

 اختبار ويلكوكسون

يتم استخدام اختبار علامة واختبار رتبة موقعة Wilcoxon للاختبارات المتوسطة لعينة واحدة تفحص هذه الاختبارات ما إذا كان مثيل واحد من بيانات العينة أكبر أو أصغر من القيمة المرجعية المتوسطة

علامة الاختبار

يفحص هذا الاختبار الفرضية حول متوسط ​​θ0 من المجتمع   يختبر الفرضية الصفرية H0 = θ0 عندما تكون القيمة الملاحظة (Xi) أكبر من القيمة المرجعية (θ0) ، يتم تمييزها على أنهاإذا كانت القيمة المرصودة أصغر من القيمة المرجعية ، فيتم وضع علامة عليها - علامة إذا كانت القيمة المرصودة تساوي القيمة المرجعية (θ0) ، فيتم استبعادها من العينة

إذا كانت الفرضية الصحيحة صحيحة ، فسيكون هناك عدد متساوٍ من العلامات + والإشارات

يتجاهل اختبار الإشارة القيم الفعلية للبيانات ويستخدم فقط علامات + أولذلك ، يكون مفيدًا عندما يكون من الصعب قياس القيم

ويلكوكسون اختبار رتبة

يوجد حد كبير لاختبار الإشارة حيث نفقد المعلومات الكمية الخاصة بالبيانات المعطاة ونستخدم فقط علامات + أولا يختبر اختبار الترتيب الموقَّع من ويلكسون القيم المرصودة مقارنةً بـ θ0 فحسب ، بل يأخذ في الاعتبار أيضًا الأحجام النسبية ، مما يضيف مزيدًا من القوة الإحصائية إلى الاختبار كما هو الحال في اختبار الإشارة ، إذا كانت هناك قيمة ملحوظة تساوي القيمة المرجعية θ0 ، فيتم استبعاد هذه القيمة الملاحظة من العينة

يصنف اختبار رتبة مجموع ويلكسون جميع نقاط البيانات بالترتيب ، ويحسب مجموع رتبة كل عينة ويقارن الفرق في مجاميع الترتيب

اختبار مان ويتني

يتم استخدامه لاختبار الفرضية الصفرية  المتمثلة في أن عينتين لهما نفس الوسيط أو ، بدلاً من ذلك ، ما إذا كانت الملاحظات في عينة واحدة تميل إلى أن تكون أكبر من الملاحظات في الآخر

يقارن اختبار Mann – Whitney جميع البيانات (xi) التي تنتمي إلى المجموعة X وجميع البيانات (yi) التي تنتمي إلى المجموعة Y ويحسب احتمال أن تكون xi أكبر من yi: P (xi> yi) تنص الفرضية الخالية على أن P (xi> yi) = P (xi <yi) = 1/2 بينما تنص الفرضية البديلة على P (xi> yi) ≠ 1/2

اختبار كولموجوروف-سميرنوف

تم تصميم اختبار Kolmogorov-Smirnov (KS) المكون من عينتين كطريقة عامة لاختبار ما إذا كانت عينتان عشوائيتان مأخوذة من نفس التوزيع الفرضية الصفرية  في اختبار KS هي أن كلا التوزيعتين متطابقتان إحصائية اختبار KS هي المسافة بين التوزيعتين التجريبية ، ويتم حسابها كحد أقصى للفرق المطلق بين منحنياتها التراكمية

اختبار كروسكال واليس

يعد اختبار Kruskal – Wallis اختبارًا غير باراميتري لتحليل التباين وهو يحلل ما إذا كان هناك أي اختلاف في القيم المتوسطة لثلاث أو أكثر من العينات المستقلة يتم ترتيب قيم البيانات بترتيب متزايد ، ويتم احتساب مبالغ الترتيب متبوعة بحساب إحصائية الاختبار

اختبار Jonckheere

على عكس اختبار Kruskal-Wallis ، في اختبار Jonckheere ، هناك ترتيب مسبق يمنحه قوة إحصائية أكثر من اختبار Kruskal-Wallis

اختبار فريدمان

اختبار فريدمان هو اختبار غير حدودي لاختبار الفرق بين عدة عينات ذات صلة اختبار فريدمان هو بديل للتدابير المتكررة ANOVAs التي تستخدم عندما تم قياس المعلمة نفسها في ظل ظروف مختلفة على نفس الموضوعات

اختبارات لتحليل البيانات الفئوية

يتم استخدام اختبار Chi-square واختبار Fischer الدقيق واختبار McNemar لتحليل المتغيرات الفئوية أو الاسمية يقارن اختبار Chi-square الترددات ويختبر ما إذا كانت البيانات المرصودة تختلف اختلافًا كبيرًا عن البيانات المتوقعة إذا لم تكن هناك فروق بين المجموعات (أي الفرضية الخالية) يتم حسابها بواسطة مجموع الفرق التربيعي بين الملاحظةO ) والبيانات المتوقعةE ) (أو الانحراف ، د ) مقسومة على البيانات المتوقعة بالصيغة التالية:

يتم استخدام عامل تصحيح Yates عندما يكون حجم العينة صغيرًا يستخدم الاختبار الدقيق لـ Fischer لتحديد ما إذا كانت هناك ارتباطات غير عشوائية بين متغيرين للفئة لا تفترض أخذ عينات عشوائية ، وبدلاً من إحالة إحصاء محسوب إلى توزيع أخذ العينات ، فإنه يحسب الاحتمال الدقيق يتم استخدام اختبار McNemar للبيانات الاسمية المقترنة يتم تطبيقه على الجدول 2 × 2 مع عينات تعتمد على الزوج يتم استخدامه لتحديد ما إذا كانت ترددات الصفوف والأعمدة متساوية (أي ما إذا كان هناك "تجانس هامشي") الفرضية الصفرية  هي أن النسب المزدوجة متساوية اختبار Mantel-Haenszel Chi-square هو اختبار متعدد المتغيرات لأنه يحلل متغيرات التجميع المتعددة يطبّق وفقًا للمتغيرات المختلطة المختلطة ويحدد أيًا يؤثر على متغير النتيجة الأساسي

البرامج المتاحة للإحصائيات ، وحساب حجم العينة وتحليل القدرة

تتوفر العديد من أنظمة البرامج الإحصائية حاليًا أنظمة البرمجيات الأكثر استخدامًا هي الحزمة الإحصائية للعلوم الاجتماعية (SPSS - المصنعة من قبل شركة IBM) ونظام التحليل الإحصائي ((SAS - الذي طوره معهد SAS في ولاية كارولينا الشمالية بالولايات المتحدة الأمريكية) و R (صممه روس إيكا وروبرت جنتلمان من فريق R core) ، Minitab (تم تطويره بواسطة Minitab Inc) ، Stata (تم تطويره بواسطة StataCorp) و MS Excel (تم تطويره بواسطة Microsoft)

ملخص

من المهم أن يعرف الباحث مفاهيم الأساليب الإحصائية الأساسية المستخدمة لإجراء دراسة بحثية سيساعد هذا في إجراء دراسة مصممة بشكل جيد تؤدي إلى نتائج صالحة وموثوقة إن الاستخدام غير المناسب للتقنيات الإحصائية قد يؤدي إلى استنتاجات خاطئة ، وإحداث أخطاء وتقويض أهمية المقال قد تؤدي الإحصاءات السيئة إلى إجراء أبحاث سيئة ، وقد تؤدي الأبحاث السيئة إلى ممارسة غير أخلاقية وبالتالي ، فإن المعرفة الكافية للإحصاءات والاستخدام المناسب للاختبارات الإحصائية مهمة إن المعرفة المناسبة بالطرق الإحصائية الأساسية سوف تقطع شوطاً طويلاً في تحسين تصاميم البحوث وإنتاج البحوث الجيدة التي يمكن استخدامها لصياغة المبادئ التوجيهية القائمة على الأدلة

ارب المصالح

وسوم :

دراسة مشاريع تحليل احصائي مكاتب دراسات الجدوى