مقالات

7.2: النتائج وأخطاء النوع الأول والنوع الثاني - الرياضيات


عند إجراء اختبار فرضية ، هناك أربع نتائج محتملة بناءً على الحقيقة الفعلية (أو الخطأ) للفرضية الصفرية (H_ {0} ) وقرار الرفض أم لا. النتائج ملخصة في الجدول التالي:

عمل (H_ {0} ) صحيح بالفعل (H_ {0} ) خطأ في الواقع
لا ترفض (H_ {0} )النتيجة الصحيحةخطأ من النوع الثاني
رفض (H_ {0} )اكتب أنا خطأالنتيجة الصحيحة

النتائج الأربعة المحتملة في الجدول هي:

  1. القرار لا ترفض (H_ {0} ) عندما (H_ {0} ) هو صحيح (القرار الصحيح).
  2. القرار هو رفض (H_ {0} ) عندما (H_ {0} ) صحيح (يُعرف القرار غير الصحيح بخطأ من النوع الأول).
  3. القرار لا ترفض (H_ {0} ) بينما ، في الواقع ، (H_ {0} ) هو زائف (يُعرف القرار غير الصحيح بالخطأ من النوع الثاني).
  4. القرار هو رفض (H_ {0} ) عندما (H_ {0} ) هو زائف (القرار الصحيح الذي يسمى احتماله قوة من الاختبار).

كل خطأ يحدث مع احتمال معين. تمثل الأحرف اليونانية ( alpha ) و ( beta ) الاحتمالات.

  • ( alpha = ) احتمال حدوث خطأ من النوع الأول (= P ( text {Type I error}) = ) احتمال رفض الفرضية الصفرية عندما تكون الفرضية الصفرية صحيحة.
  • ( beta = ) احتمال حدوث خطأ من النوع الثاني (= P ( text {خطأ من النوع الثاني}) = ) احتمال عدم رفض الفرضية الصفرية عندما تكون الفرضية الصفرية خاطئة.

يجب أن يكون ( alpha ) و ( beta ) صغيرًا قدر الإمكان لأنهما يحتملان حدوث أخطاء. نادرا ما تكون صفرا.

ال قوة الاختبار هو (1 - بيتا ). من الناحية المثالية ، نريد قوة عالية قريبة من قوة واحدة قدر الإمكان. يمكن أن تؤدي زيادة حجم العينة إلى زيادة قوة الاختبار. فيما يلي أمثلة لأخطاء النوع الأول والنوع الثاني.

مثال ( PageIndex {1} ): النوع الأول مقابل أخطاء النوع الثاني

لنفترض أن الفرضية الصفرية ، (H_ {0} ) ، هي: معدات فرانك لتسلق الصخور آمنة.

  • اكتب أنا خطأ: يعتقد فرانك أن معدات تسلق الصخور الخاصة به قد لا تكون آمنة في حين أنها في الواقع آمنة.
  • خطأ من النوع الثاني: يعتقد فرانك أن معدات تسلق الصخور الخاصة به قد تكون آمنة في حين أنها في الواقع ليست آمنة.

( ألفا = ) احتمالا أن فرانك يعتقد أن معدات تسلق الصخور الخاصة به قد لا تكون آمنة في حين أنها في الواقع آمنة.

( بيتا = ) احتمالا أن فرانك يعتقد أن معدات تسلق الصخور الخاصة به قد تكون آمنة في حين أنها في الواقع ليست آمنة.

لاحظ أنه في هذه الحالة ، الخطأ ذو النتيجة الأكبر هو خطأ النوع الثاني. (إذا كان فرانك يعتقد أن معدات تسلق الصخور الخاصة به آمنة ، فسوف يمضي قدمًا ويستخدمها.)

تمرين ( PageIndex {1} )

لنفترض أن الفرضية الصفرية ، (H_ {0} ) ، هي: لا تحتوي مزارع الدم على آثار للعوامل الممرضة (X ). حدد أخطاء النوع الأول والنوع الثاني.

إجابه
  • اكتب أنا خطأ: يعتقد الباحث أن مزارع الدم تحتوي على آثار للعوامل الممرضة (X ) ، في حين أنها لا تحتوي في الواقع.
  • خطأ من النوع الثاني: يعتقد الباحث أن مزارع الدم لا تحتوي على آثار للعوامل الممرضة (X ) ، في حين أنها تحتوي في الواقع.

مثال ( PageIndex {2} )

لنفترض أن الفرضية الصفرية ، (H_ {0} ) ، هي: ضحية حادث سيارة على قيد الحياة عندما وصل إلى غرفة الطوارئ في المستشفى.

  • اكتب أنا خطأ: يعتقد طاقم الطوارئ أن الضحية ماتت في حين أن الضحية في الواقع على قيد الحياة.
  • خطأ من النوع الثاني: لا يعرف طاقم الطوارئ ما إذا كانت الضحية على قيد الحياة أم لا أم لا ، أم لا أم لا.

( ألفا = ) احتمالا أن طاقم الطوارئ يعتقد أن الضحية قد مات بينما ، في الواقع ، على قيد الحياة حقًا (= P ( text {Type I error}) ).

( بيتا = ) احتمالا أن طاقم الطوارئ لا يعرف ما إذا كانت الضحية على قيد الحياة أم لا ، أم أن الضحية ميتة في الواقع (= P ( text {Type II error}) ).

الخطأ ذو النتيجة الأكبر هو خطأ النوع الأول. (إذا اعتقد طاقم الطوارئ أن الضحية قد مات ، فلن يعالجوه).

تمرين ( PageIndex {2} )

لنفترض أن الفرضية الصفرية (H_ {0} ) هي: المريض ليس مريضًا. ما نوع الخطأ الذي له نتيجة أكبر ، النوع الأول أم النوع الثاني؟

إجابه

الخطأ ذو النتيجة الأكبر هو الخطأ من النوع الثاني: سيتم التفكير في المريض جيدًا عندما يكون ، في الواقع ، مريضًا ، لذلك لن يحصل على العلاج.

مثال ( PageIndex {3} )

إنها شركة Boy Genetic Labs تدعي أنها قادرة على زيادة احتمالية أن يؤدي الحمل إلى ولادة طفل. الإحصائيون يريدون اختبار الادعاء. لنفترض أن الفرضية الصفرية ، (H_ {0} ) ، هي: إنها مختبرات جينية الصبي ليس لها أي تأثير على نتيجة الجنس.

  • اكتب أنا خطأ: ينتج هذا عندما يتم رفض فرضية صفرية صحيحة. في سياق هذا السيناريو ، نود أن نذكر أننا نعتقد أن مختبرات جينية فتى تؤثر على نتيجة الجنس ، في حين أنها في الواقع ليس لها أي تأثير. يُشار إلى احتمال حدوث هذا الخطأ بالحرف اليوناني alpha ، ( alpha ).
  • خطأ من النوع الثاني: ينتج هذا عندما نفشل في رفض فرضية فارغة خاطئة. في السياق ، نود أن نذكر أن مختبرات جينات فتى لا تؤثر على نتيجة الجنس للحمل في حين أنها تؤثر في الواقع. يُشار إلى احتمال حدوث هذا الخطأ بالحرف اليوناني بيتا ، ( beta ).

سيكون الخطأ الأكبر هو الخطأ من النوع الأول لأن الأزواج سيستخدمون منتج It’s a Boy Genetic Labs على أمل زيادة فرص إنجاب ولد.

تمرين ( PageIndex {3} )

"المد الأحمر" هو تكاثر الطحالب المنتجة للسموم - أنواع قليلة مختلفة من فئة من العوالق تسمى dinoflagellates. عندما تتسبب ظروف الطقس والماء في حدوث هذه الإزهار ، فإن المحار مثل المحار الذي يعيش في المنطقة يطور مستويات خطيرة من السم الذي يسبب الشلل. في ولاية ماساتشوستس ، يراقب قسم المصايد البحرية (DMF) مستويات السم في المحار عن طريق أخذ عينات منتظمة من المحار على طول الساحل. إذا تجاوز متوسط ​​مستوى السم في المحار 800 ميكروغرام (ميكروغرام) من السم لكل كيلوغرام من لحم البطلينوس في أي منطقة ، يتم حظر حصاد البطلينوس هناك حتى ينتهي التكاثر وتهدأ مستويات السم في المحار. قم بوصف خطأ من النوع الأول والنوع الثاني في هذا السياق ، وحدد الخطأ الذي له نتيجة أكبر.

إجابه

في هذا السيناريو ، ستكون الفرضية الصفرية المناسبة (H_ {0} ): المستوى المتوسط ​​للسموم هو على الأكثر (800 mu text {g} ) ، (H_ {0}: mu_ { 0} leq 800 mu text {g} ).

اكتب أنا خطأ: يعتقد DMF أن مستويات السموم لا تزال مرتفعة للغاية في حين أن مستويات السم في الواقع هي على الأكثر (800 mu text {g} ). يواصل DMF حظر الحصاد.
خطأ من النوع الثاني: يعتقد DMF أن مستويات السموم ضمن المستويات المقبولة (800 على الأقل ميكرومترز) في حين أن مستويات السم في الواقع لا تزال مرتفعة جدًا (أكثر من (800 mu text {g} )). DMF يرفع حظر الحصاد. قد يكون هذا الخطأ هو الأخطر. إذا تم رفع الحظر ولا يزال المحار سامًا ، فمن المحتمل أن يأكل المستهلكون طعامًا ملوثًا.
باختصار ، الخطأ الأكثر خطورة هو ارتكاب خطأ من النوع الثاني ، لأن هذا الخطأ ينطوي على توافر المحار الملوث للاستهلاك.

مثال ( PageIndex {4} )

يدعي دواء تجريبي معين أن معدل الشفاء لا يقل عن 75٪ للذكور المصابين بسرطان البروستاتا. وصف أخطاء النوع الأول والنوع الثاني في السياق. أي خطأ أكثر خطورة؟

  • النوع I: يعتقد مريض السرطان أن معدل الشفاء من الدواء أقل من 75٪ بينما هو في الواقع 75٪ على الأقل.
  • النوع الثاني: يعتقد مريض السرطان أن العقار التجريبي له معدل شفاء 75٪ على الأقل عندما يكون معدل الشفاء أقل من 75٪.

في هذا السيناريو ، يحتوي خطأ النوع الثاني على النتيجة الأكثر خطورة. إذا اعتقد المريض أن الدواء يعمل بنسبة 75٪ على الأقل من الوقت ، فمن المرجح أن يؤثر هذا على اختيار المريض (والطبيب) بشأن استخدام الدواء كخيار علاجي.

تمرين ( PageIndex {4} )

حدد أخطاء النوع الأول والنوع الثاني للسيناريو التالي:

افترض فرضية صفرية ، (H_ {0} ) ، تنص على أن النسبة المئوية للبالغين الذين لديهم وظائف لا تقل عن 88٪. حدد أخطاء النوع الأول والنوع الثاني من هذه العبارات الأربعة.

  1. عدم رفض فرضية العدم القائلة بأن نسبة البالغين الذين لديهم وظائف لا تقل عن 88٪ عندما تكون هذه النسبة في الواقع أقل من 88٪
  2. عدم رفض فرضية العدم القائلة بأن نسبة البالغين الذين لديهم وظائف لا تقل عن 88٪ عندما تكون النسبة في الواقع 88٪ على الأقل.
  3. ارفض فرضية العدم القائلة بأن نسبة البالغين الذين لديهم وظائف لا تقل عن 88٪ عندما تكون النسبة في الواقع 88٪ على الأقل.
  4. ارفض فرضية العدم القائلة بأن نسبة البالغين الذين لديهم وظائف هي على الأقل 88٪ عندما تكون هذه النسبة في الواقع أقل من 88٪.
إجابه

النوع الأول خطأ: ج

النوع الأول خطأ: ب

ملخص

في كل اختبار فرضية ، تعتمد النتائج على التفسير الصحيح للبيانات. أ النوع I يحدث الخطأ عندما يتم رفض فرضية فارغة حقيقية. أ خطأ من النوع الثاني يحدث عندما لا يتم رفض فرضية فارغة خاطئة. يُشار إلى احتمالات هذه الأخطاء بالحروف اليونانية ( alpha ) و ( beta ) ، لخطأ من النوع الأول والنوع الثاني على التوالي. تحدد قوة الاختبار ، (1 - بيتا ) ، احتمالية أن يسفر الاختبار عن النتيجة الصحيحة لقبول فرضية بديلة حقيقية. قوة عالية أمر مرغوب فيه.

مراجعة الصيغة

  • ( alpha = ) احتمال حدوث خطأ من النوع الأول (= P ( text {Type I error}) = ) احتمال رفض الفرضية الصفرية عندما تكون الفرضية الصفرية صحيحة.
  • ( beta = ) احتمال حدوث خطأ من النوع الثاني (= P ( text {خطأ من النوع الثاني}) = ) احتمال عدم رفض الفرضية الصفرية عندما تكون الفرضية الصفرية خاطئة.

قائمة المصطلحات

النوع 1 خطأ
القرار هو رفض الفرضية الصفرية عندما تكون الفرضية الصفرية صحيحة في الواقع.
النوع 2 خطأ
القرار هو عدم رفض الفرضية الصفرية عندما تكون الفرضية الصفرية خاطئة في الواقع.

7.2 نظرية الحدود المركزية للمجاميع

يفترض X هو متغير عشوائي له توزيع قد يكون معروف أو غير معروف (يمكن أن يكون أي توزيع) وافترض:

إذا قمت برسم عينات عشوائية من الحجم ن، ثم ن يزيد المتغير العشوائي ΣX تتكون من مبالغ تميل إلى أن توزع بشكل طبيعي وΧ

ال تنص نظرية الحد المركزي للمجاميع على أنه إذا قمت برسم عينات ذات حجم معين بشكل متكرر (مثل دحرجة عشر نرد بشكل متكرر) وحساب مجموع كل عينة ، فإن هذه المجاميع تميل إلى اتباع التوزيع الطبيعي. مع زيادة أحجام العينة ، فإن توزيع الوسائل يتبع التوزيع الطبيعي عن كثب. للتوزيع الطبيعي متوسط ​​يساوي المتوسط ​​الأصلي مضروبًا في حجم العينة وانحراف معياري يساوي الانحراف المعياري الأصلي مضروبًا في الجذر التربيعي لحجم العينة.

المتغير العشوائي ΣX لديه ما يلي ض- الدرجات المرتبطة به:

استخدام الآلة الحاسبة TI-83 و 83+ و 84 و 84+

لإيجاد احتمالات الجمع على الآلة الحاسبة ، اتبع هذه الخطوات.

المنطقة الثانية
2: عادي cdf
normalcdf (القيمة الدنيا للمنطقة ، القيمة العليا للمنطقة ، (ن) (يعني) ، (n n) (الانحراف المعياري))

  • تعني هو متوسط ​​التوزيع الأصلي
  • الانحراف المعياري هو الانحراف المعياري للتوزيع الأصلي
  • حجم العينة = ن

مثال 7.5

التوزيع غير المعروف له متوسط ​​90 وانحراف معياري 15. عينة بحجم 80 مأخوذة عشوائيًا من المجتمع.

  1. أوجد احتمال أن يكون مجموع 80 قيمة (أو إجمالي 80 قيمة) أكبر من 7500.
  2. أوجد المجموع الذي يساوي 1.5 انحراف معياري فوق متوسط ​​المجاميع.

الحل 1

يترك X = قيمة واحدة من السكان الأصليين غير المعروفين. يطلب منك سؤال الاحتمال إيجاد احتمال لـ مجموع (أو إجمالي) 80 قيمة.

ΣX = مجموع أو إجمالي 80 قيمة. منذ ميكرومترX = 90, σX = 15 و ن = 80 ، X Σ X

استخدام الآلة الحاسبة TI-83 و 83+ و 84 و 84+

normalcdf (القيمة الدنيا ، القيمة العليا ، متوسط ​​المبالغ ، القيمة القياسية للمبالغ)

تذكير

1E99 = 10 99 .

التوزيع غير المعروف له متوسط ​​45 وانحراف معياري ثمانية. يتم أخذ عينة حجمها 50 بشكل عشوائي من السكان. أوجد احتمال أن يكون مجموع قيم 50 أكبر من 2400.

استخدام الآلة الحاسبة TI-83 و 83+ و 84 و 84+

للعثور على النسب المئوية للمجاميع على الآلة الحاسبة ، اتبع هذه الخطوات.

  • ك هل ك المئوي ال
  • تعني هو متوسط ​​التوزيع الأصلي
  • الانحراف المعياري هو الانحراف المعياري للتوزيع الأصلي
  • حجم العينة = ن

مثال 7.6

في دراسة حديثة نُشرت في 29 أكتوبر 2012 على مدونة Flurry ، يبلغ متوسط ​​عمر مستخدمي الأجهزة اللوحية 34 عامًا. افترض أن الانحراف المعياري هو 15 سنة. حجم العينة 50.


9.3: النتائج وأخطاء النوع الأول والنوع الثاني

س 9.3.1

اذكر أخطاء النوع الأول والنوع الثاني في جمل كاملة مع الأخذ في الاعتبار العبارات التالية.

  1. متوسط ​​عدد سنوات عمل الأمريكيين قبل التقاعد هو 34.
  2. يصوت 60٪ من الأمريكيين على الأكثر في الانتخابات الرئاسية.
  3. متوسط ​​الراتب المبدئي لخريجي جامعة ولاية سان خوسيه هو 100000 دولار على الأقل في السنة.
  4. تسعة وعشرون في المائة من كبار السن في المدارس الثانوية يسكرون كل شهر.
  5. أقل من 5٪ من البالغين يركبون الحافلة إلى العمل في لوس أنجلوس.
  6. متوسط ​​عدد السيارات التي يمتلكها الشخص في حياته أو حياتها لا يزيد عن عشرة.
  7. يفضل حوالي نصف الأمريكيين العيش بعيدًا عن المدن ، إذا أخذنا في الاعتبار الاختيار.
  8. الأوروبيون لديهم إجازة متوسطة مدفوعة الأجر كل عام مدتها ستة أسابيع.
  9. تقل فرصة الإصابة بسرطان الثدي لدى النساء عن 11٪.
  10. الجامعات الخاصة تعني أن تكلفة التعليم تزيد عن 20000 دولار في السنة.

9.3.1 ق

  1. خطأ من النوع الأول: نستنتج أن المتوسط ​​ليس 34 سنة ، في حين أنه في الحقيقة 34 سنة. خطأ من النوع الثاني: نستنتج أن المتوسط ​​هو 34 سنة ، بينما في الحقيقة ليس 34 سنة.
  2. خطأ من النوع الأول: نستنتج أن أكثر من 60٪ من الأمريكيين يصوتون في الانتخابات الرئاسية ، عندما تكون النسبة الفعلية 60٪ على الأكثر خطأ من النوع الثاني: نستنتج أن 60٪ من الأمريكيين يصوتون في الانتخابات الرئاسية بينما ، في الواقع ، أكثر من 60٪ يفعلون.
  3. خطأ من النوع الأول: نستنتج أن متوسط ​​الراتب المبدئي أقل من 100000 دولار أمريكي ، في حين أنه لا يقل عن 100000 دولار أمريكي على الأقل. خطأ من النوع الثاني: نستنتج أن متوسط ​​الراتب المبدئي هو 100000 دولار على الأقل في حين أنه في الواقع أقل من 100000 دولار.
  4. خطأ من النوع الأول: نستنتج أن نسبة كبار السن في المدارس الثانوية الذين يسكرون كل شهر ليست 29٪ ، بينما هي بالفعل 29٪. خطأ من النوع الثاني: نستنتج أن نسبة كبار السن في المدارس الثانوية الذين يشربون الخمر كل شهر تبلغ 29٪ بينما ، في الواقع ، ليست 29٪.
  5. خطأ من النوع الأول: نستنتج أن أقل من 5٪ من البالغين يركبون الحافلة إلى العمل في لوس أنجلوس ، عندما تكون النسبة المئوية فعلاً 5٪ أو أكثر. خطأ من النوع الثاني: نستنتج أن 5٪ أو أكثر من البالغين يركبون الحافلة إلى العمل في لوس أنجلوس بينما ، في الواقع ، أقل من 5٪ يفعلون ذلك.
  6. خطأ من النوع الأول: نستنتج أن متوسط ​​عدد السيارات التي يمتلكها الشخص في حياته أو حياتها هو أكثر من 10 ، بينما في الواقع لا يزيد عن 10. خطأ من النوع الثاني: نستنتج أن متوسط ​​عدد السيارات التي يمتلكها الشخص في حياته أو حياتها لا يزيد عن 10 بينما في الواقع أكثر من 10.
  7. خطأ من النوع الأول: نستنتج أن نسبة الأمريكيين الذين يفضلون العيش بعيدًا عن المدن لا تقارب النصف ، على الرغم من أن النسبة الفعلية تقارب النصف. خطأ من النوع الثاني: نستنتج أن نسبة الأمريكيين الذين يفضلون العيش بعيدًا عن المدن هي النصف بينما في الحقيقة ليست النصف.
  8. خطأ من النوع الأول: نستنتج أن مدة الإجازات مدفوعة الأجر للأوروبيين كل عام ليست ستة أسابيع ، بينما في الحقيقة ستة أسابيع. خطأ من النوع الثاني: نستنتج أن مدة الإجازات مدفوعة الأجر للأوروبيين كل عام ستة أسابيع بينما ، في الواقع ، ليست كذلك.
  9. خطأ من النوع الأول: نستنتج أن النسبة أقل من 11٪ ، بينما هي بالفعل 11٪ على الأقل. خطأ من النوع الثاني: نستنتج أن نسبة النساء المصابات بسرطان الثدي لا تقل عن 11٪ بينما هي في الحقيقة أقل من 11٪.
  10. خطأ من النوع الأول: نستنتج أن متوسط ​​تكلفة التعليم في الجامعات الخاصة يزيد عن 20000 دولار ، رغم أنه في الواقع يبلغ 20000 دولار على الأكثر. خطأ من النوع الثاني: استنتجنا أن متوسط ​​تكلفة التعليم في الجامعات الخاصة يبلغ على الأكثر 20000 دولار أمريكي في حين أنه في الواقع يزيد عن 20000 دولار أمريكي.

س 9.3.2

بالنسبة إلى العبارات a-j في التمرين 9.109 ، أجب عما يلي في جمل كاملة.

  1. اذكر نتيجة ارتكاب خطأ من النوع الأول.
  2. اذكر نتيجة ارتكاب خطأ من النوع الثاني.

س 9.3.3

عندما يتم إنشاء دواء جديد ، يجب على شركة الأدوية إخضاعه للاختبار قبل الحصول على الإذن اللازم من إدارة الغذاء والدواء (FDA) لتسويق الدواء. لنفترض أن الفرضية الصفرية هي & ldquothe الدواء غير آمن. & rdquo ما هو الخطأ من النوع الثاني؟

  1. لاستنتاج أن الدواء آمن في حين أنه في الواقع غير آمن.
  2. عدم استنتاج أن الدواء آمن في حين أنه آمن في الواقع.
  3. لاستنتاج أن الدواء آمن في حين أنه آمن في الواقع.
  4. عدم استنتاج أن العقار غير آمن في حين أنه غير آمن في الواقع.

9.3.3 ق

س 9.3.4

يعتقد مدرس الإحصاء أن أقل من 20٪ من طلاب كلية إيفرجرين فالي (EVC) حضروا العرض الافتتاحي في منتصف الليل لأحدث أفلام هاري بوتر. استطلعت 84 من طلابها ووجدت أن 11 منهم حضروا عرض منتصف الليل. الخطأ من النوع الأول هو استنتاج أن النسبة المئوية لطلاب EVC الذين حضروا هي ________.

  1. 20٪ على الأقل ، في حين أنها في الواقع أقل من 20٪.
  2. 20٪ في حين أنها في الواقع 20٪.
  3. أقل من 20٪ ، بينما هي في الواقع 20٪ على الأقل.
  4. أقل من 20٪ ، بينما هي في الواقع أقل من 20٪.

س 9.3.4

يُعتقد أن طلاب الجبر المتوسطين في كلية ليك تاهو المجتمعية (LTCC) يحصلون على أقل من سبع ساعات من النوم كل ليلة في المتوسط. أنتج استبيان شمل 22 طالبًا من طلاب الجبر المتوسط ​​من LTCC متوسطًا قدره 7.24 ساعة مع انحراف معياري قدره 1.93 ساعة. عند مستوى دلالة 5٪ ، هل يحصل طلاب الجبر المتوسط ​​من LTCC على أقل من سبع ساعات من النوم كل ليلة في المتوسط؟

الخطأ من النوع الثاني لا يرفض أن متوسط ​​عدد ساعات النوم التي يحصل عليها طلاب LTCC كل ليلة هو سبع ساعات على الأقل بينما ، في الواقع ، متوسط ​​عدد الساعات

  1. أكثر من سبع ساعات.
  2. سبع ساعات على الأكثر.
  3. سبع ساعات على الأقل.
  4. أقل من سبع ساعات.

ق 9.3.4

س 9.3.5

في السابق ، ذكرت إحدى المنظمات أن المراهقين يقضون 4.5 ساعة في الأسبوع ، في المتوسط ​​، على الهاتف. تعتقد المنظمة أن المتوسط ​​أعلى حاليًا. سُئل خمسة عشر مراهقًا تم اختيارهم عشوائيًا عن عدد الساعات التي يقضونها على الهاتف في الأسبوع. كان متوسط ​​العينة 4.75 ساعة بانحراف معياري للعينة يبلغ 2.0. قم بإجراء اختبار فرضية ، الخطأ من النوع الأول هو:

  1. لاستنتاج أن متوسط ​​الساعات الحالية في الأسبوع أعلى من 4.5 ، في حين أنه في الواقع أعلى
  2. لاستنتاج أن متوسط ​​الساعات الحالية في الأسبوع أعلى من 4.5 ، في حين أنه في الواقع هو نفسه
  3. لاستنتاج أن متوسط ​​عدد الساعات في الأسبوع حاليًا هو 4.5 ، في حين أنه في الواقع أعلى
  4. لنستنتج أن متوسط ​​عدد الساعات في الأسبوع حاليًا لا يزيد عن 4.5 ، في حين أنه في الواقع ليس أعلى

مقدمة

& # x0201c يسمح لنا التحليل الإحصائي بوضع حدود لعدم اليقين لدينا ، ولكن ليس لإثبات أي شيء. & # x0201d & # x02014دوغلاس جي التمان [1]

أدت الحاجة المتزايدة إلى الممارسة الطبية القائمة على الأدلة إلى زيادة الأدبيات الطبية المدعومة بالإحصاءات: يتوقع القراء ويفترضون أن المجلات الطبية تنشر فقط الدراسات ذات النتائج غير المشكوك فيها التي يمكنهم استخدامها في ممارساتهم اليومية ، ويتوقع المحررون وغالبًا ما يطلبون من المؤلفين تقديم إجابات داعمة بشكل صارم. يقدم الباحثون مقالات بناءً على مقاييس النتائج والتحليلات والاستنتاجات الصالحة التي يُفترض أنها تدعي أو تشير إلى تفوق علاج على آخر ، أو فائدة اختبار تشخيصي جديد ، أو القيمة التنبؤية لبعض العلامات. ومن المفارقات أن التكرار المتزايد للنتائج التي تبدو متناقضة قد يؤدي إلى زيادة الشك في المجتمع الطبي.

يتجذر أحد الأسباب الأساسية لهذا اللغز في نظرية اختبار الفرضيات التي طورها بيرسون ونيمان في أواخر عشرينيات القرن الماضي [24 ، 25]. يتم تقديم غالبية الأبحاث الطبية في شكل مقارنة ، وأكثرها وضوحًا هو مقارنات العلاج في التجارب العشوائية ذات الشواهد. لتقييم ما إذا كان الاختلاف الملحوظ يُعزى على الأرجح إلى الصدفة وحدها أو إلى اختلاف حقيقي ، وضع الباحثون فرضية صفرية مفادها أنه لا يوجد فرق بين العلاجات البديلة. ثم قاموا بتحديد الاحتمال (القيمة p) ، وكان بإمكانهم الحصول على الفرق الملحوظ أو الفرق الأكبر إذا كانت الفرضية الصفرية صحيحة إذا كان هذا الاحتمال أقل من مستوى الأهمية الصريح المحدد مسبقًا ، الفرضية الصفرية (أي ، لا يوجد فرق) مرفوض. ومع ذلك ، بغض النظر عن نتائج الدراسة ، هناك دائمًا فرصة لاستنتاج وجود اختلاف عندما لا يوجد في الواقع (خطأ من النوع الأول أو إيجابي كاذب) أو للإبلاغ عن عدم وجود فرق عند وجود اختلاف حقيقي (خطأ من النوع الثاني أو سلبية خاطئة) وقد فشلت الدراسة ببساطة في اكتشافها (الجدول & # x000a0 1). حجم العينة المدروسة هو المحدد الرئيسي لخطر الإبلاغ عن نتائج سلبية كاذبة. لذلك ، فإن حجم العينة مهم لتخطيط البحوث الطبية وتفسيرها.

جدول & # x000a01

أخطاء النوع الأول والنوع الثاني أثناء اختبار الفرضيات

حقيقةنتائج الدراسة
لا يتم رفض الفرضية الفارغةتم رفض الفرضية الفارغة
الفرضية الفارغة صحيحةصحيح سلبيالنوع الأول خطأ (ألفا) (خطأ موجب)
الفرضية الفارغة خاطئةخطأ من النوع الثاني (تجريبي) (خطأ سلبي)صحيح إيجابي

لهذا السبب ، نعتقد أنه يجب إعلام القراء بشكل كاف بالمسائل المتكررة المتعلقة بحجم العينة ، مثل (1) المستوى المطلوب للدلالة الإحصائية ، (2) فرص اكتشاف اختلاف في الحجم المحدد بين المجموعات التي تمت مقارنتها ، أي ، القوة ، (3) هذا الاختلاف المستهدف ، و (4) تغير البيانات (للبيانات الكمية). سوف نوضح هذه الأمور بمقارنة بين علاجين في تجربة جراحية معشاة ذات شواهد. كما سيتم تقديم استخدام حجم العينة في مجالات الإحصاء المشتركة الأخرى ، مثل تحليلات التقدير والانحدار.


مواضيع إضافية في الاحتمالية

3.7.2 أمثلة على برنامج Minitab

يحتوي برنامج Minitab على إجراءات فرعية يمكنها إجراء عمليات حسابية بتنسيق pdf و cdf. على سبيل المثال ، بالنسبة للمتغيرات العشوائية ذات الحدين ، يمكن حساب pdf و cdf على التوالي باستخدام التعليقات التالية.

الممارسة: جرب ما يلي وشاهد ما تحصل عليه.

ذات الحدين مع N = 5 P = 0.400000

وبالمثل ، إذا أردنا حساب cdf لتوزيع احتمالية عادي بمتوسط ​​k وانحراف معياري ، فاستخدم التعليقات التالية.

الممارسة: جرب ما يلي.

يمكننا استخدام الأمر invcdf لإيجاد معكوس cdf. لاحتمال معين ص, ص(Xx) = F(x) = ص، نحن نستطيع ان نجد x لتوزيع معين. على سبيل المثال ، لتوزيع احتمالي عادي بمتوسط ​​k وانحراف معياري ، استخدم ما يلي.

مثال 3.7.1

تدعي الشركة المصنعة للطابعة الملونة أن 5٪ فقط من طابعاتها تتطلب إصلاحات خلال العام الأول. إذا كان من أصل 18 عينة عشوائية من طابعاتهم ، أربعة إصلاحات مطلوبة خلال السنة الأولى ، فهل هذا يميل إلى دحض أو دعم مطالبة الشركة المصنعة؟ استخدم برنامج Minitab.

اكتب الأرقام من 1 إلى 18 في C1. ثم

احسب & gt التوزيعات الاحتمالية & gt ذات الحدين. . . & GT أختر الاحتمال التراكمي & GT في عدد من المحاكمات، أدخل 18 و في احتمالية النجاح، أدخل 0.05 & GT في عمود الإدخال: اكتب C1 & GT انقر حسنا

الاحتمال المطلوب هو P (X≥4) = 1 - P (X ≤ 3) = 1 - 0.9891 = 0.0109.

فحص التوزيع

من أجل إجراء تحليل إحصائي صحيح ، من الضروري معرفة توزيع البيانات التي نستخدمها. يمكننا استخدام برنامج Minitab للقيام بذلك باتباع الخطوات.

اختر أدوات الجودة Stat & gt & gt تحديد التوزيع الفردي.

حدد عمود البيانات للتحليل والتوزيع للتحقق من ذلك.


محتويات

في الأدبيات الإحصائية ، يلعب اختبار الفرضيات الإحصائية دورًا أساسيًا. [4] هناك عمليتان مكافئتان رياضيًا يمكن استخدامهما. [5]

خط التفكير المعتاد هو كما يلي:

  1. هناك فرضية بحثية أولية تكون الحقيقة غير معروفة.
  2. الخطوة الأولى هي ذكر ذات الصلة باطل و فرضيات بديلة. هذا أمر مهم ، لأن سوء صياغة الفرضيات سيؤدي إلى تعكير بقية العملية.
  3. الخطوة الثانية هي النظر في الافتراضات الإحصائية التي يتم إجراؤها حول العينة عند إجراء الاختبار ، على سبيل المثال ، الافتراضات حول الاستقلال الإحصائي أو شكل توزيعات الملاحظات. هذا مهم بنفس القدر لأن الافتراضات غير الصحيحة ستعني أن نتائج الاختبار غير صالحة.
  4. حدد الاختبار المناسب ، واذكر الاختبار المناسب اختبار الإحصائية تي.
  5. اشتق توزيع إحصاء الاختبار تحت فرضية العدم من الافتراضات. في الحالات القياسية ستكون هذه نتيجة معروفة جيدًا. على سبيل المثال ، قد تتبع إحصائية الاختبار توزيع t للطالب بدرجات حرية معروفة ، أو توزيعًا عاديًا بمتوسط ​​وتباين معروفين. إذا تم إصلاح توزيع إحصائية الاختبار تمامًا من خلال الفرضية الصفرية ، فإننا نسمي الفرضية بسيطة ، وإلا يطلق عليها اسم مركب.
  6. حدد مستوى الأهمية (α) ، حد احتمالي سيتم رفض الفرضية الصفرية التي تحته. القيم المشتركة هي 5٪ و 1٪.
  7. توزيع إحصاء الاختبار تحت أقسام الفرضية الصفرية ، القيم المحتملة لـ T إلى تلك التي تم رفض فرضية العدم لها - ما يسمى منطقة حرجة- وتلك التي ليست كذلك. احتمال المنطقة الحرجة هو α. في حالة فرضية العدم المركبة ، يكون الاحتمال الأقصى للمنطقة الحرجة هو α.
  8. احسب من الملاحظات القيمة الملاحظة t Obs من إحصاء الاختبار T.
  9. قرر إما رفض فرضية العدم لصالح البديل أو عدم رفضها. قاعدة القرار هي رفض فرضية العدم H 0 إذا كانت القيمة الملاحظة t Obs تقع في المنطقة الحرجة ، وتقبل أو "تفشل في رفض" الفرضية بطريقة أخرى.

الصيغة البديلة الشائعة لهذه العملية هي كما يلي:

  1. احسب من الملاحظات القيمة الملاحظة t Obs من إحصاء الاختبار T.
  2. احسب ص-القيمة. هذا هو الاحتمال ، في ظل الفرضية الصفرية ، لأخذ عينات من إحصاء الاختبار على الأقل بنفس القدر الذي لوحظ (الاحتمال الأقصى لهذا الحدث ، إذا كانت الفرضية مركبة).
  3. ارفض الفرضية الصفرية لصالح الفرضية البديلة إذا وفقط إذا كان ص- القيمة أقل من (أو تساوي) مستوى الأهمية (الاحتمال المحدد) عتبة (α ).

كانت العملية السابقة مفيدة في الماضي عندما كانت جداول إحصائيات الاختبار عند حدود الاحتمالية المشتركة فقط متاحة. سمح باتخاذ القرار دون حساب الاحتمال. كان مناسبًا للعمل في الفصل وللاستخدام التشغيلي ، لكنه كان ناقصًا للإبلاغ عن النتائج. اعتمدت العملية الأخيرة على جداول ممتدة أو على دعم حسابي غير متوفر دائمًا. الحساب الصريح للاحتمال مفيد في إعداد التقارير. يتم الآن إجراء الحسابات بشكل تافه باستخدام البرامج المناسبة.

الفرق في العمليتين المطبقة على مثال الحقيبة المشعة (أدناه):

  • "قراءة عداد جيجر هو 10. الحد الأقصى هو 9. افحص الحقيبة."
  • "قراءة عداد جيجر عالية ، 97٪ من الحقائب الآمنة لها قراءات أقل. الحد الأقصى هو 95٪. افحص الحقيبة."

التقرير الأول كافٍ ، بينما يقدم الأخير شرحًا أكثر تفصيلاً للبيانات وسبب فحص الحقيبة.

من المهم الفرق بين قبول الفرضية الصفرية والفشل ببساطة في رفضها. يسلط مصطلح "الفشل في الرفض" الضوء على حقيقة أن النتيجة غير المهمة لا توفر طريقة لتحديد أي من الفرضيتين صحيح ، لذلك كل ما يمكن استنتاجه هو أن الفرضية الصفرية لم يتم رفضها. قد تشير عبارة "قبول الفرضية الصفرية" إلى أنه قد تم إثباتها ببساطة لأنه لم يتم دحضها ، وهي مغالطة منطقية تُعرف باسم حجة الجهل. ما لم يتم استخدام اختبار بقوة عالية بشكل خاص ، فمن المحتمل أن تكون فكرة "قبول" الفرضية الصفرية غير صحيحة. ومع ذلك ، فإن المصطلحات سائدة في جميع أنحاء الإحصاءات ، حيث يكون المعنى المقصود بالفعل مفهوما جيدا.

العمليات الموصوفة هنا مناسبة تمامًا للحساب. إنهم يتجاهلون بشكل خطير اعتبارات تصميم التجارب. [6] [7]

من الأهمية بمكان بشكل خاص أن يتم تقدير أحجام العينات المناسبة قبل إجراء التجربة.

صاغ الإحصائي رونالد فيشر عبارة "اختبار الأهمية". [8]

تفسير تحرير

ال ص-القيمة هي احتمال حدوث نتيجة معينة (أو نتيجة أكثر أهمية) في ظل فرضية العدم. عند مستوى دلالة 0.05 ، من المتوقع أن ترفض العملة العادلة (بشكل غير صحيح) الفرضية الصفرية في حوالي 1 من كل 20 اختبارًا. ال ص-لا توفر القيمة احتمال صحة أي من الفرضيتين (مصدر شائع للارتباك). [9]

إذا كان ص- القيمة أقل من عتبة الأهمية المختارة (بالتساوي ، إذا كانت إحصائية الاختبار المرصودة في المنطقة الحرجة) ، فإننا نقول إن الفرضية الصفرية مرفوضة عند مستوى الأهمية المختار. رفض الفرضية الصفرية هو نتيجة. هذا مثل حكم "مذنب" في محاكمة جنائية: الأدلة كافية لرفض البراءة ، مما يعني ضمنا الذنب.

إذا كان ص-القيمة ليس أقل من عتبة الأهمية المختارة (بالتساوي ، إذا كانت إحصائية الاختبار المرصودة خارج المنطقة الحرجة) ، فإن الدليل غير كافٍ لدعم الاستنتاج. (هذا مشابه لحكم "غير مذنب".) يعطي الباحث عادةً مزيدًا من الاهتمام لتلك الحالات التي يكون فيها ص-قيمة قريبة من مستوى الأهمية.

في مثال تذوق الشاي للسيدة (أدناه) ، طلب فيشر من السيدة تصنيف جميع أكواب الشاي بشكل صحيح لتبرير الاستنتاج بأن النتيجة من غير المرجح أن تنتج عن الصدفة. كشف اختباره أنه إذا كانت السيدة تخمن بشكل فعال عشوائيًا (الفرضية الصفرية) ، فهناك فرصة بنسبة 1.4 ٪ لحدوث النتائج المرصودة (الشاي المطلوب تمامًا).

إن رفض الفرضية القائلة بأن بصمة مخلب كبيرة نشأت من دب لا يثبت على الفور وجود بيغ فوت. يؤكد اختبار الفرضية على الرفض ، الذي يعتمد على الاحتمالية ، وليس القبول ، الأمر الذي يتطلب خطوات إضافية من المنطق.

"إن احتمال رفض الفرضية الصفرية هو دالة لخمسة عوامل: ما إذا كان الاختبار ذو طرف واحد أو ثنائي الطرف ، ومستوى الأهمية ، والانحراف المعياري ، ومقدار الانحراف عن الفرضية الصفرية ، وعدد الملاحظات. " [10] تعتبر هذه العوامل مصدرًا لعوامل النقد الخاضعة لسيطرة المجرب / المحلل وتعطي النتائج مظهرًا للذاتية.

الاستخدام والأهمية تحرير

الإحصائيات مفيدة في تحليل معظم مجموعات البيانات. هذا صحيح بنفس القدر في اختبار الفرضيات الذي يمكن أن يبرر الاستنتاجات حتى في حالة عدم وجود نظرية علمية. في مثال السيدة التي تتذوق الشاي ، كان "واضحًا" أنه لا يوجد فرق بين (صب الحليب في الشاي) و (الشاي المصبوب في الحليب). تناقض البيانات "الواضح".

تتضمن تطبيقات العالم الحقيقي لاختبار الفرضيات: [11]

  • اختبار ما إذا كان الرجال يعانون من الكوابيس أكثر من النساء
  • إثبات تأليف الوثائق
  • تقييم تأثير البدر على السلوك
  • تحديد النطاق الذي يمكن للخفاش من خلاله اكتشاف حشرة عن طريق الصدى
  • تحديد ما إذا كان سجاد المستشفى يؤدي إلى المزيد من العدوى
  • اختيار أفضل الوسائل للإقلاع عن التدخين
  • التحقق مما إذا كانت ملصقات المصد تعكس سلوك مالك السيارة
  • اختبار ادعاءات محللي خط اليد

يلعب اختبار الفرضيات الإحصائية دورًا مهمًا في مجمل الإحصاء وفي الاستدلال الإحصائي. على سبيل المثال ، يقول Lehmann (1992) في مراجعة للورقة الأساسية بواسطة Neyman and Pearson (1933): "ومع ذلك ، على الرغم من أوجه القصور ، فإن النموذج الجديد الذي تمت صياغته في ورقة عام 1933 ، والتطورات العديدة التي تم تنفيذها في إطاره تستمر في تلعب دورًا مركزيًا في كل من النظرية والتطبيق في مجال الإحصاء ، ويمكن توقع القيام بذلك في المستقبل المنظور ".

كان اختبار الأهمية هو الأداة الإحصائية المفضلة في بعض العلوم الاجتماعية التجريبية (أكثر من 90 ٪ من المقالات في مجلة علم النفس التطبيقي خلال أوائل التسعينيات). [12] فضلت الحقول الأخرى تقدير المعلمات (مثل حجم التأثير). يستخدم اختبار الأهمية كبديل للمقارنة التقليدية للقيمة المتوقعة والنتيجة التجريبية في جوهر الطريقة العلمية. عندما تكون النظرية قادرة فقط على التنبؤ بعلامة العلاقة ، يمكن تكوين اختبار فرضية اتجاهية (من جانب واحد) بحيث تدعم النتيجة ذات الدلالة الإحصائية فقط النظرية. هذا النوع من تقييم النظرية هو التطبيق الأكثر انتقادًا لاختبار الفرضيات.

يحذر تحرير

"إذا طلبت الحكومة إجراءات إحصائية لحمل علامات التحذير مثل تلك الموجودة على الأدوية ، فإن معظم طرق الاستدلال سيكون لها بالفعل ملصقات طويلة. [13] ينطبق هذا التحذير على اختبارات الفرضيات والبدائل لها.

يرتبط اختبار الفرضية الناجح باحتمالية ومعدل خطأ من النوع الأول. الإستنتاج قد كن مخطيء.

تكون نتيجة الاختبار صلبة فقط مثل العينة التي يستند إليها. تصميم التجربة أمر بالغ الأهمية. لوحظ عدد من الآثار غير المتوقعة بما في ذلك:

  • تأثير هانز الذكي. يبدو أن الحصان قادر على إجراء العمليات الحسابية البسيطة.
  • تأثير هوثورن. كان العمال الصناعيون أكثر إنتاجية في الإضاءة الأفضل والأكثر إنتاجية في الأسوأ.
  • تأثير الدواء الوهمي. كانت الحبوب التي لا تحتوي على مكونات نشطة طبيًا فعالة بشكل ملحوظ.

ينتج عن التحليل الإحصائي للبيانات المضللة استنتاجات مضللة. يمكن أن تكون مسألة جودة البيانات أكثر دقة. في التنبؤ على سبيل المثال ، لا يوجد اتفاق على مقياس دقة التنبؤ. في حالة عدم وجود قياس إجماعي ، لن يكون أي قرار يعتمد على القياسات بدون جدال.

الكتاب كيف تكذب مع الإحصاء [14] [15] هو أشهر كتاب تم نشره على الإطلاق في مجال الإحصاء. [16] لا ينظر كثيرًا في اختبار الفرضيات ، ولكن تحذيراته قابلة للتطبيق ، بما في ذلك: يتم تقديم العديد من الادعاءات على أساس عينات صغيرة جدًا بحيث لا يمكن إقناعها. إذا لم يذكر التقرير حجم العينة ، فكن مشكوكًا فيه.

يعمل اختبار الفرضيات كمرشح للاستنتاجات الإحصائية فقط تلك النتائج التي تلبي عتبة الاحتمالية تكون قابلة للنشر. يعمل الاقتصاد أيضًا كمرشح للنشر فقط تلك النتائج المواتية للمؤلف ويمكن تقديم مصدر التمويل للنشر. تأثير التصفية على النشر يسمى تحيز النشر. والمشكلة ذات الصلة هي تلك المتعلقة باختبار متعدد (يرتبط أحيانًا بالتنقيب في البيانات) ، حيث يتم تطبيق مجموعة متنوعة من الاختبارات لمجموعة متنوعة من التأثيرات المحتملة على مجموعة بيانات واحدة ويتم الإبلاغ فقط عن تلك التي تسفر عن نتيجة مهمة. غالبًا ما يتم التعامل معها باستخدام إجراءات تصحيح التعددية التي تتحكم في معدل الخطأ العائلي (FWER) أو معدل الاكتشاف الخاطئ (FDR).

أولئك الذين يتخذون قرارات حاسمة بناءً على نتائج اختبار الفرضية هم من الحكمة أن ينظروا إلى التفاصيل بدلاً من الخاتمة وحدها. في العلوم الفيزيائية ، يتم قبول معظم النتائج بشكل كامل فقط عندما يتم تأكيدها بشكل مستقل. النصيحة العامة المتعلقة بالإحصاءات هي: "الأرقام لا تكذب أبدًا ، لكن الكذابون شخصية" (مجهول).

نسبة الجنس البشري تحرير

يُنسب الاستخدام المبكر لاختبار الفرضيات الإحصائية عمومًا إلى مسألة ما إذا كانت ولادات الذكور والإناث متساوية في الاحتمال (فرضية العدم) ، والتي تم تناولها في القرن الثامن عشر بواسطة جون أربوثنوت (1710) ، [17] ولاحقًا بواسطة بيير سيمون لابلاس (1770). [18]

فحص Arbuthnot سجلات المواليد في لندن لكل 82 عامًا من 1629 إلى 1710 ، وطبق اختبار الإشارة ، وهو اختبار بسيط غير حدودي. [19] [20] [21] في كل عام ، تجاوز عدد الذكور المولودين في لندن عدد الإناث. بالنظر إلى أن عدد المواليد الذكور أو أكثر من الإناث متساوٍ في الاحتمال ، فإن احتمال النتيجة المرصودة هو 0.5 82 ، أو حوالي 1 من 4،8360،0000،0000،0000،0000،0000 بالمصطلحات الحديثة ، هذا هو ص-القيمة. استنتج أربوثنوت أن هذا أصغر من أن يكون بسبب الصدفة ويجب بدلاً من ذلك أن يكون راجعاً إلى العناية الإلهية: "من حيث يتبع ، أن الفن ، وليس الصدفة ، هو الذي يحكم". في المصطلحات الحديثة ، رفض الفرضية الصفرية للمواليد الذكور والإناث على قدم المساواة في ص = 1/2 82 مستوى دلالة.

نظر لابلاس في إحصائيات ما يقرب من نصف مليون ولادة. أظهرت الإحصائيات وجود فائض في الأولاد مقارنة بالفتيات. [22] [23] واختتم بحساب أ ص-قيمة أن التجاوز كان تأثيراً حقيقياً ولكن غير مفسر. [24]

سيدة تذوق الشاي تحرير

في مثال مشهور لاختبار الفرضيات ، يُعرف باسم سيدة تذوق الشاي[25] زعمت الدكتورة موريل بريستول ، وهي زميلة فيشر ، أنها قادرة على معرفة ما إذا كان الشاي أو الحليب قد أضيفا إلى الكوب أولاً. اقترحت فيشر إعطاءها ثمانية أكواب ، أربعة من كل نوع ، بترتيب عشوائي. يمكن للمرء بعد ذلك أن يسأل ما هو الاحتمال بالنسبة لها للحصول على الرقم الذي حصلت عليه بشكل صحيح ، ولكن فقط عن طريق الصدفة. كانت الفرضية الصفرية أن السيدة ليس لديها مثل هذه القدرة. كانت إحصائية الاختبار عبارة عن عد بسيط لعدد النجاحات في اختيار الأكواب الأربعة. كانت المنطقة الحرجة هي الحالة الفردية لـ 4 حالات نجاح من 4 حالات محتملة بناءً على معيار الاحتمال التقليدي (& lt 5٪). يتوافق النمط المكون من 4 حالات نجاح مع 1 من 70 مجموعة ممكنة (p≈ 1.4٪). أكد فيشر أنه لا توجد فرضية بديلة مطلوبة (على الإطلاق). حددت السيدة بشكل صحيح كل كوب ، [26] والتي تعتبر نتيجة ذات دلالة إحصائية.

تحرير المحاكمة في قاعة المحكمة

إجراء الاختبار الإحصائي يمكن مقارنته بمحاكمة جنائية يعتبر المدعى عليه غير مذنب طالما لم تثبت إدانته. يحاول المدعي العام إثبات ذنب المتهم. فقط عندما يكون هناك ما يكفي من الأدلة للادعاء يتم إدانة المدعى عليه.

يتم رفض فرضية البراءة فقط عندما يكون الخطأ غير مرجح للغاية ، لأن المرء لا يريد إدانة متهم بريء. يسمى هذا الخطأ خطأ من النوع الأول (أي إدانة شخص بريء) ، ويتم التحكم في حدوث هذا الخطأ ليكون نادرًا. نتيجة لهذا السلوك غير المتماثل ، فإن خطأ من النوع الثاني (تبرئة الشخص الذي ارتكب الجريمة) ، أكثر شيوعًا.

ح0 صحيح
حقا غير مذنب
ح1 صحيح
حقا مذنب
قبول فرضية العدم
البراءة
القرار الصحيح قرار خاطئ
النوع الثاني خطأ
رفض فرضية العدم
اعتقاد
قرار خاطئ
اكتب أنا خطأ
القرار الصحيح

يمكن اعتبار المحاكمة الجنائية إحدى عمليتي اتخاذ القرار أو كليهما: مذنب مقابل غير مذنب أو دليل مقابل عتبة ("دون شك معقول"). من وجهة نظر واحدة ، يحكم على المدعى عليه من وجهة نظر أخرى ، يتم الحكم على أداء النيابة (التي تتحمل عبء الإثبات). يمكن اعتبار اختبار الفرضية إما حكمًا على فرضية أو حكمًا على الأدلة.

تحرير حبوب الفلاسفة

تم إنتاج المثال التالي بواسطة فيلسوف يصف الأساليب العلمية الأجيال قبل إضفاء الطابع الرسمي على اختبار الفرضيات ونشره. [27]

قليل من حبوب هذه الحفنة بيضاء.
معظم الفاصوليا في هذه الحقيبة بيضاء.
لذلك: ربما تم أخذ هذه الحبوب من كيس آخر.
هذا استنتاج افتراضي.

الحبوب الموجودة في الكيس هي السكان. حفنة هي العينة. الفرضية الصفرية هي أن العينة نشأت من المجتمع. معيار رفض فرضية العدم هو الاختلاف "الواضح" في المظهر (اختلاف غير رسمي في الوسط). والنتيجة المثيرة للاهتمام هي أن النظر في مجموعة سكانية حقيقية وعينة حقيقية أنتج حقيبة خيالية. كان الفيلسوف يفكر في المنطق وليس الاحتمال. لكي يكون اختبار فرضية إحصائيًا حقيقيًا ، يتطلب هذا المثال الإجراءات الشكلية لحساب الاحتمال ومقارنة هذا الاحتمال بالمعيار.

يعتبر التعميم البسيط للمثال كيسًا مختلطًا من الفاصوليا وحفنة تحتوي إما على عدد قليل جدًا أو عدد كبير جدًا من الفاصوليا البيضاء. التعميم يعتبر كلا الطرفين. يتطلب الأمر المزيد من العمليات الحسابية والمزيد من المقارنات للوصول إلى إجابة رسمية ، لكن الفلسفة الأساسية لم تتغير إذا كان تكوين الحفنة مختلفًا بشكل كبير عن تكوين الحقيبة ، فمن المحتمل أن تكون العينة قد نشأت من كيس آخر. يُطلق على المثال الأصلي اختبار أحادي الجانب أو اختبار أحادي الطرف بينما يُطلق على التعميم اختبار من جانبين أو ثنائي الطرف.

يعتمد البيان أيضًا على الاستدلال على أن أخذ العينات كان عشوائيًا. إذا كان شخص ما يبحث في الكيس للعثور على الفاصوليا البيضاء ، فسيشرح ذلك سبب احتواء الحفنة على الكثير من الفاصوليا البيضاء ، ويشرح أيضًا سبب نفاد عدد الفاصوليا البيضاء في الكيس (على الرغم من أن الكيس يُفترض على الأرجح أكبر بكثير من يد المرء).

لعبة بطاقة مستبصر تحرير

يتم اختبار الشخص (الموضوع) من أجل الاستبصار. يظهر لهم عكس بطاقة اللعب المختارة عشوائياً 25 مرة ويسألون عن أي من المجموعات الأربع تنتمي إليها. يتم استدعاء عدد مرات الوصول ، أو الإجابات الصحيحة X.

بينما نحاول العثور على دليل على استبصارهم ، في الوقت الحالي ، فإن الفرضية الصفرية هي أن الشخص ليس مستبصرًا. [28] البديل هو: أن يكون الشخص مستبصرًا (أكثر أو أقل).

إذا كانت الفرضية الصفرية صحيحة ، فإن الشيء الوحيد الذي يمكن لشخص الاختبار القيام به هو التخمين. لكل بطاقة ، يكون الاحتمال (التردد النسبي) لظهور أي حلة واحدة هو 1/4. إذا كان البديل صالحًا ، فسيتوقع موضوع الاختبار المناسب بشكل صحيح مع احتمال أكبر من 1/4. سوف نسمي احتمال التخمين بشكل صحيح ص. الفرضيات إذن هي:

عندما يتنبأ موضوع الاختبار بشكل صحيح بجميع البطاقات البالغ عددها 25 ، فسوف نعتبرها مستبعدة ، ونرفض فرضية العدم. وهكذا أيضًا مع 24 أو 23 إصابة. مع 5 أو 6 ضربات فقط ، من ناحية أخرى ، لا يوجد سبب للنظر فيها. ولكن ماذا عن 12 إصابة ، أو 17 إصابة؟ ما هو الرقم الحرج ، ج، من الضربات ، عند أي نقطة نعتبر الموضوع مستبصرًا؟ كيف نحدد القيمة الحرجة ج؟ مع الاختيار ج= 25 (أي أننا نقبل الاستبصار فقط عندما يتم توقع جميع البطاقات بشكل صحيح) نحن أكثر أهمية من مع ج= 10. في الحالة الأولى ، لن يتم التعرف على أي شخص خاضع للاختبار على أنه مستبصر ، وفي الحالة الثانية ، سيجتاز عدد معين الاختبار. في الممارسة العملية ، يقرر المرء مدى أهمية المرء. أي أن المرء يقرر عدد المرات التي يقبل فيها المرء خطأ من النوع الأول - خطأ إيجابي خاطئ أو خطأ من النوع الأول. مع ج = 25 احتمال حدوث مثل هذا الخطأ هو:

وبالتالي ، صغيرة جدًا. احتمال وجود موجب خاطئ هو احتمال التخمين العشوائي بشكل صحيح كل 25 مرة.

أن تكون أقل انتقادًا ، مع ج= 10 يعطي:

هكذا، ج = 10 ينتج عنه احتمال أكبر للإيجابية الخاطئة.

قبل إجراء الاختبار فعليًا ، يكون الحد الأقصى للاحتمال المقبول لخطأ من النوع الأول (α) يتم تحديد. عادةً ما يتم تحديد القيم في النطاق من 1٪ إلى 5٪. (إذا كان الحد الأقصى لمعدل الخطأ المقبول هو صفر ، يلزم وجود عدد لا حصر له من التخمينات الصحيحة.) اعتمادًا على معدل الخطأ من النوع 1 ، القيمة الحرجة ج تم حسابه. على سبيل المثال ، إذا حددنا معدل خطأ 1٪ ، ج يتم حسابه على هذا النحو:

من بين جميع الأرقام c ، مع هذه الخاصية ، نختار الأصغر ، لتقليل احتمالية حدوث خطأ من النوع II ، وهو خطأ سلبي خاطئ. في المثال أعلاه ، نختار: c = 13 < displaystyle c = 13>.

حقيبة المشعة تحرير

كمثال ، ضع في اعتبارك تحديد ما إذا كانت الحقيبة تحتوي على بعض المواد المشعة. عند وضعه تحت عداد جيجر ، ينتج 10 عدات في الدقيقة. الفرضية الصفرية هي أنه لا توجد مادة مشعة في الحقيبة وأن جميع الأعداد المقاسة ترجع إلى النشاط الإشعاعي المحيط النموذجي للهواء المحيط والأشياء غير الضارة. يمكننا بعد ذلك حساب مدى احتمالية أن نلاحظ 10 تهم في الدقيقة إذا كانت الفرضية الصفرية صحيحة. إذا توقعت الفرضية الصفرية (على سبيل المثال) بمتوسط ​​9 تهم في الدقيقة ، فوفقًا لتوزيع بواسون النموذجي للانحلال الإشعاعي ، هناك فرصة بنسبة 41٪ لتسجيل 10 أو أكثر من التهم. وبالتالي يمكننا القول أن الحقيبة متوافقة مع فرضية العدم (هذا لا يضمن عدم وجود مادة مشعة ، فقط لأنه ليس لدينا أدلة كافية تشير إلى وجودها). من ناحية أخرى ، إذا توقعت الفرضية الصفرية 3 أعداد في الدقيقة (حيث يتوقع توزيع بواسون فرصة 0.1٪ فقط لتسجيل 10 أو أكثر) ، فإن الحقيبة غير متوافقة مع الفرضية الصفرية ، ومن المحتمل أن تكون هناك عوامل أخرى مسؤولة لإنتاج القياسات.

لا يؤكد الاختبار بشكل مباشر وجود مادة مشعة. أ ناجح يؤكد الاختبار أن الادعاء بعدم وجود مادة مشعة أمر غير محتمل بالنظر إلى القراءة (وبالتالي). إن السلبية المزدوجة (دحض الفرضية الصفرية) للطريقة مربكة ، لكن استخدام مثال مضاد للدحض هو ممارسة رياضية قياسية. جاذبية الطريقة هي عمليتها. نحن نعلم (من التجربة) النطاق المتوقع من التهم مع وجود النشاط الإشعاعي المحيط فقط ، لذلك يمكننا القول أن القياس هو بشكل غير عادي كبير. تقوم الإحصائيات فقط بإضفاء الطابع الرسمي على الحدس باستخدام الأرقام بدلاً من الصفات. ربما لا نعرف خصائص الحقائب المشعة ، لكننا نفترض فقط أنها تنتج قراءات أكبر.

لإضفاء الطابع الرسمي على الحدس بشكل طفيف: يُشتبه في النشاط الإشعاعي إذا كان عدد جيجر مع الحقيبة من بين أو يزيد عن (5٪ أو 1٪) من تعداد جيجر المصنوع من الإشعاع المحيط وحده. هذا لا يقدم أي افتراضات حول توزيع التهم. هناك حاجة إلى العديد من عمليات رصد الإشعاع المحيط للحصول على تقديرات احتمالية جيدة للأحداث النادرة.

الاختبار الموصوف هنا هو اختبار الدلالة الإحصائية للفرضية الصفرية. تمثل الفرضية الصفرية ما نعتقده بشكل افتراضي قبل رؤية أي دليل. الدلالة الإحصائية هي نتيجة محتملة للاختبار ، يتم الإعلان عنها عندما يكون من غير المحتمل أن تكون العينة التي تمت ملاحظتها قد حدثت بالصدفة إذا كانت الفرضية الصفرية صحيحة. يصف اسم الاختبار صياغته ونتائجه المحتملة. تتمثل إحدى سمات الاختبار في قراره الواضح: رفض الفرضية الصفرية أو عدم رفضها. تتم مقارنة القيمة المحسوبة بالعتبة ، والتي يتم تحديدها من مخاطر الخطأ المسموح بها.

تستند التعريفات التالية بشكل أساسي إلى العرض الوارد في كتاب ليمان ورومانو: [4]

الفرضية الإحصائية بيان حول المعلمات التي تصف السكان (وليس عينة). الإحصاء قيمة محسوبة من عينة بدون أي معلمات غير معروفة ، غالبًا لتلخيص العينة لأغراض المقارنة. فرضية بسيطة أي فرضية تحدد توزيع السكان بالكامل. الفرضية المركبة أي فرضية تفعل ذلك ليس تحديد توزيع السكان بالكامل. فرضية لاغية (H0) فرضية مرتبطة بتناقض نظرية يود المرء إثباتها. بيانات موجبة البيانات التي تمكن المحقق من رفض فرضية العدم. الفرضية البديلة (H1) فرضية (غالبًا مركبة) مرتبطة بنظرية يود المرء إثباتها. اختبار إحصائي إجراء تكون مدخلاته عينات ونتيجته فرضية. منطقة القبول مجموعة قيم إحصاء الاختبار التي فشلنا في رفض فرضية العدم لها. منطقة الرفض / المنطقة الحرجة مجموعة قيم إحصاء الاختبار التي تم رفض فرضية العدم لها. القيمة الحرجة القيمة الحرجة التي تحدد مناطق القبول والرفض لإحصاء الاختبار. قوة الاختبار (1 - β) احتمالية الاختبار لرفض الفرضية الصفرية بشكل صحيح عندما تكون الفرضية البديلة صحيحة. تكملة المعدل السلبي الخاطئ ، β. القوة تسمى حساسية في الإحصاء الحيوي. ("هذا اختبار حساس. لأن النتيجة سلبية ، يمكننا أن نقول بثقة أن المريض ليس لديه الحالة.") انظر الحساسية والخصوصية وأخطاء النوع الأول والنوع الثاني للحصول على تعريفات شاملة. الحجم بالنسبة للفرضيات البسيطة ، هذا هو احتمال الاختبار بشكل غير صحيح رفض الفرضية الصفرية. المعدل الإيجابي الخاطئ. بالنسبة للفرضيات المركبة ، هذا هو السيادة لاحتمال رفض الفرضية الصفرية على جميع الحالات التي تغطيها الفرضية الصفرية. يُطلق على تكملة المعدل الإيجابي الخاطئ النوعية في الإحصاء الحيوي. ("هذا اختبار محدد. نظرًا لأن النتيجة إيجابية ، يمكننا أن نقول بثقة أن المريض يعاني من الحالة.") انظر الحساسية والخصوصية وأخطاء النوع الأول والنوع الثاني للحصول على تعريفات شاملة. مستوى أهمية الاختبار (α) هو الحد الأعلى المفروض على حجم الاختبار. يتم اختيار قيمته من قبل الإحصائي قبل النظر في البيانات أو اختيار أي اختبار معين لاستخدامه. إنه أقصى تعرض لرفض H بشكل خاطئ0 أنهم مستعدون لقبولها. اختبار H.0 على مستوى الأهمية α يعني اختبار H.0 باختبار لا يتجاوز حجمه α. في معظم الحالات ، يستخدم المرء اختبارات حجمها مساوٍ لمستوى الأهمية. ص-value الاحتمال ، بافتراض صحة الفرضية الصفرية ، ملاحظة نتيجة متطرفة على الأقل مثل إحصائية الاختبار. في حالة وجود فرضية عديمة مركبة ، يكون احتمال أسوأ حالة. اختبار الدلالة الإحصائية: سابق لاختبار الفرضية الإحصائية (انظر قسم الأصول). قيل أن النتيجة التجريبية ذات دلالة إحصائية إذا كانت العينة غير متوافقة بدرجة كافية مع الفرضية (الصفرية). كان هذا يعتبر بشكل مختلف الفطرة السليمة ، والمرشد العملي لتحديد نتائج تجريبية ذات مغزى ، أو اتفاقية تحدد عتبة للأدلة الإحصائية أو طريقة لاستخلاص النتائج من البيانات. أضاف اختبار الفرضية الإحصائية صرامة رياضية واتساقًا فلسفيًا للمفهوم من خلال توضيح الفرضية البديلة. يستخدم المصطلح بشكل فضفاض للإصدار الحديث الذي أصبح الآن جزءًا من اختبار الفرضيات الإحصائية. الاختبار التحفظي يكون الاختبار متحفظًا إذا كان الاحتمال الحقيقي عند بنائه لمستوى أهمية اسمية معين بشكل غير صحيح رفض فرضية العدم لا يزيد أبدًا عن المستوى الاسمي. اختبار دقيق اختبار يمكن من خلاله حساب مستوى الأهمية أو القيمة الحرجة بدقة ، أي بدون أي تقريب. في بعض السياقات ، يقتصر هذا المصطلح على الاختبارات المطبقة على البيانات الفئوية واختبارات التقليب ، حيث يتم إجراء الحسابات عن طريق التعداد الكامل لجميع النتائج المحتملة واحتمالاتها.

يقارن اختبار فرضية إحصائية بين إحصائية اختبار (ض أو ر على سبيل المثال) إلى عتبة. تعتمد إحصائية الاختبار (الصيغة الموجودة في الجدول أدناه) على الأمثل. للحصول على مستوى ثابت من معدل الخطأ من النوع الأول ، يؤدي استخدام هذه الإحصائيات إلى تقليل معدلات الخطأ من النوع الثاني (ما يعادل تعظيم القدرة). تصف المصطلحات التالية الاختبارات من حيث هذا المستوى الأمثل:

أقوى اختبار لبعض بحجم أو مستوى الأهمية، الاختبار بأكبر قوة (احتمال الرفض) لقيمة معينة من المعلمة (المعلمات) التي يتم اختبارها ، الواردة في الفرضية البديلة. أقوى اختبار موحد (UMP) اختبار بأكبر قدر قوة لجميع قيم المعلمات التي يتم اختبارها ، الواردة في الفرضية البديلة.

يعد اختبار الفرضية الإحصائية أسلوبًا رئيسيًا لكل من الاستدلال المتكرر والاستدلال البايزي ، على الرغم من وجود اختلافات ملحوظة بين نوعي الاستدلال. تحدد اختبارات الفرضية الإحصائية إجراءً يتحكم (يصلح) في احتمال الخطأ اتخاذ القرار أن الموضع الافتراضي (فرضية فارغة) غير صحيح. يعتمد الإجراء على مدى احتمال حدوث مجموعة من الملاحظات إذا كانت الفرضية الصفرية صحيحة. لاحظ أن هذا الاحتمال لاتخاذ قرار غير صحيح هو ليس احتمال أن تكون الفرضية الصفرية صحيحة ، ولا ما إذا كانت أي فرضية بديلة محددة صحيحة. يتناقض هذا مع التقنيات الأخرى الممكنة لنظرية القرار التي يتم فيها التعامل مع الفرضية الصفرية والبديلة على أساس أكثر مساواة.

أحد الأساليب البايزية الساذجة لاختبار الفرضيات هو بناء القرارات على الاحتمال الخلفي ، [29] [30] ولكن هذا يفشل عند مقارنة الفرضيات المستمرة والنقطة. تحاول المناهج الأخرى لصنع القرار ، مثل نظرية القرار البايزية ، موازنة عواقب القرارات غير الصحيحة عبر جميع الاحتمالات ، بدلاً من التركيز على فرضية فارغة واحدة. يتوفر عدد من الأساليب الأخرى للوصول إلى قرار بناءً على البيانات من خلال نظرية القرار والقرارات المثلى ، وبعضها له خصائص مرغوبة. ومع ذلك ، يعد اختبار الفرضيات نهجًا سائدًا لتحليل البيانات في العديد من مجالات العلوم. تشمل امتدادات نظرية اختبار الفرضية دراسة قوة الاختبارات ، أي احتمال رفض الفرضية الصفرية بشكل صحيح نظرًا لأنها خاطئة. يمكن استخدام هذه الاعتبارات لغرض تحديد حجم العينة قبل جمع البيانات.

الاستخدام المبكر تحرير

بينما انتشر اختبار الفرضيات في أوائل القرن العشرين ، تم استخدام الأشكال المبكرة في القرن الثامن عشر. يُنسب الاستخدام الأول إلى جون أربوثنوت (1710) ، [31] يليه بيير سيمون لابلاس (سبعينيات القرن السابع عشر) ، في تحليل نسبة الجنس البشري عند الولادة انظر § نسبة الجنس البشري.

الأصول الحديثة والجدل المبكر تحرير

اختبار الأهمية الحديث هو إلى حد كبير نتاج كارل بيرسون (ص-value ، واختبار مربع كاي لبيرسون) ، وويليام سيلي جوسيت (توزيع الطالب) ، ورونالد فيشر ("فرضية فارغة" ، تحليل التباين ، "اختبار الأهمية") ، بينما تم تطوير اختبار الفرضيات بواسطة جيرزي نيمان وإيجون بيرسون (ابن كارل). بدأ رونالد فيشر حياته في الإحصاء باعتباره بايزي (زابيل 1992) ، ولكن سرعان ما أصبح فيشر محبطًا من الذاتية المتضمنة (أي استخدام مبدأ اللامبالاة عند تحديد الاحتمالات السابقة) ، وسعى إلى توفير نهج أكثر "موضوعية" للاستقراء. الإستنباط. [32]

كان فيشر إحصائيًا زراعيًا أكد على التصميم التجريبي الصارم والأساليب لاستخراج نتيجة من عينات قليلة تفترض توزيعات غاوسي. أكد نيمان (الذي تعاون مع بيرسون الأصغر) على الصرامة الرياضية والطرق للحصول على المزيد من النتائج من العديد من العينات ونطاق أوسع من التوزيعات. يعد اختبار الفرضيات الحديثة مزيجًا غير متسق من صياغة وطرق ومصطلحات Fisher vs Neyman / Pearson التي تم تطويرها في أوائل القرن العشرين.

شاع فيشر "اختبار الأهمية". لقد طلب فرضية العدم (المقابلة لتوزيع تردد السكان) وعينة. حددت حساباته (المألوفة الآن) ما إذا كان سيتم رفض فرضية العدم أم لا. لم يستخدم اختبار الأهمية فرضية بديلة لذلك لم يكن هناك مفهوم للخطأ من النوع الثاني.

ال ص- تم وضع القيمة كمؤشر غير رسمي ، ولكن موضوعي ، يهدف إلى مساعدة الباحث على تحديد (بناءً على معرفة أخرى) ما إذا كان يجب تعديل التجارب المستقبلية أو تقوية إيمان الفرد بفرضية العدم. [33] اختبار الفرضيات (وأخطاء النوع الأول / الثاني) ابتكرها نيمان وبيرسون كبديل أكثر موضوعية لفيشر. ص- القيمة ، ويقصد بها أيضًا تحديد سلوك الباحث ، ولكن دون الحاجة إلى أي استدلال استقرائي من قبل الباحث. [34] [35]

نيمان وأمبير بيرسون اعتبروا مشكلة مختلفة (أطلقوا عليها اسم "اختبار الفرضية"). لقد نظروا في البداية في فرضيتين بسيطتين (كلاهما مع توزيعات تردد). قاموا بحساب احتمالين واختيار الفرضية المرتبطة بالاحتمال الأعلى (من المرجح أن تكون الفرضية قد ولدت العينة). طريقتهم تختار دائمًا فرضية. كما سمح بحساب كلا النوعين من احتمالات الخطأ.

اشتبك فيشر ونيمان / بيرسون بمرارة. اعتبر نيمان / بيرسون أن صياغتهما عبارة عن تعميم محسن لاختبار الأهمية. (الورقة التعريفية [34] كانت مجردة. قام علماء الرياضيات بتعميم النظرية وصقلها لعقود. [36]) اعتقد فيشر أنها لا تنطبق على البحث العلمي لأن في كثير من الأحيان ، أثناء التجربة ، تم اكتشاف أن الافتراضات الأولية حول فرضية العدم مشكوك فيها بسبب مصادر الخطأ غير المتوقعة.وأعرب عن اعتقاده أن استخدام قرارات الرفض / القبول الصارمة بناءً على النماذج التي تمت صياغتها قبل جمع البيانات كان غير متوافق مع هذا السيناريو الشائع الذي يواجهه العلماء ومحاولات تطبيق هذه الطريقة على البحث العلمي ستؤدي إلى ارتباك جماعي. [37]

نشب الخلاف بين فيشر ونيمان-بيرسون على أسس فلسفية ، وصفها الفيلسوف بأنه نزاع حول الدور المناسب للنماذج في الاستدلال الإحصائي. [38]

تدخلت الأحداث: قبل نيمان منصبًا في نصف الكرة الغربي ، وكسر شراكته مع بيرسون وفصل المتنازعين (الذين احتلوا نفس المبنى) عن الكثير من قطر الكوكب. قدمت الحرب العالمية الثانية استراحة في النقاش. انتهى الخلاف بين فيشر ونيمان (لم يتم حله بعد 27 عامًا) بوفاة فيشر في عام 1962. كتب نيمان تأبينًا ذائع الصيت. [39] ذكرت بعض منشورات نيمان اللاحقة ص- القيم ومستويات الأهمية. [40]

النسخة الحديثة من اختبار الفرضيات هي مزيج من النهجين اللذين نتجا عن ارتباك من قبل كتاب الكتب المدرسية الإحصائية (كما تنبأ فيشر) بداية من الأربعينيات. [41] (لكن كشف الإشارات ، على سبيل المثال ، ما زال يستخدم صيغة نيمان / بيرسون.) تم تجاهل الاختلافات المفاهيمية الكبيرة والعديد من المحاذير بالإضافة إلى تلك المذكورة أعلاه. قدم نيمان وبيرسون المصطلحات الأقوى والرياضيات الأكثر صرامة والفلسفة الأكثر اتساقًا ، لكن الموضوع الذي يتم تدريسه اليوم في الإحصاء التمهيدي له أوجه تشابه مع طريقة فيشر أكثر من طريقتهم. [42] يشرح هذا التاريخ المصطلحات غير المتسقة (مثال: الفرضية الصفرية غير مقبولة أبدًا ، ولكن هناك منطقة قبول).

في وقت ما حوالي عام 1940 ، [41] في محاولة واضحة لتزويد الباحثين بطريقة "غير مثيرة للجدل" [43] للحصول على كعكتهم وتناولها أيضًا ، بدأ مؤلفو الكتب النصية الإحصائية في الجمع بين هاتين الاستراتيجيتين بشكل مجهول باستخدام ص- القيمة بدلاً من إحصائية (أو بيانات) الاختبار لاختبارها مقابل "مستوى أهمية" نيمان-بيرسون. [41] وبالتالي ، تم تشجيع الباحثين على استنتاج قوة بياناتهم مقابل استخدام بعض الفرضيات الصفرية ص- القيم ، مع التفكير أيضًا في أنها تحتفظ بموضوعية ما بعد جمع البيانات التي يوفرها اختبار الفرضيات. ثم أصبح من المعتاد استخدام فرضية العدم ، والتي كانت في الأصل فرضية بحثية واقعية ، لاستخدامها فقط تقريبًا كفرضية "لا شيء" (فرضية لا يكون للعلاج فيها أي تأثير ، بغض النظر عن السياق). [44]

مقارنة بين فيشر ، متردد (نيمان - بيرسون)
# اختبار فرضية فيشر الفارغة نظرية قرار نيمان بيرسون
1 قم بإعداد فرضية فارغة إحصائية. لا يلزم أن تكون القيمة الصفرية عبارة عن فرضية صفرية (أي اختلاف صفري). قم بإعداد فرضيتين إحصائيتين ، H1 و H2 ، وحدد حجم العينة α و قبل التجربة ، بناءً على اعتبارات التكلفة والعائد الذاتية. هذه تحدد منطقة الرفض لكل فرضية.
2 اذكر المستوى الدقيق للأهمية (على سبيل المثال ، p = 0.051 أو p = 0.049). لا تستخدم مستوى 5٪ التقليدي ، ولا تتحدث عن قبول أو رفض الفرضيات. إذا كانت النتيجة "غير مهمة" ، فلا تستخلص أي استنتاجات ولا تتخذ قرارات ، لكن أوقف الحكم حتى تتوفر المزيد من البيانات. إذا كانت البيانات تقع في منطقة الرفض H1 ، اقبل H2 وإلا اقبل H1. لاحظ أن قبول فرضية لا يعني أنك تؤمن بها ، بل يعني فقط أنك تتصرف كما لو كانت صحيحة.
3 استخدم هذا الإجراء فقط إذا لم يكن معروفًا سوى القليل عن المشكلة المطروحة ، وفقط لاستخلاص استنتاجات مؤقتة في سياق محاولة فهم الموقف التجريبي. تقتصر فائدة الإجراء من بين أمور أخرى على المواقف التي يكون لديك فيها فصل من الفرضيات (على سبيل المثال ، إما μ1 = 8 أو μ2 = 10 صحيح) وحيث يمكنك إجراء مقايضات مجدية بين التكلفة والفائدة لاختيار ألفا وبيتا.

الخيارات المبكرة لفرضية العدم تحرير

جادل بول ميهل بأن الأهمية المعرفية لاختيار الفرضية الصفرية لم يتم الاعتراف بها إلى حد كبير. عندما يتم التنبؤ بالفرضية الصفرية من خلال النظرية ، فإن التجربة الأكثر دقة ستكون اختبارًا أكثر شدة للنظرية الأساسية. عندما تكون فرضية العدم افتراضية إلى "لا فرق" أو "لا تأثير" ، فإن التجربة الأكثر دقة هي اختبار أقل حدة للنظرية التي حفزت على إجراء التجربة. [45] لذلك قد يكون فحص أصول الممارسة الأخيرة مفيدًا:

1778: يقارن بيير لابلاس معدلات المواليد بين الأولاد والبنات في مدن أوروبية متعددة. يقول: "من الطبيعي أن نستنتج أن هذه الاحتمالات هي في نفس النسبة تقريبًا". وهكذا فإن فرضية لابلاس الصفرية بأن معدلات المواليد للبنين والبنات يجب أن تكون متساوية في ضوء "الحكمة التقليدية". [22]

1900: طور كارل بيرسون اختبار مربع كاي لتحديد "ما إذا كان شكل معين من منحنى التردد سيصف بشكل فعال العينات المأخوذة من مجموعة سكانية معينة." وبالتالي فإن الفرضية الصفرية هي أن السكان موصوفون ببعض التوزيعات التي تنبأت بها النظرية. يستخدم كمثال الأرقام الخمسة والستة في بيانات رمي ​​نرد Weldon. [46]

1904: يطور كارل بيرسون مفهوم "الطوارئ" من أجل تحديد ما إذا كانت النتائج مستقلة عن عامل فئوي معين. هنا تكون الفرضية الصفرية افتراضيًا أن شيئين غير مرتبطين (على سبيل المثال ، تشكل الندبة ومعدلات الوفاة من الجدري). [47] لم تعد فرضية العدم في هذه الحالة متنبأ بها من خلال النظرية أو الحكمة التقليدية ، ولكنها بدلاً من ذلك هي مبدأ اللامبالاة الذي دفع فيشر وآخرين إلى رفض استخدام "الاحتمالات العكسية". [48]

يمكن إجراء مثال لاختبار فرضية Neyman-Pearson من خلال تغيير مثال الحقيبة المشعة. إذا كانت "الحقيبة" في الواقع عبارة عن حاوية محمية لنقل المواد المشعة ، فيمكن عندئذٍ استخدام اختبار للاختيار من بين ثلاث فرضيات: لا يوجد مصدر إشعاعي موجود ، واحد موجود ، اثنان (كل) موجود. قد يكون الاختبار مطلوبًا للسلامة ، مع الإجراءات المطلوبة في كل حالة. يقول اختبار Neyman-Pearson lemma لاختبار الفرضيات أن المعيار الجيد لاختيار الفرضيات هو نسبة احتمالاتها (نسبة الاحتمالية). طريقة بسيطة للحل هي اختيار الفرضية ذات الاحتمالية الأعلى لأعداد جيجر التي تمت ملاحظتها. تطابق النتيجة النموذجية الحدس: عدد قليل من التهم يشير إلى عدم وجود مصدر ، والعديد من التهم يشير إلى مصدرين والتعداد الوسيط يشير إلى مصدر واحد. لاحظ أيضًا أنه عادة ما تكون هناك مشاكل في إثبات السلبية. يجب أن تكون الفرضيات الفارغة قابلة للدحض على الأقل.

يمكن لنظرية نيمان بيرسون أن تستوعب كلاً من الاحتمالات السابقة وتكاليف الإجراءات الناتجة عن القرارات. [49] يسمح الخيار الأول لكل اختبار بالنظر في نتائج الاختبارات السابقة (على عكس اختبارات الأهمية الخاصة بفيشر). يسمح هذا الأخير بالنظر في القضايا الاقتصادية (على سبيل المثال) وكذلك الاحتمالات. تظل نسبة الاحتمالية معيارًا جيدًا للاختيار من بين الفرضيات.

يعتمد شكلا اختبار الفرضيات على صيغ مشكلة مختلفة. الاختبار الأصلي مماثل لسؤال صواب / خطأ ، فاختبار نيمان-بيرسون أشبه بالاختيار من متعدد. من وجهة نظر توكي [50] ، ينتج الأول استنتاجًا على أساس دليل قوي فقط بينما يصدر الأخير قرارًا على أساس الأدلة المتاحة. في حين أن الاختبارين يبدوان مختلفين تمامًا من الناحية الرياضية والفلسفية ، فإن التطورات اللاحقة تؤدي إلى الادعاء المعاكس. ضع في اعتبارك العديد من المصادر المشعة الصغيرة. تصبح الفرضيات 0،1،2،3. حبيبات الرمل المشع. هناك القليل من التمييز بين لا شيء أو بعض الإشعاع (فيشر) و 0 حبة من الرمال المشعة مقابل جميع البدائل (نيمان - بيرسون). تناولت الورقة البحثية الرئيسية التي نشرها نيمان بيرسون عام 1933 [34] أيضًا الفرضيات المركبة (تلك التي يشتمل توزيعها على معلمة غير معروفة). أثبت مثال على أمثلية (الطالب) ر-اختبار "لا يمكن أن يكون هناك اختبار أفضل للفرضية قيد الدراسة" (ص 321). أثبتت نظرية Neyman-Pearson أن الأساليب المثلى في الصيد منذ نشأتها.

أثبت اختبار الأهمية الذي أجراه فيشر أنه أداة إحصائية مرنة شائعة في التطبيق مع القليل من إمكانات النمو الرياضي. يُزعم أن اختبار فرضية نيمان بيرسون هو أحد أعمدة الإحصاء الرياضي ، [51] مما يخلق نموذجًا جديدًا للمجال. كما حفز تطبيقات جديدة في التحكم في العمليات الإحصائية ، ونظرية الكشف ، ونظرية القرار ، ونظرية اللعبة. كلتا الصيغتين كانتا ناجحتين ، لكن النجاحات كانت ذات طابع مختلف.

الخلاف حول الصيغ لم يتم حله. يستخدم العلم أساسًا صيغة فيشر (المعدلة قليلاً) كما تم تدريسها في الإحصاء التمهيدي. يدرس الإحصائيون نظرية نيمان بيرسون في الدراسات العليا. يفخر علماء الرياضيات بتوحيد الصيغ. يعتبرهم الفلاسفة كل على حدة. تعتبر الآراء المكتسبة أن الصيغ تنافسية بشكل مختلف (فيشر مقابل نيمان) ، غير متوافقة [32] أو تكميلية. [36] أصبح الخلاف أكثر تعقيدًا منذ أن حقق الاستدلال البايزي الاحترام.

المصطلحات غير متسقة. يمكن أن يعني اختبار الفرضية أي مزيج من صيغتين تغيرت كليهما بمرور الوقت. أي مناقشة لاختبار الأهمية مقابل اختبار الفرضيات معرضة بشكل مضاعف للارتباك.

اعتقد فيشر أن اختبار الفرضيات كان استراتيجية مفيدة لأداء مراقبة الجودة الصناعية ، ومع ذلك ، فقد اختلف بشدة في أن اختبار الفرضيات يمكن أن يكون مفيدًا للعلماء. [33] يوفر اختبار الفرضية وسيلة لإيجاد إحصائيات الاختبار المستخدمة في اختبار الأهمية. [36] مفهوم القوة مفيد في شرح عواقب تعديل مستوى الأهمية ويستخدم بكثافة في تحديد حجم العينة. تظل الطريقتان مختلفتين فلسفيا. [38] هم عادة (لكن ليس دائما) ينتج نفس الإجابة الرياضية. الإجابة المفضلة تعتمد على السياق. [36] بينما تم انتقاد الاندماج الحالي لنظريات فيشر ونيمان-بيرسون بشدة ، فقد تم النظر في تعديل الاندماج لتحقيق أهداف بايز. [52]

نقد اختبار الفرضيات الإحصائية يملأ المجلدات. [53] [54] [55] [56] [57] [58] يمكن تلخيص الكثير من الانتقادات بالقضايا التالية:

  • تفسير أ ص- تعتمد القيمة على إيقاف القاعدة وتعريف المقارنة المتعددة. غالبًا ما يتغير الأول أثناء الدراسة والأخير غامض بشكل لا مفر منه. (على سبيل المثال ، تعتمد قيم p على كل من (البيانات) التي تمت ملاحظتها وعلى (البيانات) الأخرى الممكنة التي ربما تمت ملاحظتها ولكن لم يتم ملاحظتها). [59]
  • نتج الارتباك (جزئيًا) من الجمع بين أساليب فيشر ونيمان-بيرسون المتميزة من الناحية المفاهيمية. [50]
  • التأكيد على الدلالة الإحصائية لاستبعاد التقدير والتأكيد بالتجارب المتكررة. [60]
  • تتطلب بشكل صارم أهمية إحصائية كمعيار للنشر ، مما أدى إلى تحيز النشر. [61] معظم الانتقادات غير مباشرة. بدلاً من أن يكون اختبار الفرضيات الإحصائية خاطئًا ، يساء فهمه وإفراطه في استخدامه وإساءة استخدامه.
  • عند استخدامها لاكتشاف ما إذا كان هناك اختلاف بين المجموعات ، تنشأ مفارقة. مع إدخال تحسينات على التصميم التجريبي (مثل زيادة دقة القياس وحجم العينة) ، يصبح الاختبار أكثر تساهلاً. ما لم يقبل المرء الافتراض السخيف بأن جميع مصادر الضوضاء في البيانات تلغي تمامًا ، فإن فرصة العثور على دلالة إحصائية في أي من الاتجاهين تقترب من 100٪. [62] ومع ذلك ، فإن هذا الافتراض السخيف القائل بأن متوسط ​​الفرق بين مجموعتين لا يمكن أن يكون صفرًا يعني أن البيانات لا يمكن أن تكون مستقلة وموزعة بشكل متماثل (i.i.d.) لأن الاختلاف المتوقع بين أي مجموعتين فرعيتين لـ i. المتغيرات العشوائية تساوي صفرًا ، وبالتالي فإن i.i.d. الافتراض هو أيضا سخيف.
  • طبقات من الاهتمامات الفلسفية. إن احتمال الأهمية الإحصائية هو دالة للقرارات التي يتخذها المجربون / المحللون. [10] إذا كانت القرارات مبنية على اتفاقية ، فإنها توصف بأنها تعسفية أو طائشة [43] في حين أن تلك التي لا تستند إلى ذلك قد توصف بأنها ذاتية. لتقليل أخطاء النوع الثاني ، يوصى باستخدام عينات كبيرة. في علم النفس ، يُزعم عمليًا أن جميع الفرضيات الصفرية خاطئة بالنسبة للعينات الكبيرة بدرجة كافية ". وعادة ما يكون من غير المنطقي إجراء تجربة باستخدام باطن القدم يهدف إلى رفض فرضية العدم. ". [63]" النتائج المهمة إحصائيًا غالبًا ما تكون مضللة "في علم النفس. [64] الأهمية الإحصائية لا تعني أهمية عملية والارتباط لا يعني السببية. إن إلقاء الشك على الفرضية الصفرية بعيد كل البعد عن دعم فرضية البحث بشكل مباشر.
  • "[أنا] لا تخبرنا بما نريد أن نعرفه". [65] قوائم عشرات الشكاوى متوفرة. [57] [66] [67]

يتفق النقاد والمؤيدون إلى حد كبير على الحقائق فيما يتعلق بخصائص اختبار أهمية الفرضية الصفرية (NHST): في حين أنه يمكن أن يوفر معلومات مهمة ، فهو كذلك غير مناسب كأداة وحيدة للتحليل الإحصائي. قد لا يقدم الرفض الناجح للفرضية الصفرية أي دعم لفرضية البحث. يتعلق الجدل المستمر باختيار أفضل الممارسات الإحصائية في المستقبل القريب في ضوء الممارسات الحالية. ومع ذلك ، يمكن أن يقلل تصميم البحث المناسب من هذه المشكلة. يفضل النقاد حظر NHST تمامًا ، مما يفرض خروجًا تامًا عن هذه الممارسات ، بينما يقترح المؤيدون تغييرًا أقل مطلقًا. [ بحاجة لمصدر ]

أسفر الجدل حول اختبار الأهمية ، وتأثيراته على تحيز النشر على وجه الخصوص ، عن عدة نتائج. عززت الجمعية الأمريكية لعلم النفس متطلبات إعداد التقارير الإحصائية بعد المراجعة ، [68] وقد أقر ناشرو المجلات الطبية بالالتزام بنشر بعض النتائج التي ليست ذات دلالة إحصائية لمكافحة تحيز النشر [69] ومجلة (مجلة المقالات لدعم فرضية لاغية) لنشر هذه النتائج حصريًا. [70] أضافت الكتب المدرسية بعض التحذيرات [71] وزادت من تغطية الأدوات اللازمة لتقدير حجم العينة المطلوبة لتحقيق نتائج مهمة. لم تتخل المنظمات الرئيسية عن استخدام اختبارات الأهمية على الرغم من أن البعض ناقش القيام بذلك. [68]

يتمثل الموقف الموحد للنقاد في أن الإحصائيات لا ينبغي أن تؤدي إلى استنتاج أو قرار قبول أو رفض ، ولكن إلى قيمة تقديرية بتقدير الفاصل ، يشار إلى فلسفة تحليل البيانات هذه على نطاق واسع باسم إحصائيات التقدير. يمكن إنجاز إحصائيات التقدير إما بالطرق المتكررة [1] أو بايزي. [72]

اقترح أحد منتقدي اختبار الأهمية قائمة بدائل الإبلاغ: [73] أحجام التأثير للأهمية ، وفترات التنبؤ للثقة ، والتكرار والتمديدات للتكرار ، والتحليلات التلوية للتعميم. لا ينتج عن أي من هذه البدائل المقترحة استنتاج / قرار. قال ليمان إن نظرية اختبار الفرضيات يمكن تقديمها من حيث الاستنتاجات / القرارات أو الاحتمالات أو فترات الثقة. "التمييز بين. النهج هو إلى حد كبير واحد من إعداد التقارير والتفسير." [74]

لا يوجد خلاف على أحد "البدائل": قال فيشر نفسه ، [25] "فيما يتعلق باختبار الأهمية ، قد نقول إن الظاهرة يمكن إثباتها تجريبيًا عندما نعرف كيفية إجراء تجربة نادرًا ما تفشل في إعطائنا نتيجة ذات دلالة إحصائية ". كوهين ، وهو ناقد مؤثر لاختبار الأهمية ، متفقًا معه ، [65] ". لا تبحث عن بديل سحري لـ NHST [اختبار أهمية الفرضية الصفرية] . لا وجود لها. "". نظرًا لمشاكل الاستقراء الإحصائي ، يجب أن نعتمد أخيرًا ، كما فعلت العلوم القديمة ، على التكرار. "البديل" لاختبار الأهمية هو الاختبار المتكرر. أسهل طريقة لتقليل عدم اليقين الإحصائي هي الحصول على المزيد من البيانات ، سواء عن طريق زيادة العينة بالحجم أو عن طريق الاختبارات المتكررة ، ادعى نيكرسون أنه لم يسبق له أن رأى نشر تجربة مكررة حرفيًا في علم النفس [66] النهج غير المباشر للتكرار هو التحليل التلوي.

الاستدلال البايزي هو أحد البدائل المقترحة لاختبار الأهمية. (استشهد نيكرسون بـ 10 مصادر تشير إلى ذلك ، بما في ذلك Rozeboom (1960)). [66] على سبيل المثال ، يمكن أن يوفر تقدير معامل بايز معلومات ثرية حول البيانات التي يمكن للباحثين من خلالها استخلاص الاستنتاجات ، مع استخدام المقدمات غير المؤكدة التي تمارس تأثيرًا ضئيلًا على النتائج عند توفر بيانات كافية. اقترح عالم النفس جون ك.كروشك التقدير البايزي كبديل لـ ر-اختبار. [75] بدلاً من ذلك ، يمكن مقارنة نموذجين / فرضيتين متنافستين باستخدام عوامل بايز. [76] يمكن انتقاد طرق بايز لأنها تتطلب معلومات نادرًا ما تكون متاحة في الحالات التي يتم فيها استخدام اختبار الأهمية بكثرة. غالبًا ما لا تتوفر الاحتمالات السابقة ولا التوزيع الاحتمالي لإحصاء الاختبار تحت الفرضية البديلة في العلوم الاجتماعية. [66]

يدعي المدافعون عن نهج بايز أحيانًا أن هدف الباحث هو في أغلب الأحيان التقييم الموضوعي لاحتمالية صحة الفرضية بناءً على البيانات التي جمعوها. [77] [78] لا يمكن أن يوفر اختبار أهمية فيشر ولا اختبار فرضية نيمان بيرسون هذه المعلومات ، ولا يدعي ذلك. لا يمكن اشتقاق احتمالية صحة الفرضية إلا من استخدام نظرية بايز ، والتي كانت غير مرضية لكل من معسكري فيشر ونيمان بيرسون بسبب الاستخدام الصريح للذات في شكل الاحتمال السابق. [34] [79] استراتيجية فيشر هي تجنب هذا مع ص-value (هدف فهرس بناءً على البيانات وحدها) متبوعًا الاستدلال الاستقرائي، بينما ابتكر نيمان بيرسون نهجهم في السلوك الاستقرائي.

يتقاطع اختبار الفرضية مع الفلسفة. الإحصائيات الاستدلالية ، والتي تشمل اختبار الفرضيات ، هي احتمالية مطبقة. يتشابك كل من الاحتمال وتطبيقه مع الفلسفة. كتب الفيلسوف ديفيد هيوم ، "كل المعرفة تنحط إلى احتمالية." تعكس التعاريف العملية المتنافسة للاحتمال الاختلافات الفلسفية. التطبيق الأكثر شيوعًا لاختبار الفرضيات هو التفسير العلمي للبيانات التجريبية ، والذي تدرسه فلسفة العلم بشكل طبيعي.

عارض فيشر ونيمان ذاتية الاحتمال. ساهمت وجهات نظرهم في التعاريف الموضوعية. كان جوهر خلافهم التاريخي فلسفيًا.

تمت مناقشة العديد من الانتقادات الفلسفية لاختبار الفرضيات من قبل الإحصائيين في سياقات أخرى ، ولا سيما الارتباط لا يعني السببية وتصميم التجارب. يعد اختبار الفرضيات ذا أهمية مستمرة للفلاسفة. [38] [80]

يتم تدريس الإحصاء بشكل متزايد في المدارس مع اختبار الفرضيات كأحد العناصر التي يتم تدريسها.[81] [82] العديد من الاستنتاجات الواردة في الصحافة الشعبية (استطلاعات الرأي السياسي للدراسات الطبية) مبنية على الإحصائيات. ذكر بعض الكتاب أن التحليل الإحصائي من هذا النوع يسمح بالتفكير بوضوح في المشكلات التي تنطوي على البيانات الجماعية ، فضلاً عن الإبلاغ الفعال عن الاتجاهات والاستنتاجات من البيانات المذكورة ، ولكن حذروا من أن الكتاب للجمهور الواسع يجب أن يكون لديهم فهم قوي للمجال. من أجل استخدام المصطلحات والمفاهيم بشكل صحيح. [83] [84] [ بحاجة لمصدر ] [83] [84] [ بحاجة لمصدر ] يركز فصل الإحصاء التمهيدي بالكلية كثيرًا على اختبار الفرضيات - ربما نصف الدورة. تتضمن مجالات مثل الأدب والألوهية الآن نتائج تستند إلى التحليل الإحصائي (انظر محلل الكتاب المقدس). يعلم فصل الإحصاء التمهيدي اختبار الفرضيات كعملية كتاب طبخ. يتم تدريس اختبار الفرضيات أيضًا على مستوى الدراسات العليا. يتعلم الإحصائيون كيفية إنشاء إجراءات اختبار إحصائي جيدة (مثل ض، طلاب ر, F و chi-squared). يعتبر اختبار الفرضيات الإحصائية منطقة ناضجة في الإحصاء ، [74] ولكن لا يزال هناك قدر محدود من التطوير.

تشير دراسة أكاديمية إلى أن طريقة كتاب الطبخ في تدريس الإحصاء التمهيدي لا تترك وقتًا للتاريخ أو الفلسفة أو الجدل. تم تدريس اختبار الفرضيات كطريقة موحدة مستلمة. أظهرت الدراسات الاستقصائية أن خريجي الفصل كانوا مليئين بالمفاهيم الفلسفية الخاطئة (في جميع جوانب الاستدلال الإحصائي) التي استمرت بين المعلمين. [85] بينما تمت معالجة المشكلة منذ أكثر من عقد ، [86] واستمرت الدعوات لإصلاح التعليم ، [87] لا يزال الطلاب يتخرجون من فصول الإحصاء ولديهم مفاهيم خاطئة أساسية حول اختبار الفرضيات. [88] تتضمن أفكار تحسين تدريس اختبار الفرضيات تشجيع الطلاب على البحث عن الأخطاء الإحصائية في الأوراق المنشورة ، وتعليم تاريخ الإحصاء والتأكيد على الجدل في مادة جافة بشكل عام. [89]


أمثلة على اختبارات الفرضيات

هناك أنواع عديدة من اختبارات الفرضيات الإحصائية.

يسرد هذا القسم بعض الأمثلة الشائعة لاختبارات الفرضيات الإحصائية وأنواع المشكلات التي يتم استخدامها لمعالجتها:

اختبارات نوع التوزيع المتغير (غاوسي)

اختبارات العلاقة المتغيرة (الارتباط)

  • معامل ارتباط بيرسون
  • ارتباط رتبة سبيرمان
  • ارتباط رتبة كيندال
  • اختبار مربع تشي

قارن وسائل العينة (حدودي)

  • اختبار الطالب
  • اختبار الطالب المقترن
  • تحليل اختبار التباين (ANOVA)
  • التدابير المتكررة اختبار ANOVA

قارن وسائل العينة (اللامعلمية)

  • اختبار مان ويتني يو
  • اختبار تصنيف موقع ويلكوكسون
  • اختبار Kruskal-Wallis H.
  • اختبار فريدمان

على سبيل المثال ، رمز Python حول كيفية استخدام كل اختبار من هذه الاختبارات ، راجع القسم التالي.


عملية اختبار الفرضية

يمكن تقسيم عملية اختبار الفرضيات إلى خمس خطوات:

  1. أعد صياغة سؤال البحث كفرضية بحث وفرضية صفرية حول السكان.
  2. تحديد خصائص توزيع المقارنة.
  3. حدد درجة العينة المقطوعة في توزيع المقارنة الذي يجب عنده رفض الفرضية الصفرية.
  4. حدد عينتك ودرجة rsquos في توزيع المقارنة.
  5. قرر ما إذا كنت سترفض فرضية العدم.

هذه مثال يوضح كيف يمكن تطبيق هذه الخطوات الخمس على فرضية نصية:

  • لنقول إنك تجري تجربة للتحقق مما إذا كانت قدرة الطلاب على حفظ الكلمات تتحسن بعد تناولهم الكافيين.
  • تضمنت التجربة مجموعتين من الطلاب: المجموعة الأولى تتناول مادة الكافيين والمجموعة الثانية تشرب الماء.
  • كلتا المجموعتين تكملان اختبار الذاكرة.
  • الفرد الذي تم اختياره عشوائيًا في الحالة التجريبية (أي المجموعة التي تستهلك الكافيين) حصل على درجة 27 في اختبار الذاكرة. عادةً ما يتم توزيع عشرات الأشخاص عمومًا على مقياس الذاكرة هذا بمتوسط ​​19 وانحراف معياري قدره 4.
  • يتوقع الباحث تأثيرًا (اختلافات في الذاكرة لهذه المجموعات) لكنه لا يتوقع اتجاهًا معينًا للتأثير (أي المجموعة التي ستحصل على درجات أعلى في اختبار الذاكرة). باستخدام مستوى الأهمية 5٪ ، ماذا يجب أن تستنتج؟

الخطوة 1: هناك نوعان من السكان من الفائدة.

السكان 1: الأشخاص الذين يخضعون للإجراء التجريبي (شرب القهوة).

السكان 2: الأشخاص الذين لم يخضعوا للإجراء التجريبي (شرب الماء).

  • فرضية البحث: السكان 1 سوف يسجلون درجات مختلفة عن السكان 2.
  • فرضية لاغية: لن يكون هناك فرق بين المجموعتين.

الخطوة 2: نعلم أن خصائص توزيع المقارنة (مجتمع الطلاب) هي:

السكان M = 19 ، عدد السكان SD = 4 ، موزعة بشكل طبيعي. هذه هي المتوسطات والانحراف المعياري لتوزيع الدرجات في اختبار الذاكرة لعامة الطلاب.

الخطوه 3: بالنسبة للاختبار ثنائي الطرف (لم يتم تحديد اتجاه التأثير) عند مستوى 5٪ (25٪ عند كل ذيل) ، فإن درجات العينة المقطوعة هي +1.96 و -1.99.

الخطوة 4: يجب تحويل درجة العينة البالغة 27 إلى قيمة Z. لحساب Z = (27-19) / 4 = 2 (افحص ال التحويل إلى قسم درجات Z إذا كنت بحاجة إلى مراجعة كيفية القيام بهذه العملية)

الخطوة الخامسة: تعتبر الدرجة A & lsquoZ & rsquo 2 أكثر تطرفًا من النقطة المقطوعة Z بمقدار +1.96 (انظر الشكل أعلاه). النتيجة مهمة ، وبالتالي ، تم رفض فرضية العدم.

يمكنك العثور على مزيد من الأمثلة هنا:


5. برامج مختلفة - نتائج مختلفة

هناك نقاش ساخن حول نوع مجموع المربعات التي يجب استخدامها.

يعطي R النوع الأول ، ويعطي بايثون النوع الثاني ، ويعطي SAS النوع الثالث.

النوع الأول والنوع الثاني أكثر شيوعًا في برنامج R تواصل اجتماعي. في R's أنوفا () و عوف () وظائف ، النوع المنفذ لمجموع المربعات هو النوع الأول ، الحساب المتسلسل. بالنسبة للأنواع الأخرى من مجاميع المربعات ، استخدم ملحق أنوفا () وظيفة من السيارات الحزمة ، والتي تأخذ ملف اكتب جدال.

في ال مجتمع برامج SAS ، يتم استخدام مجاميع المربعات من النوع الثالث بشكل أكبر ، نظرًا لأن هذا غالبًا ما يكون تطبيق SAS الافتراضي.

في بايثون مكتبة statsmodels ، التطبيق الافتراضي هو النوع الثاني ، ولكن اكتب الوسيطة تجعل استخدام النوع الأول أو النوع الثاني أمرًا سهلاً للغاية.


التصنيف الخاضع للإشراف للصور ، يتم تطبيقه على عينات العوالق باستخدام R و Zooimage

جروجان فيليب ، دينيس كيفين ، في تطبيقات التنقيب عن البيانات مع R ، 2014

12.8 الدروس والمناقشة والاستنتاجات

يقدم هذا الفصل التصنيف التلقائي للبيانات الناشئة من الصور. كمثال ملموس ، استخدمنا صورًا من عينات العوالق ولكن يمكن تطبيق نهج مماثل على أي نوع من بيانات الصور. يثير استخدام R لتصنيف العوالق تلقائيًا فرصة للمجتمع الأوقيانوغرافي لتسريع تحليل العينات. ال zooimage و انا اتعلم تستفيد الحزم من هذه الإمكانات من خلال توفير سلسلة من الوظائف المتخصصة فوق لوحة كبيرة بالفعل من وظائف R المتاحة لاستخراج البيانات. على وجه الخصوص ، يدمج العملية في سير عمل أوسع ، بما في ذلك الحصول على الصور / تحليلها (لم يتم تقديمه هنا ، ولكن راجع دليل Zoo / PhytoImage (Grosjean and Denis ، 2007)) ، ومعالجة البيانات الوصفية ، ووضع مجموعات التدريب والاختبار ، والنهائي معالجة البيانات وتحويلها إلى إحصائيات قائمة على العينة. شكرا ل zooimage، تم تبني R بسرعة وبشكل كبير من قبل مجتمع من علماء أحياء العوالق وعلماء المحيطات الذين لم يستخدموها بالضرورة من قبل ، كما يتضح من الأعمال المتعددة المنشورة بالفعل. يمكن أيضًا استخدامه أو تكييفه لتطبيقات أخرى (على سبيل المثال ، تم استخدامه أيضًا لحساب البكتيريا (جيلان وآخرون ، 2012)).

في هذا الفصل ، قمنا بتطبيق خوارزميتين للتعلم الآلي على مجموعة بيانات نموذجية واحدة: الغابة العشوائية وآلة المتجهات الداعمة باستخدام وظيفة النواة الخطية. إنها من بين الخوارزميات الأكثر كفاءة لتصنيف صور العوالق. كلاهما يحقق معدل خطأ قريب من 20٪ مع 25 مجموعة ، أي 80٪ من الدقة. لم يكن تحسين المصنفات التي تم الحصول عليها هو الغرض من الفصل ، ولكنه ممكن بالطبع (انظر صفحات المساعدة الخاصة بوظائف R المقابلة). من الممكن أيضًا اختيار المتغيرات المميزة باستخدام خوارزميات مثل Random Forest (وقد تم توضيح ذلك باستخدام الانخفاض في معيار مؤشر Gini ، انظر (Torgo ، 2010)). يعتمد أداء المصنف بشكل كبير على جودة الصورة ، وتحليل الصورة ، والسمات المحددة ، وعدد الفئات المراد تمييزها ، ومعلمات الخوارزميات المستخدمة للتصنيف التلقائي للصور. من أجل إظهار سير العمل عند استخدام zooimageتمت مقارنة الأداء الذي تم الحصول عليه باستخدام الخوارزميتين المختبرتين مع دراسات أخرى في تصنيف العوالق. تم تصنيف الصور المجهرية لـ 23 نوعًا من أنواع السوطيات (العوالق النباتية أحادية الخلية) بدقة 83 ٪ باستخدام خوارزمية الشبكة العصبية (Culverhouse et al. ، 1996). في هذه الحالة ، تم اعتبار المصنف جيدًا مثل خبراء التصنيف المدربين. يسمح التصنيف في الوقت الفعلي لخمس إلى سبع فئات رئيسية من العوالق بدقة 84٪ و 69٪ على التوالي باستخدام نفس خوارزمية تكميم ناقلات التعلم لـ VPR بتوفير خرائط توزيع للعوالق في البحر (Davis et al. ، 2004). كما تم استخدام خوارزميات أخرى مع صور VPR ، بما في ذلك آلة ناقلات الدعم التي وصلت إلى 72٪ من الدقة لسبع فئات (Hu and Davis ، 2005). مع المصنف المزدوج الذي يجمع بين الشبكة العصبية وآلة ناقلات الدعم ، تم تحقيق أكثر من 90 ٪ من الدقة لنفس الفئات السبع (Hu and Davis ، 2006). SIPPER هو جهاز تجريبي يوفر صورًا بدقة أقل من VPR ، لكن التصنيف التلقائي مع آلة ناقلات الدعم لا يزال يحقق 76 ٪ من الدقة لست فئات (Luo et al. ، 2003). تمكنت نفس الخوارزمية من الوصول إلى 88 ٪ من الدقة لخمس مجموعات باستخدام صور SIPPER II (Luo et al. ، 2005). يعد Imaging FlowCytoBot (Olson and Sosik، 2007) نموذجًا أوليًا يمكن مقارنته بـ FlowCAM ، وهو جهاز تم تسويقه بالفعل (http://www.fluidimaging.com/). يسمح مصنف آلة المتجهات الداعمة بتمييز 22 مجموعة من العوالق النباتية التي تم ترقيمها باستخدام Imaging FlowCytoBot (Olson and Sosik ، 2007) بدقة تبلغ 88٪ (Sosik and Olson ، 2007). تم استخدام ZOOSCAN للتمييز بين 29 فئة من العوالق الحيوانية بدقة 83 ٪ باستخدام مجموعة من الخوارزميات (Grosjean et al. ، 2004). في دراسة أخرى ، سمحت الصور من ZOOSCAN بتصنيف الجسيمات إلى 20 مجموعة من العوالق الحيوانية بدقة 79 ٪ باستخدام خوارزمية الغابة العشوائية (Gorsky et al. ، 2010). Zoo / PhytoImage إلى جانب الماسح الضوئي المسطح عالي الدقة يشكلان نظامًا مشابهًا إلى حد ما لنظام ZOOSCAN (Bachiller and Fernandes ، 2011 Bell and Hopcroft ، 2008 Gislason and Silva ، 2009). مع هذه المجموعة ، تم تصنيف 63 و 53 مجموعة من العوالق المتوسطة من ألاسكا باستخدام خوارزمية الغابة العشوائية بدقة 85٪ و 88٪ على التوالي (Bell and Hopcroft ، 2008). في أيسلندا ، تم تصنيف 34 و 25 مجموعة من العوالق بنظام مماثل ، لا تزال بها غابات عشوائية ، بدقة 75٪ و 82٪ على التوالي (Gislason and Silva، 2009). يتم تلطيخ العوالق أحيانًا قبل أن يتم رقمنتها ، من أجل تمييز أفضل للكائنات الحية العوالق من الجسيمات الميتة أو المعدنية (Bachiller and Fernandes، 2011 Fernandes et al.، 2009 Irigoien et al.، 2009). بهذه الطريقة ، تم تصنيف 17 مجموعة من العوالق بدقة 88٪ باستخدام الغابة العشوائية (Irigoien et al. ، 2009) ، وتم تمييز 24 مجموعة بدقة 86٪ باستخدام خوارزمية Bayes الساذجة (Fernandes et al. ، 2009). تم تصنيف العوالق النباتية من بحر الشمال الرقمية باستخدام FlowCAM وتحليلها باستخدام Zoo / PhytoImage في الوقت الفعلي في 25 مجموعة باستخدام غابة عشوائية بدقة 79٪ (Lancelot et al. ، 2012). كل هذه العروض مماثلة لتلك التي تم الحصول عليها في هذا الفصل.

إن الأداء المقدّر من خلال الدقة العالمية على مصفوفة الارتباك التي تم التحقق من صحتها في جميع هذه الدراسات لا تعكس بالضرورة إمكانات حقيقية عند تصنيف الجسيمات من عينات منفصلة ، كما أوضحنا هنا. هذا جزئيًا لأن (1) من المحتمل أن تحتوي العينات الجديدة على جزيئات تنتمي إلى مجموعات تصنيفية تم تجاهلها أو عدم معرفتها عند بناء مجموعة التدريب ، (2) يمكن أن يتغير شكل الجسيمات داخل كل فئة بشكل طفيف كدالة للظروف البيئية ، و (3) لدينا عادة 5-15٪ من الجسيمات التي لا يستطيع عالم التصنيف تحديدها وهي تضخم معدل سوء التصنيف الإجمالي. مع انا اتعلم، يمكن تغيير الاحتمالات السابقة في مكانين: عند تدريب المصنف 11 وفي مصفوفة الارتباك لاختبار كيفية تأثير تكوين عينة الاختبار على أداء المصنف الموجود مسبقًا. في سياق تحليل عينات العوالق ، من المرجح أن تكون الحالة الثانية ذات أهمية ، وقد أوضحنا كيفية القيام بذلك باستخدام انا اتعلم و zooimage.

في دراسات العوالق وبشكل عام في علم البيئة ، يهتم العلماء أكثر بالإحصاءات العامة مثل الوفرة والكتلة الحيوية أو حجم الطيف حسب المجموعات التصنيفية أو الوظيفية بيئيًا أكثر من اهتمامهم بتحديد كل كائن حي من العوالق في العينات. تختلف وجهة النظر هذه اختلافًا كبيرًا عن مناهج التعلم الآلي المعتادة حيث تركز الأساليب على إيجاد أو استخراج جميع الحالات التي تتوافق مع معايير معينة (على سبيل المثال ، اكتشاف الاحتيال وتشخيص المرض) (Torgo ، 2010). غالبًا ما يتم استخدام المصنفات الثنائية هناك. عدة حزم R ، مثل ROCR (سينغ وآخرون ، 2009) أو pROC (Robin et al.، 2011) ، يقترح أدوات لتحليل مثل هذه المصنفات الثنائية. عادةً ما يكون تصنيف العوالق مشكلة متعددة الطبقات حيث يجب تمييز عدد مهم من الفئات في وقت واحد. لهذا الغرض ، فإن أدوات التشخيص مثل منحنيات ROC ليست مريحة لأنها تحسب جميع المنحنيات الممكنة فردية أو فردية (Hand and Till ، 2001). التعقيد الناتج من الصعب إدارته وتفسيره. على حد علمنا ، يتوفر فقط إحصاء واحد لمنحنى ROC متعدد الفئات في R. 12 في zooimage و انا اتعلم الحزم ، يتم الترويج لمصفوفة الارتباك كأداة مركزية لتحليل أداء المصنف. على الرغم من بساطته الواضحة وأوجه القصور التي تم تحديدها (يعتمد على الأسعار السابقة والتكاليف والعتبات) ، فإن جدول الطوارئ للقيد المزدوج هذا مناسب في حالة مشاكل الطبقات المتعددة ويسمح لنا بتحديد موقع أعلى معدل خطأ أو استخرج العديد من الإحصائيات لكل فئة أو للمصنف بأكمله (استدعاء ، دقة ، درجة F ، إلخ). بالإضافة إلى ذلك ، فإن zooimage تقترح الحزمة تمثيلات رسومية مختلفة تسهل تحليل أداء المصنف أو مقارنة مصنفين. يمكن تطبيق التصحيح الإحصائي للخطأ ، باستخدام المعلومات الواردة في مصفوفة الارتباك ، لتقدير الوفرة أو الكتلة الحيوية حسب الفئات بشكل أفضل (Hu and Davis، 2006 Solow et al.، 2001). هذا بالتأكيد يتطلب المزيد من التحقيقات.

مجال آخر للبحث هو التعريف الأمثل لفصول العوالق لتضمينها في مجموعة التدريب. ليس من الواضح حتى الآن في أي مستوى تصنيفي يكون تحليل مجتمعات العوالق هو الأكثر كفاءة ، مع الأخذ في الاعتبار جهود أخذ العينات وندرة البيانات المتاحة. بمعنى آخر ، الفئات نفسها ليست ثابتة تمامًا. التمثيل الهرمي للفئات في zooimage يزيد من فرصة دراسة عينات العوالق على مستويات تصنيفية مختلفة بسهولة تامة. تم إظهار تبسيط مجموعات التدريب عن طريق تجميع بعض الفئات الأولية كنهج قابل للتطبيق في البحث عن أفضل مفاضلة بين الفصل التصنيفي العالي وتقليل معدل الخطأ. فرنانديز وآخرون (فرنانديز وآخرون ، 2009) اقترحوا خوارزمية تحسين تكرارية للحصول على مثل هذه المقايضة. مزيد من البحث ، باستخدام التنظيم الهرمي للفصول في zooimage، سيكون بالتأكيد مفيدًا للتحسينات المستقبلية.


شاهد الفيديو: مادة الرياضيات للصف الاول موضوع طرح الاعداد (شهر اكتوبر 2021).