مقالات

2.2: إيجاد المخلفات - الرياضيات


نتائج التعلم

  • بالنظر إلى خط الانحدار ونقطة البيانات ، أوجد المتبقي

في جزء الانحدار الخطي للإحصاءات ، غالبًا ما يُطلب منا إيجاد القيم المتبقية. بالنظر إلى نقطة البيانات وخط الانحدار ، يتم تحديد المتبقي من خلال الفرق الرأسي بين القيمة المرصودة لـ (ص ) والقيمة المحسوبة ( قبعة ذ ) بناءً على معادلة خط الانحدار:

[المتبقي = y - hat y nonumber nonumber ]

مثال ( PageIndex {1} )

أجريت دراسة لسؤال طالبات الجامعات عن طولهن وطول أمهن. تظهر النتائج في الجدول أدناه:

جدول مرتفعات الأم والابنة
ارتفاع الأم6367646065675960
ارتفاع الابنة5864656165676164

معادلة خط الانحدار هي

[ قبعة ص = 30.28 : + 0.52x عدد غير رقمي ]

ابحث عن المتبقي للأم التي يبلغ طولها 59 بوصة.

حل

لاحظ أولاً أن ارتفاع الابنة المرتبط بالأم التي يبلغ طولها 59 بوصة يبلغ 61 بوصة. هذا هو (ص ). بعد ذلك ، نستخدم معادلة خط الانحدار لإيجاد ( hat y ). منذ (س = 59 ) ، لدينا

[ hat y = 30.28 : + 0.52 (59) nonumber ]

يمكننا استخدام الآلة الحاسبة للحصول على:

[ hat y = 61.06 nonumber ]

نحن الآن جاهزون لوضع القيم في الصيغة المتبقية:

[المتبقي = y- hat y = 61-61.06 = -0.06 nonumber ]

لذلك فإن المتبقي للأم التي يبلغ طولها 59 بوصة هو -0.06. نظرًا لأن هذا المتبقي قريب جدًا من 0 ، فهذا يعني أن خط الانحدار كان مؤشرًا دقيقًا لارتفاع الابنة.

مثال ( PageIndex {2} )

أراد بائع تجزئة عبر الإنترنت معرفة مقدار الدفعة التي تم الحصول عليها من الإعلانات عبر الإنترنت. جرب بائع التجزئة ميزانيات إعلانية أسبوعية مختلفة وسجل عدد الزوار الذين أتوا إلى موقع بائع التجزئة على الإنترنت. يظهر خط الانحدار لهذا أدناه.

ابحث عن المبلغ المتبقي للأسبوع الذي أنفق فيه بائع التجزئة 600 دولار على الإعلان.

حل

لاحظ أولاً أن نقطة مخطط التشتت بإحداثيات x 600 لها إحداثي y 800. وهكذا (y = 800 ). لاحِظ بعد ذلك أن النقطة على الخط الذي يحتوي على إحداثي x 600 لها إحداثيات y 700. وهكذا ( hat y = 700 ). نحن الآن جاهزون لوضع القيم في الصيغة المتبقية:

[المتبقي = y- hat y = 800-700 = 100 nonumber ]

لذلك فإن المبلغ المتبقي لميزانية الإعلان البالغة 600 دولار هو -100.

ممارسه الرياضه

تم أخذ بيانات من الألعاب الأولمبية الأخيرة حول الناتج المحلي الإجمالي بتريليونات الدولارات لثماني دول تنافست وعدد الميداليات الذهبية التي فازوا بها. معادلة خط الانحدار هي:

[ hat y = 7.55 : + : 1.57x nonumber ]

يوضح الجدول أدناه البيانات:

الناتج المحلي الإجمالي211.6161.845.43.12.3
ميداليات46826191712109

أوجد المبلغ المتبقي للدولة التي يبلغ إجمالي الناتج المحلي فيها 4 تريليون دولار.

  • حساب المثال المتبقي | استكشاف البيانات العددية ثنائية المتغير | إحصائيات AP | أكاديمية خان
  • إيجاد المتبقي

كيفية حساب المخلفات في تحليل الانحدار

الانحدار الخطي البسيط هو طريقة إحصائية يمكنك استخدامها لفهم العلاقة بين متغيرين ، x و y.

متغير واحد ، x، يُعرف باسم متغير التوقع. المتغير الآخر ، ذ، يُعرف بمتغير الاستجابة.

على سبيل المثال ، افترض أن لدينا مجموعة البيانات التالية بوزن وارتفاع سبعة أفراد:

يترك وزن كن المتغير المتنبئ واسمحوا ارتفاع كن متغير الاستجابة.

إذا قمنا برسم بياني لهذين المتغيرين باستخدام مخطط مبعثر ، مع الوزن على المحور x والارتفاع على المحور y ، فإليك الشكل الذي سيبدو عليه:

يمكننا أن نرى بوضوح من مخطط الانتشار أنه كلما زاد الوزن ، يميل الارتفاع أيضًا إلى الزيادة ، ولكن في الواقع تحديد الكمية هذه العلاقة بين الوزن والطول ، نحتاج إلى استخدام الانحدار الخطي.

باستخدام الانحدار الخطي ، يمكننا العثور على الخط الذي "يناسب" بياناتنا بشكل أفضل:

تتم كتابة الصيغة الخاصة بهذا الخط الأنسب على النحو التالي:

حيث ŷ هي القيمة المتوقعة لمتغير الاستجابة ، ب0 هو تقاطع ص ، ب1 هي معامل الانحدار ، و x هي قيمة متغير التوقع.

في هذا المثال ، السطر الأنسب هو:

الارتفاع = 32.783 + 0.2001 * (الوزن)


2.2: إيجاد المخلفات - الرياضيات

فهرس للوحدة الثانية ملاحظات

2.1: عرض ووصف العلاقات الخطية

2.2: اختبار العلاقات الخطية وعمل تنبؤات

في ملاحظات الوحدة 2.1 غطينا الخطوات 1-3 لتحليل الانحدار والارتباط لنموذج الانحدار الخطي البسيط. في هذه الخطوات ، نتعرف على شكل واتجاه وقوة العلاقة بين متغيرين. نحدد أيضًا الملاحظات الخارجية والمؤثرة المحتملة التي يجب إزالتها من مجموعة البيانات لدراسة منفصلة. في الخطوات من 4 إلى 6 ، سنحدد ما إذا كانت العلاقة ذات فائدة عملية وإحصائية وتفي بافتراضات الانحدار. سوف نتعلم أيضًا عملية عددية لتحديد القيم المتطرفة. عندما ينتهي كل شيء ، نكون جاهزين للخطوة 7 ، باستخدام نموذج التنبؤات. كل الخطوات السبع مكررة أدناه.

للاستعداد لهذه الخطوات ، نحتاج إلى بعض مخرجات Excel الرقمية والرسومية الإضافية. سأوضح الخطوات من 4 إلى 7 باستخدام نفس البيانات التي تم تقديمها في ملاحظات الوحدة 2.1. للراحة ، يتم تكراره أدناه في ورقة العمل 2.2.1.


يتم توضيح الإخراج الرقمي من الوظيفة الإضافية للانحدار في Excel في ورقة العمل التالية. تعرض ورقة العمل 2.2.2 نتائج القدرة الإضافية للانحدار ضمن تحليل البيانات. حدد الأدوات من شريط الأدوات القياسي ، وتحليل البيانات من القائمة المنسدلة ، والانحدار من تحديدات الأدوات ، ثم اتبع أسئلة شاشة الحوار ، والتي تم تنظيمها في مجالات الإدخال والإخراج والتحليل المألوفة.

بالنسبة لإدخالات الإدخال ، أقترح أن يتضمن نطاقي Y و X تسمية من ستة أحرف أو أقل للسماح لك بتحديد المتغيرات الخاصة بك في منتجات الإخراج. تأكد من تحديد "التصنيفات" إذا قمت بتضمين التصنيفات في نطاقاتك ، وحدد أيضًا "فاصل الثقة". أود أن أضع الإخراج في ورقة العمل بالقرب من بياناتك - سيتطلب الإخراج حوالي 9 أعمدة للبيانات وعدة أعمدة أخرى للمخططات. لاحظ أن مربع الحوار يحتوي أيضًا على أربعة مربعات لتحليل "المتبقي" ومربع واحد لـ "مخطط الاحتمالية العادية". انطلق وحدد هذه المربعات - سنتحدث عن إخراج الرسم البياني في الخطوتين 6 و 7.

سأتحدث عن كل قسم من هذه الأقسام في الخطوات من 4 إلى 7.


الخطوة 4: اختبار الأداة العملية لنموذج الانحدار

هذه الخطوة ذات أهمية كبيرة للمديرين الذين يستخدمون الانحدار للتطبيقات العملية. بينما يجب أن تجتاز نماذج الانحدار اختبارات المنفعة الإحصائية والافتراضات ، إذا لم يكن للنموذج فائدة عملية ، فلا ينبغي استخدامه.

معامل التحديد: R 2
لاختبار المنفعة العملية ، ننظر إلى إحصائيتين ، R 2 و Standard Error. تم تقديم الإحصاء الأول بالفعل في الوحدة 2.1: معامل التحديد أو R 2. تذكر أننا نود أن يكون لنماذج الانحدار قيم R 2 عالية - وهذا يعني أنه لكي تكون مفيدة عمليًا ، نود أن تكون R 2 أعلى من 50٪. تحذير: هذا رقم مرجعي فقط. يتم اختياره لأنه يساوي تقريبًا 0.70 (الجذر التربيعي 0.50 يساوي 0.707) معامل ارتباط ، أو علاقة معتدلة. هناك أوقات استخدمت فيها نماذج الانحدار مع R 2 أقل من 50٪ ، لكن تذكر أن هذا يعني أن المتغير المستقل يشرح أقل من 50٪ من تباين العينة في المتغير التابع. هناك طريقة أخرى للنظر إليها وهي أن أكثر من 50٪ من تباين العينة سيكون غير مبرر.

وجدنا R 2 كخيار لمخطط الرسم البياني المبعثر XY في Excel في Module Notes 2.1. يتم توفيره أيضًا في جزء إخراج الملخص من إخراج الانحدار. في القسم المعنون "إحصائيات الانحدار" في ورقة العمل 2.2.2 أعلاه ، فإن المربع R هو ما نريده. لاحظ أن قيمته هي 0.817 ، كما ذكرنا في الوحدة 2.1. أعلى مربع R مباشرةً هو مضاعف R. وهذا هو معامل الارتباط الذي قمنا بحسابه في الوحدة 2.1 بأخذ الجذر التربيعي لـ R 2. أسفل المربع R يوجد مربع R المعدل. سأتحدث عن هذا في الوحدة 3 - يمكننا تجاهلها لتحليل الانحدار الخطي البسيط. أدرك أنه عندما أقوم باستيراد ورقة عمل Excel إلى موقع الويب ، يتم استيرادها كجدول وليس لها نفس التنسيق تمامًا كما في Excel.

تذكر أنه لتفسير R 2 نقول أن أصول العميل تفسر 81.7٪ من التباين في الساعات الخارجية. يتم حساب 81.7٪ (أو 82٪ تقريبًا) بأخذ نسبة التباين المنسوب إلى نموذج الانحدار أو الموضح بواسطة نموذج الانحدار مقارنة بالتغير الكلي. هذا ليس من الصعب حسابه - فقط ممل. سأقوم بتوضيح كيف يتم حسابها - لا تنزعج - يقوم برنامج الكمبيوتر بهذا من أجلنا.

يتم حساب التباين الموضح بواسطة نموذج الانحدار من خلال إيجاد الفرق (أو الاختلاف) بين القيمة المتوقعة لـ Y ومتوسط ​​قيمة Y لكل ملاحظة في مجموعة البيانات. على سبيل المثال ، الملاحظة الأولى الموضحة في ورقة العمل 2.2.1 لها قيمة X تبلغ 3200 (تذكر أن هذا هو 3200000 دولار لكننا نستخدم 3200 لإدخال البيانات - بالدولارات بالآلاف) وقيمة Y تساوي 700. القيمة المتوقعة لـ Y ( ساعات العمل الخارجية) ستكون:

متوسط ​​جميع قيم Y هو 1049.5. لذا فإن الاختلاف المنسوب إلى الانحدار لهذه الملاحظة هو (760-1049.4) أو -289.5. ثم يحسب برنامج الكمبيوتر تباينًا مشابهًا لجميع القيم الأخرى المتوقعة لـ Y لكل ملاحظة في مجموعة البيانات. ثم يتم تربيع هذه الاختلافات وتلخيصها. هذا هو الاختلاف الموضح بواسطة نموذج الانحدار أو المنسوب إليه ويسمى مجموع انحدار المربعات (SSR). يمكن رؤية قيمة هذا التباين التربيعي في ورقة العمل 2.2.2 ، في الجدول المسمى ANOVA (لتحليل التباين!) في الصف بعنوان الانحدار ، وفي العمود المسمى SS. القيمة 669645.0037.

بعد ذلك ، نجد التباين الإجمالي من خلال إيجاد الفرق بين القيمة الفعلية لـ Y ومتوسط ​​قيمة Y لكل ملاحظة في مجموعة البيانات. بالنسبة للملاحظة الأولى ، هذا الاختلاف هو (700-1049.5) أو -349.5. ثم يقوم برنامج الكمبيوتر بتربيع هذا والاختلافات لجميع الملاحظات الأخرى ويلخصها. يسمى هذا بالتباين الإجمالي ، أو SST لمجموع إجمالي المربعات. القيمة هي 819295 في جدول ANOVA في الصف بعنوان الإجمالي ، وفي العمود المسمى SS لورقة العمل 2.2.2. أخيرًا ، تُظهر المعادلة 2.2.2 حساب R 2.

الخطأ المعياري في التقدير أو النموذج
المقياس الثاني المستخدم لاختبار المنفعة العملية لنموذج الانحدار يسمى الخطأ القياسي في ملخص إخراج Excel في ورقة العمل 2.2.2. لاحظ أن القيمة هي 91.18. لنكون أكثر دقة ، يسمى هذا رسميًا الخطأ المعياري للتقدير أو الخطأ المعياري للتنبؤ. نظرًا لأننا نستخدم نموذج الانحدار لحساب التقدير ، يشير البعض إلى هذا الخطأ القياسي باعتباره الخطأ القياسي لنموذج الانحدار. التفسير مشابه لتفسير الانحراف المعياري للملاحظة والخطأ المعياري للمتوسط ​​، كما تعلمنا في الوحدة 1.3 و 1.4 ملاحظات. التفسير: 95٪ (أو معظم) القيم الفعلية لـ Y (Ext Hours) ستكون ضمن +/- 2 خطأ قياسي للقيمة المتوقعة لـ Y. في هذا المثال: 95٪ من القيم الفعلية للساعات الخارجية ستكون ضمن + / - 2 * 91 أو +/- 182 من الساعات الخارجية المتوقعة. لذلك ، إذا توقعنا أن تكون الساعات الخارجية 760 ، فيمكن أن تكون في أي مكان من 578 إلى 942.

هذا مهم حقًا. في كثير من الأحيان في تحليل الانحدار ، يقوم الناس بالتنبؤ ويذهبون معه دون النظر إلى الخطأ القياسي. يعطينا مقياس المنفعة العملية هذا مؤشرًا على مدى موثوقية نموذج الانحدار. الجزء الصعب هو أنني لا أستطيع أن أعطيك (ولا أستطيع نصًا) معيارًا جيدًا - إنها دعوة إدارية حول مقدار الخطأ المقبول. من الواضح أنه سيكون هناك خطأ لأنه لا تقع كل ملاحظة في عينة من البيانات على خط الانحدار. بالنسبة للمثال أعلاه ، الخطأ القياسي هو 91. بالنسبة للقيمة الفعلية لـ Y (الساعات الخارجية) البالغة 700 عند النطاق المنخفض لـ Y ، فهذه النسبة المئوية للخطأ هي 100 * 91/700 بالمائة ، أو 13 بالمائة. بالنسبة للقيمة الفعلية لـ Y عند الحد الأقصى 1500 ، فإن نسبة الخطأ هي 6 بالمائة. بالنسبة لمتوسط ​​قيمة Y لـ 1050 ساعة ، فإن نسبة الخطأ هي 8.7٪. لأغراض التخطيط ، قد يكون هذا النطاق من الأخطاء مقبولاً. لأغراض التنبؤ الدقيق ، قد لا يتم التسامح مع الابتعاد بنسبة تصل إلى 13 في المائة.

في كثير من الأحيان ، يمكننا استخدام الخطأ القياسي كأداة مقارنة. لنفترض أننا قمنا بتشغيل نموذج آخر باستخدام متغير مستقل مختلف وحصلنا على خطأ معياري قدره 45. سيكون من الأفضل أن يكون لديك خطأ 45 في التنبؤ بدلاً من خطأ 91. النقطة هي ، بدون مقياس المتوسط ​​أو القياسي خطأ في التنبؤ ، لن نتمكن من مقارنة النماذج.

لحساب الخطأ القياسي للتقدير ، يكتشف برنامج الكمبيوتر أولاً الخطأ ، والذي يُسمى أيضًا المتبقي ، لكل ملاحظة في مجموعة البيانات. الخطأ هو الفرق بين القيمة الفعلية لـ Y والقيمة المتوقعة لـ y ، أو Y - y. لتوضيح الملاحظة الأولى ، القيمة الفعلية لـ y (ساعات خارجية) هي 700 والقيمة المتوقعة لـ y هي 760. وبالتالي فإن الخطأ هو 700-760 أو -60. بطريقة مماثلة ، يتم حساب جميع الأخطاء لكل ملاحظة ، ثم تربيعها ، ثم تلخيصها للحصول على مجموع خطأ المربعات (SSE). SSE هو مقياس للتباين غير المبرر في الانحدار وهو التباين حول خط الانحدار. يمكنك العثور على SSE هذا من خلال النظر إلى جدول ANOVA في ورقة العمل 2.2.2 ، في الصف المسمى "المتبقي" والعمود المسمى SS.

للحصول على الخطأ القياسي للتقدير ، يقسم برنامج الكمبيوتر SSE على حجم العينة مطروحًا منه 2 (لضبط درجات الحرية في الانحدار البسيط) ، ثم يأخذ الجذر التربيعي.

يعطينا الخطأ المعياري للتقدير و R 2 مقاييس الفائدة العملية. تتميز نماذج الانحدار التي تحتوي على أخطاء قياسية أقل وأخطاء R 2 الأعلى بفائدة عملية أكبر مقارنة بالنماذج ذات الأخطاء المعيارية الأعلى وأخطاء R 2 الأقل. في حالة عدم وجود تحليل مقارن ، قد تعمل معايير قيم R 2 التي تزيد عن 50٪ ونطاقات الأخطاء المعيارية التي تقل عن 5-15٪ من القيم الفعلية للمتغير التابع كحد أدنى. ومع ذلك ، فهذه مكالمات حكم وليست معايير إحصائية دقيقة. الشيء المهم هو أن المحللين لديهم معيار أخلاقي للإبلاغ عن الخطأ المعياري وقيم R 2 لجمهورهم.

هل لاحظت أن الأخطاء المعيارية المنخفضة ستقترن بأخطاء R 2 العالية ، والعكس صحيح؟ هذا ببساطة لأن نماذج الانحدار التي يتم فيها تجميع البيانات بإحكام حول خط الانحدار بها خطأ بسيط ، و X لها قيمة تنبؤية عالية (الحركات في X تؤدي إلى حركات يمكن التنبؤ بها في Y).

يمكن تفسير ذلك أيضًا بمعادلة R 2 ، المعادلة 2.2.2 ، والتي تتكرر أدناه:

منذ SST = SSR + SSE ، يمكننا إعادة كتابة Eq. 2.2.2 على النحو التالي:

كلما زاد SSR (التباين الموضح) ، انخفض SSE (التباين غير المبرر) لـ SST (التباين الكلي). كلما ارتفع SSR ، ارتفع مستوى R 2 وانخفض SSE. ينتج عن SSE المنخفض أخطاء قياسية أقل.


الخطوة 5: اختبر المنفعة الإحصائية لنموذج الانحدار

هناك طريقتان استنتاجيتان لاختبار المنفعة الإحصائية لنموذج الانحدار: اختبار الفرضية وبناء فترة الثقة. إن المعلمة المهمة في تحديد ما إذا كان الانحدار مهمًا من الناحية الإحصائية أم مفيدًا هو المنحدر.

اختبار فرضية لمنحدر السكان
تتطابق العملية المكونة من خمس خطوات لاختبار فرضية لمتوسط ​​المجتمع مع عملية اختبار فرضية لمنحدر السكان ، فنحن فقط نغير المعلمة من المتوسط ​​إلى المنحدر.

الفرضيات الصفرية والبديلة في الانحدار هي:

إذا لم نتمكن من رفض فرضية العدم استنادًا إلى الدليل الموجود في عينتنا ، فإننا نقول حقًا أن الميل يساوي صفرًا. أي أن خط الانحدار أفقي ، مما يعني أن Y لا يتغير عندما تتغير X. لنلق نظرة على معادلة الانحدار مرة أخرى:

إذا لم يتم رفض الفرضية الصفرية ، فإن B 1 = 0 ، وتصبح المعادلة:

إذا لم تكن هناك علاقة إحصائية بين X و Y ، فسيساوي الميل صفرًا وسيكون من الأفضل توقع Y بمتوسطه ، وهو مجرد نقطة التقاطع في هذه الحالة. في هذه الحالة أيضًا ، نقول إن نموذج الانحدار غير مفيد إحصائيًا. من ناحية أخرى ، إذا رفضنا فرضية العدم لصالح البديل ، فإننا نقول حقًا أن التغييرات في X تؤدي إلى تغييرات يمكن التنبؤ بها في Y ، سواء كانت إيجابية أو سلبية. العلاقة بين X و Y لها فائدة إحصائية ، أو أن نموذج الانحدار مفيد إحصائياً.

هناك نوعان من إحصائيات الاختبار لاختبار نموذج الانحدار. الأول هو إحصاء F وهو نسبة التباين المتوسط ​​أو المتوسط ​​المنسوب إلى الانحدار إلى المتوسط ​​أو التباين المتوسط ​​المنسوب إلى الخطأ أو المتبقي. تم العثور على هذه النسبة في جدول ANOVA لإخراج الانحدار ، ورقة العمل 2.2.2. ابحث في الصف بعنوان "الانحدار" والعمود بعنوان "F". يجب أن ترى أن قيمة F تساوي 80.54534. وكلما زادت هذه القيمة عن 1 ، زادت أهمية نموذج الانحدار. هنا ، التباين الموضح بواسطة الانحدار هو 80.54 ضعف التباين غير المبرر. ثم يتم استخدام إحصاء F لاختبار نموذج الانحدار.

إحصائية الاختبار الأخرى هي إحصاء t. انظر إلى الصف المسمى "الأصول" في ورقة العمل 2.2.2. إنه موجود مباشرة أسفل الصف المسمى "التقاطع" - تم العثور على كلا الصفين أسفل جدول ANOVA. يمنحنا الصف المسمى الأصول معلومات حول المنحدر. نبدأ بقيمته 0.099992534 أو 0.10 كما رأينا من قبل. القيمة التالية هي الخطأ القياسي للمنحدر (ليس النموذج ، ولكن الخطأ القياسي للمنحدر). في الواقع ، ما يسبب الخطأ المعياري للنموذج أو التقدير هو حقيقة أن الميل نفسه به خطأ أو تقلب. القيمة التالية هي "t Stat" للمنحدر. قيمته 8.9747. هذه قيمة كبيرة جدًا - الميل 0.10 هو ما يقرب من 9 أخطاء قياسية من المنحدر المفترض للصفر. وبالتالي يتم استخدام إحصاء t لاختبار منحدر الانحدار.

القيمة p للإحصاء F موجودة في العمود المسمى "الأهمية F" في صف الانحدار في جدول ANOVA ، ورقة العمل 2.2.2. قيمتها 4.59E-08 ، أو 0.0000000459. توجد القيمة p للإحصاء t في العمود الذي يحمل العنوان P-value ، في الصف الذي يحمل عنوان "Assets". قيمته هي 4.59E-08 ، وهي نفس القيمة p لـ F. وستظل دائمًا هي نفسها بالنسبة لنماذج الانحدار الخطي البسيطة نظرًا لوجود منحدر واحد فقط - اختبار منحدر الانحدار الواحد هو نفس الاختبار لنموذج الانحدار في الانحدار الخطي البسيط. لن يكون هذا هو الحال في الانحدار المتعدد ، عندما يكون هناك أكثر من منحدرات الانحدار. سنرى أننا سنستخدم إحصائيات t متعددة والقيم p المرتبطة لاختبار منحدرات الانحدار المتعددة ، وإحصائية F الفردية وقيمتها p لاختبار نموذج الانحدار.

سنستمر في اتباع الاصطلاح العلمي القائل بأنه من أجل إعلان نتيجة اختبار فرضية ذات دلالة إحصائية (في هذه الحالة ، أعلن أن النموذج مفيد إحصائيًا) ، لا يمكن أن يكون هناك أكثر من 5٪ احتمال أن يكون الفرق بين العينة الميل والمنحدر المفترض ، من حيث الأخطاء المعيارية ، يرجعان إلى الصدفة وحدها. 5٪ هذا هو مستوى الأهمية ، ألفا. هكذا:

عندما تكون القيمة p & lt 0.05 ، ارفض الفرضية الصفرية واستنتج أن النموذج مفيد إحصائيًا. هذا يعني أن فرصة الحصول على ميل كبير نسبيًا موجبًا أو سالبًا في عينة ، نظرًا لأن الميل يساوي صفرًا ، صغيرة جدًا ، بحيث لا يجب أن يساوي الميل صفرًا - ارفض القيمة الصفرية.

عندما تكون القيمة p & gt 0.05 ، لا ترفض الفرضية الصفرية واستنتج أن النموذج غير مفيد إحصائيًا. هذا يعني أننا حصلنا على ميل في العينة قريب جدًا من الصفر - والسبب الوحيد لعدم كونه صفراً هو الصدفة وخطأ أخذ العينات. لذلك ، فإن احتمال الحصول على مثل هذا المنحدر الصغير بالصدفة وحده مرتفع للغاية إذا كان الميل الحقيقي صفرًا - لا ترفض الصفري.

كما كان من قبل ، فإن الخطوة الأخيرة تجمع كل ذلك مع خاتمة من ثلاثة أجزاء:

1. قارن قيمة p بألفا.

2. بناءً على المقارنة ، حدد ما إذا كنت سترفض فرضية العدم أم لا.

3. التعبير عن القرار الإحصائي من حيث ما إذا كان للنموذج فائدة إحصائية أم لا.

في هذا المثال ، نظرًا لأن القيمة p 4.59E-08 أقل من ألفا من 0.05 ، ارفض فرضية العدم واستنتج أن النموذج مفيد إحصائيًا.

فترة الثقة على المنحدر
يمكننا أيضًا إجراء استنتاج بالنظر إلى فاصل الثقة للميل. انظر إلى ورقة العمل 2.2.2 مرة أخرى. في الصف المسمى "الأصول" ، انظر إلى العمود المسمى "أقل 95٪ وأعلى 95٪. هذه هي الحدود الدنيا والعليا لمستوى ثقة 95٪ للمنحدر.

تذكر أن الميل يساوي 0.10. فسرنا ذلك على النحو التالي: Y (الساعات الخارجية) تزيد 0.10 لوحدة زيادة في X (الأصول). لكي تكون أكثر عملية ، تزيد الساعات الخارجية بمقدار 100 عندما تزيد الأصول بمقدار 1،000،000 دولار. ومع ذلك ، فإن المنحدر له تباين ، وأحيانًا يكون أكثر من 0.10 وأحيانًا لا يكون حادًا مثل 0.10. بنسبة ثقة تبلغ 95٪ ، ستكون الأشد حدة عند 0.1234 والأكثر انحدارًا ستكون 0.076585. لذلك يمكننا تفسير فترة الثقة على النحو التالي: تزيد الساعات الخارجية بحد أدنى 0.076 وحد أقصى 0.12 عندما تزيد الأصول بمقدار 1. نظرًا لأن الأصول بالثواني ، نقول أن الساعات الخارجية تزيد بين 0.076 كحد أدنى و 0.12 كحد أقصى عندما تزيد الأصول بمقدار 1000 دولار. نظرًا لأن العلاقة خطية ، يمكننا القول أن الساعات الخارجية تزيد بين 0.76 و 1.2 عندما تزيد الأصول بمقدار 10000 دولار أو تزيد الساعات الخارجية بين 7.6 و 12 عندما تزيد الأصول بمقدار 100000 دولار أو تزيد الساعات الخارجية بين 76 كحد أدنى و 120 كحد أقصى عندما تزيد الساعات الخارجية بمقدار 1،000،000 دولار.

يمكننا في الواقع استخدام فاصل الثقة لرفض أو عدم رفض فرضية العدم مع البديل ذي الذيلتين. عندما تكون الحدود الدنيا والعليا لفاصل الثقة 95٪ موجبة أو كلاهما سالب ، فلا يتم تضمين الصفر في النطاق. يخبرنا فاصل الثقة بعد ذلك أن المنحدر لا يساوي الصفر ، ونرفض فرضية العدم عند مستوى ألفا يبلغ 0.05. ومع ذلك ، عندما تكون الحدود الدنيا لفاصل الثقة 95٪ سالبة والحد الأعلى موجبًا ، يتم تضمين الصفر في النطاق. في هذه الحالة ، لا نرفض الفرضية الصفرية القائلة بأن الميل يساوي صفرًا. على سبيل المثال ، إذا كان الحد الأدنى هو -0.12 وكان الحد الأعلى +0.12 ، فعندما يرتفع X بمقدار وحدة واحدة ، ينخفض ​​Y أحيانًا ويزيد Y في بعض الأحيان. وبالتالي ، ليس لدينا أدلة كافية لدحض فرضية العدم.


الخطوة 6: تقييم افتراضات نموذج الانحدار

دعونا نلخص ما نحن فيه. يتمتع النموذج بفائدة عملية جيدة فيما يتعلق بمربع R: 82٪ من التباين في الساعات الخارجية تفسر من خلال الأصول. ومع ذلك ، أعتقد أن الخطأ المعياري يحد من كونه غير مقبول للدقة في التنبؤ بالساعات الخارجية. خمسة وتسعون بالمائة من الساعات الفعلية ستكون ضمن +/- 2 * 91 أو +/- 182 ساعة من الساعات المتوقعة. نظرًا لأن هذا قد يكون مقبولًا لأغراض التخطيط العام ، فإننا نقبل الخطأ القياسي لأغراض العرض التوضيحي ، ونستمر. إلى جانب المنفعة العملية ، يحتوي النموذج على فائدة إحصائية كما هو موضح في الخطوة 5.

هل يمكننا البدء في استخدام النموذج لعمل توقعاتنا؟ ليس تماما. لا يزال يتعين علينا اختبار الافتراضات. هناك ثلاثة افتراضات في الانحدار تتعلق جميعها بالخطأ أو المتبقي (القيمة الفعلية للمتغير التابع مطروحًا منه القيمة المتوقعة للمتغير التابع):

يعد الانحدار قويًا لانتهاكات الافتراض الأول - وهذا يعني أن الانحدار الثابت يعمل جيدًا حتى لو لم يتم توزيع شروط الخطأ بشكل طبيعي طالما أن التوزيعات ليست منحرفة للغاية (بالقيم المتطرفة). هذا يترك الافتراضين الثاني والثالث على أنهما يجب أن يلتقيا. أفضل طريقة لضمان استيفاء هذين الافتراضين هي إجراء اختبارات المنفعة العملية والإحصائية للتأكد من أن لدينا متغيرًا ونموذجًا جيدًا للتنبؤ ، وأن نكون غير متحيزين في جمع البيانات. أن نكون غير متحيزين يعني أننا نختار بشكل عشوائي ملاحظات المتغير المستقل ثم نسجل القيمة المرتبطة بالمتغير التابع لتلك الملاحظة. يجب أن يضمن هذا التوزيع العادل للقيم المنخفضة والمتوسطة والعالية للمتغير المستقل.

يتم توزيع الأخطاء بشكل طبيعي
بعد جمع بياناتنا ، يجب أن يكون لدينا عدة قيم لـ Y للقيم المختلفة المنخفضة والمتوسطة والعالية لـ X. يجب أن تكون معظم قيم Y بالقرب من خط الانحدار لكل قيمة من قيم X. هذه القيم Y لها ناقص وإيجابي صغير اعتمادًا على ما إذا كانت أعلى أو أسفل خط الانحدار. ستكون بعض قيم Y بعيدة عن خط الانحدار ، وستكون بها خطأ موجب وسالب أكبر. يجب أن يكون توزيع الأخطاء طبيعيًا ومتوسط ​​الصفر لأن الأخطاء السالبة تلغي الأخطاء الإيجابية حول خط الانحدار. هل تتذكر ما الذي جعل التوزيعات منحرفة أو غير طبيعية؟ هذا صحيح ، القيم المتطرفة وأنماط متعددة.

طالما لا توجد قيم متطرفة أو أوضاع متعددة ، يتم استيفاء هذا الافتراض بشكل عام. كيف نحدد ما إذا كان هناك القيم المتطرفة. ابحث عن درجات z لمصطلحات الخطأ ومعرفة ما إذا كان أي منها أعلى من +3 أو أقل من -3 من الخطأ الصفري. لقد تم هذا بطريقتين. أولاً ، يمكنك إلقاء نظرة على جدول المخرجات المتبقية الموجود في أسفل إخراج الانحدار. انظر إلى ورقة العمل 2.2.2 ، وابحث عن قسم المخرجات المتبقية ، ولاحظ أن العمود الأول هو "الملاحظة" ، والثاني هو ساعات العمل المتوقعة ، والثالث هو القيم المتبقية ، والرابع هو النقاط المعيارية المتبقية أو درجات Z. انظر إلى أسفل هذا العمود وتحقق مما إذا كانت هناك أي مخلفات قياسية أعلى من +3 أو أقل من -3. لا أرى أي شيء ، لذلك يتم استيفاء الافتراض في هذه المرحلة.

ثانيًا ، يمكنك إلقاء نظرة على مخطط الاحتمال العادي الذي يأتي كواحد من الرسوم البيانية مع إخراج الانحدار. سيكون عادةً على يمين جداول الانحدار. توضح ورقة العمل 2.2.3 مخطط الاحتمال العادي لهذا المثال.

تتطلب هذه الطريقة بعض الخبرة و "عين فنية" (أعتقد أنني لست فنانًا كثيرًا لأنني أفضل النظر في المخلفات المعيارية التي لا تتطلب سوى تطبيق قاعدة بسيطة). عند استيفاء افتراض الحالة الطبيعية ، يجب أن يقترب مخطط الاحتمال العادي من خط مستقيم كما هو موضح في ورقة العمل 2.2.3. عندما تكون هناك قيم متطرفة ، ستظهر واحدة أو أكثر من قيم Y من الخط المستقيم. فيما يلي مثال على رسم تخطيطي مبعثر يظهر ظاهريًا.

يتم عرض مخطط الاحتمالية العادية في ورقة العمل 2.2.5.

يرجى ملاحظة كيف تظهر نقطتان خارج الخط. قد تشير هذه إلى التحقيق على أنه القيم المتطرفة أو المتغيرات المؤثرة الاستخدام الجيد الآخر لمخطط الاحتمال العادي هو تحديد أوضاع متعددة. قد يشير الرسم البياني المبعثر إلى وجود مجموعة واحدة أو أكثر من البيانات التي قد تشير إلى التقسيم الطبقي ونماذج الانحدار المنفصلة. سيُظهر مخطط الاحتمال العادي هذا كخطين منفصلين أو أكثر ، بدلاً من سطر واحد.

الأخطاء لها تباين ثابت
كما ذكرنا سابقًا ، إذا تم إنشاء النموذج واختباره بشكل صحيح ، وتم جمع البيانات بشكل عشوائي ، فيجب أن تكون الأخطاء ثابتة لجميع قيم المتغير المستقل. تم استخدام مؤامرة أخرى لاختبار هذا الافتراض. يُطلق عليه اسم المؤامرة المتبقية ، ويظهر كما في ورقة العمل 2.2.6.

ورقة العمل 2.2.6

يتطلب تحليل المؤامرة المتبقية بعض الفن أيضًا. لتحقيق هذا الافتراض ، يجب ألا تُظهر القيم المتبقية أي أنماط ، ويجب أن يكون التباين هو نفسه تقريبًا للقيم المنخفضة والقيم المتوسطة والقيم العالية لـ X. يبدو أن التباين حول 3000 يتراوح من -50 إلى +150 ، عند 7000 من -150 إلى +50 ، ومن 9000 إلى -100 إلى +100. قد تكون الصورة المثالية من -150 إلى +150 لجميع قيم X ، أو حتى أفضل ، من -50 إلى +50 لجميع قيم X. ومع ذلك ، فإن هذا التباين ليس "سيئًا للغاية". قد تؤدي انتهاكات هذا الافتراض إلى قطع الأراضي المتبقية التي تُظهر ، على سبيل المثال ، تقلبًا صغيرًا جدًا عند القيم المنخفضة لـ X والتباين الشديد عند القيم العالية. لا تحتوي ورقة العمل 2.2.6 على شكل "المروحة" هذا. لاحظ أن شكل "المروحة" يمكن أن يكون عريضًا على اليسار وضيقًا على اليمين ، أو حتى ضيقًا في الأطراف وواسعًا في المنتصف مثل كرة القدم.

المعرفة الأخرى التي نحصل عليها من المؤامرة المتبقية هي نمط قد يوحي بأننا حددنا النموذج بشكل غير صحيح. للتوضيح ، افترض أننا حاولنا ملاءمة نموذج انحدار خطي بسيط لمجموعة البيانات الموضحة في ورقة العمل 2.2.7.

ورقة العمل 2.2.7

إليكم الشكل الذي ستبدو عليه الحبكة المتبقية.

ورقة العمل 2.2.8

تُظهر هذه المؤامرة المتبقية نمطًا يعكس خطأ إيجابيًا مرتفعًا عند القيم المنخفضة لـ X ، وخطأ سالبًا عند القيم الوسطى لـ X ، وخطأ إيجابي مرتفع عند القيم العالية لـ X. كان المنحنى نموذجًا أفضل لملاءمة هذه البيانات - سنفعل مما كانت عليه في الوحدة 3.

الأخطاء مستقلة
هذا الافتراض يعني أن قيمة خطأ واحد يجب ألا تؤثر أو تؤثر على قيمة الأخطاء المتتالية. لاكتشاف ذلك ، يتم استخدام الرسم المتبقي كما هو الحال مع الافتراض الثاني ، ويجب تسجيل الملاحظات في تسلسل السلاسل الزمنية. عندما لا تُظهر المؤامرة المتبقية أي نمط ، فمن المحتمل أن يتحقق الافتراض. عندما يكون هناك نمط ، فإن شروط الخطأ والملاحظات نفسها ليست مستقلة.

السبب الأكثر شيوعًا لعدم تلبية هذا الافتراض هو بيانات السلاسل الزمنية. على سبيل المثال ، إذا كانت هناك موسمية قوية ، فقد يوضح الرسم البياني المتبقي نمط موجة يمر عبر قمم ووديان الموسمية. نظرًا لوجود نمط ، يجب على المحلل محاولة بناء نموذج انحدار متعدد لمعالجة التباين الموسمي كمتغير مستقل آخر ، بدلاً من تركه في النموذج وانتهاك الافتراض. سنتناول هذا البند في الوحدة 3.

نظرًا لأن السلاسل الزمنية تنتهك هذا الافتراض بشكل متكرر ، يعتمد العديد من المتنبئين على نماذج التنبؤ بالسلاسل الزمنية ، مثل تحلل السلاسل الزمنية أو التسوية الأسية بدلاً من الانحدار لبناء نماذجهم التنبؤية. سوف تغطي هذا الموضوع في الأساليب الكمية ودورات إدارة الإنتاج في منهج ماجستير إدارة الأعمال.

تناقش بعض النصوص ، مثل المراجع المدرجة في نهاية هذه الملاحظات ، إحصاء Durbin Watson كاختبار رقمي محدد للاستقلالية. لن أتطرق إلى هذا لأن Excel لا يدمج هذا الاختبار أو جدول إحصاء اختبار Durbin Watson. سوف نعتمد على الممارسة الجيدة لجمع البيانات وتفسير المخلفات المعيارية ، ومخططات الاحتمالات المتبقية والعادية لاختبار الافتراضات.


الخطوة 7: استخدم النموذج للتنبؤ

بعد اختبار النموذج من أجل المنفعة العملية والإحصائية ، وبعد التحقق من الافتراضات ، حان الوقت لاستخدام النموذج للتنبؤ. من فضلك لا تعتقد أن الأمر يستغرق استثمارًا كبيرًا للوقت للوصول إلى هذه النقطة. بعد بضع حالات من الانحدار باستخدام برنامج Excel ، ستتمكن من اختبار الأداة والافتراضات في بضع دقائق. يتضمن اختبار الاستدعاء للأداة العملية فقط النظر إلى R 2 والخطأ القياسي في التقدير. يتطلب اختبار الأداة الإحصائية نظرة سريعة على القيمة الاحتمالية. يتطلب اختبار الافتراضات مسحًا للقيم المتطرفة والأوضاع المتعددة في المخلفات المعيارية ومؤامرة الاحتمالية العادية ومسحًا للأنماط أو أشكال المروحة أو كرة القدم في المؤامرة المتبقية. بالطبع ، سوف يستغرق الأمر مزيدًا من الوقت إذا تم انتهاك أي افتراضات تتطلب تحديد متغير جديد ، أو جمع بيانات جديدة ، أو إنشاء نموذج جديد.

Let's say that the model passed the practical and statistical utility test, and the assumptions checked out ok. Now its time to make a prediction. Suppose we want to predict how long it would take to audit a client who has $8,400,000 in assets. The first thing we do is a point estimate for external hours.

Next, incorporate the prediction interval around the point estimate. The prediction interval is created just as before, +/- 2 times the standard error of the estimate. So, we are 95% confident, that the actual external hours will be between:


The predictions of values for the dependent variable for each of the values of the independent variable in the sample data base are shown in a chart called the Line Fit Plot. This chart comes with the Regression output, as illustrated in Worksheet 2.2.9

Worksheet 2.2.9

The actual ExtHours and Predicted ExtHours are automatically provided in the line fit plot. To get the prediction bars to illustrate the 95% prediction interval, highlight the chart, put the cursor on one of the predicted values and left click the mouse, select Format on the Standard Toolbar, choose Selected Data Series , then Y Error Bars , then Custom , then enter the result of 2 * the standard error (182 in this example) in the + and - boxes.

The interested reader is referred to the Anderson reference, Section 12.7, or the Levine reference, pages 814-820, for more details on prediction and confidence intervals for predictions. The prediction interval I introduced in Eq. 2.2.7 is an approximate interval for an individual prediction. The texts demonstrates a precise formula as well as a method of making a confidence interval around an average value of Y. I find that most predictions involve individual forecasts, such as sales in January, external audit hours for an individual client, and so forth.


That finishes the material on simple linear regression and correlation analysis. We will apply the seven step regression process in Module 3, when we visit multiple regression models.

Anderson, D., Sweeney, D., & Williams, T. (2001). Contemporary Business Statistics with Microsoft Excel. Cincinnati, OH: South-Western, Chapter 12 (through Section 12.8).

Levine, D., Berenson, M. & Stephan, D. (1999). Statistics for Managers Using Microsoft Excel (2nd. ed.). Upper Saddle River, NJ: Prentice-Hall, Chapter 13.


How exactly are standardized residuals calculated

I'm working on a model for something and at the moment I prefer working solely in Excel. I've been double checking the results of the linear model in JMP, Minitab, and Statistica, and (more or less) been getting the same answers.

One thing that's coming out odd though is my standardized residuals, I'm getting much different answers than Excel's regression routine, and I know it has to do with how I am calculating them:

The standard deviation of our population varies relative to the output, so we work in terms of the relative standard deviation. We have an assumed %RSD of 5% (based on a lot of previous work, we also have reason to assume normality). From this I standardize the residuals by saying $frac<(x-u)>$ where x = the observed value and u = the predicted value, so x-u = the residual.

Note that $ucdot RSD = s$. Simple z-score. Problem is that the values Excel is giving me for the standardized residuals are much different than mine. This isn't exactly surprising since I am using a varying standard deviation. But their values don't seem to be tied to the reality of the data. One observation could be off by as much as 50% (around 6 standard deviations away) and the standardized residuals I'm given are only like 2 or 3.

Anyways, I'm having a really hard time finding out exactly كيف the residuals are standardized in a linear regression. Any help would be appreciated


محتويات

The statement is as follows:

Let U be a simply connected open subset of the complex plane containing a finite list of points أ1, . أن , U0 = U <أ1, . أن> , and a function f defined and holomorphic on U0 . Let γ be a closed rectifiable curve in U0 , and denote the winding number of γ around أك by I(γ, أك) . The line integral of f around γ is equal to 2 π أنا times the sum of residues of f at the points, each counted as many times as γ winds around the point:

If γ is a positively oriented simple closed curve, I(γ, أك) = 1 if أك is in the interior of γ , and 0 if not, therefore

with the sum over those أك inside γ . [1]

The relationship of the residue theorem to Stokes' theorem is given by the Jordan curve theorem. The general plane curve γ must first be reduced to a set of simple closed curves <γأنا> whose total is equivalent to γ for integration purposes this reduces the problem to finding the integral of F دز along a Jordan curve γأنا with interior V . The requirement that f be holomorphic on U0 = U <أك> is equivalent to the statement that the exterior derivative د(F دز) = 0 on U0 . Thus if two planar regions V and W of U enclose the same subset <أي> of <أك> , the regions الخامس W و W الخامس lie entirely in U0 , and hence

is well-defined and equal to zero. Consequently, the contour integral of F دز على امتداد γي = ∂V is equal to the sum of a set of integrals along paths λي , each enclosing an arbitrarily small region around a single أي — the residues of f (up to the conventional factor 2 π أنا ) at <أي> . Summing over <γي> , we recover the final expression of the contour integral in terms of the winding numbers <>γ, أك)> .

In order to evaluate real integrals, the residue theorem is used in the following manner: the integrand is extended to the complex plane and its residues are computed (which is usually easy), and a part of the real axis is extended to a closed curve by attaching a half-circle in the upper or lower half-plane, forming a semicircle. The integral over this curve can then be computed using the residue theorem. Often, the half-circle part of the integral will tend towards zero as the radius of the half-circle grows, leaving only the real-axis part of the integral, the one we were originally interested in.


Use the following steps to create a residual plot in Excel:

Step 1: Enter the data values in the first two columns. For example, enter the values for the predictor variable in A2:A13 and the values for the response variable in B2:B13.

Step 2: Create a scatterplot. Highlight the values in cells A2:B13. Then, navigate to the INSERT tab along the top ribbon. Click on the first option for Scatter within the الرسوم البيانية area.

The following chart will appear:

Step 3: Display trend line equation on the scatterplot. Click “Add Chart Elements” from the DESIGN tab, then “Trendline”, and then “More Trendline Option. Leave “Linear” selected and check “Display Equation on Chart.” Close the “Format Trendline” panel.

The trend line equation will now be displayed on the scatterplot:

Step 4: Calculate the predicted values. Enter the trendline equation in cell C2, replacing “x” with “A1” like so:

Then, click cell C2 and double-click the small “Fill Handle” at the bottom right of the cell. This will copy the formula in cell C2 to the rest of the cells in the column:

Step 5: Calculate the residuals. يدخل B2-C2 in cell D2. Then, click cell D2 and double-click the small “Fill Handle” at the bottom right of the cell. This will copy the formula in cell D2 to the rest of the cells in the column:

Step 6: Create the residual plot. Highlight cells A2:A13. Hold the “Ctrl” key and highlight cells D2:D13. Then, navigate to the INSERT tab along the top ribbon. Click on the first option for Scatter within the الرسوم البيانية area. The following chart will appear:

This is the residual plot. The x-axis displays the fitted values and the y-axis displays the residuals.

Feel free to modify the title, axes, and gridlines to make the plot look more visually appealing:


3 Answers 3

Both the cutoff in the residual plot and the bump in the QQ plot are consequences of model misspecification.

You are modeling the conditional mean of the visitor count let’s call it $Y_$. When you estimate the conditional mean with OLS, it fits $E(Y_mid X_)=alpha+eta X_$. Notice that this specification assumes that if $eta>0$ , you can find a low enough $X_$ that pushes the conditional mean of the visitor count into the negative region. This however cannot be the case in our everyday experience.

Visitor count is a count variable and therefore a count regression would be more appropriate. For example, a Poisson regression fits $E(Y_mid X_)=e^>$ . Under this specification, you can take $X_$ arbitrarily far towards negative infinity, but the conditional mean of the visitor count will still be positive.

All of this implies that your residuals can't by their nature be normally distributed. You seem to not have enough statistical power to reject the null that they are normal. But that null is guaranteed to be false by knowing what your data are.

The cutoff in the residual plot is a consequence of this. You observe the cutoff because for low predicted (fitted) visitor counts the prediction error (residual) can only get so low.

The bump at the end of your QQ plot also follows from this. OLS underpredicts in the right tail because it assumes that the relationship between $X_$ and the outcome is linear. Poisson would assume it is multiplicative. In turn, the right tail of the residuals in the misspecified model is fatter than that of the normal distribution.

I think @BruceET is making a good point that a “wobble” is natural for any estimator, and the question is whether the wobble is outside of a valid confidence bound. But in this case it also signals model misspecification.


Bagging

Bagging is a combination of two subsequent steps:

أنا. Bootstrap sampling of the dataset, into م subsets. Each one of these م subsets are then used to learn a model. These models are called as base learners/models.

ثانيا. Taking a majority vote to declare the final prediction value.

Since in bagging, a subset of the dataset is used to train a base model, each of the base learners is likely to overfit (since each model has lesser examples to learn from, they may not generalise well). Taking majority vote is gives a model that has a variance which is the average of the variances of all base learners (figure 1).

Boosting is quite different from Bagging in its approach of training base learners and using them to give final results. Bagging learns base learners from independently bootstrapped subsets of data, and hence we can train all the base learners simultaneously in a parallel environment. Boosting, on the other hand, trains the base learners sequentially- models are trained one after the other. Therefore, training base learners in parallel is impossible. Moreover, in a Boosting algorithm we start with a high bias model. The actual model is first initialised with a constant value. It is then progressively made less biased by adding base learners to it. We shall see how Gradient Boosting goes about learning a final model that has a much lower bias given an appropriate number of base learners.


Find the residual values, and use the graphing calculator tool to make a residual plot. A 4-column table with 5 rows. The first column is labeled x with entries 1, 2, 3, 4, 5. The second column is labeled given with entries negative 2.7, negative 0.9, 1.1, 3.2, 5.4. The third column is labeled predicted with entries negative 2.84, negative 0.81, 1.22, 3.25, 5.28. The fourth column is labeled residual value with all entries blank. Does the residual plot show that the line of best fit is appropriate for the data?

أ.

if right pls give brainliest

Nvm it is right pls give brainliest i need 5 to get to next rank

Residual value = Given value - Predicted value

The table for residual values is shown below,

Plotting a graph, by taking the residual values on ordinate and values of given x on abscissa, a random pattern is obtained where the points are evenly distributed about x-axis.

If the points in a residual plot are randomly dispersed around the horizontal or x-axis, a linear regression model is appropriate for the data. Otherwise, a non-linear model is more appropriate.

As, in this case the points are distributed randomly around x-axis, so the residual plot show that the line of regression is best fit for the data set.


Common Uses

The mean absolute deviation has a few applications. The first application is that this statistic may be used to teach some of the ideas behind the standard deviation. The mean absolute deviation about the mean is much easier to calculate than the standard deviation. It does not require us to square the deviations, and we do not need to find a square root at the end of our calculation. Furthermore, the mean absolute deviation is more intuitively connected to the spread of the data set than what the standard deviation is. This is why the mean absolute deviation is sometimes taught first, before introducing the standard deviation.

Some have gone so far as to argue that the standard deviation should be replaced by the mean absolute deviation. Although the standard deviation is important for scientific and mathematical applications, it is not as intuitive as the mean absolute deviation. For day-to-day applications, the mean absolute deviation is a more tangible way to measure how spread out data are.


شاهد الفيديو: الصين وتحسين طرق التخلص من النفايات الالكترونية (شهر اكتوبر 2021).