مقالات

2.5: الانحدار


لقد رأينا أمثلة بالفعل في النص حيث يتم استخدام الدوال الخطية والتربيعية لنمذجة مجموعة واسعة من ظواهر العالم الحقيقي التي تتراوح من تكاليف الإنتاج إلى ارتفاع المقذوف فوق الأرض. في هذا القسم ، نستخدم بعض الأدوات الأساسية من التحليل الإحصائي لتحديد الاتجاهات الخطية والتربيعية التي قد نراها في بيانات العالم الحقيقي من أجل إنشاء نماذج خطية وتربيعية. هدفنا هو إعطاء القارئ فهمًا للعمليات الأساسية المتضمنة ، لكننا نسارع إلى إحالة القارئ إلى دورة أكثر تقدمًا لعرض كامل لهذه المادة. لنفترض أننا جمعنا ثلاث نقاط بيانات: ( {(1،2) ، (3،1) ، (4،3) } ). من خلال رسم هذه النقاط ، يمكننا أن نرى بوضوح أنها لا تقع على نفس الخط. إذا اخترنا أيًا من النقطتين ، فيمكننا العثور على خط يحتوي على كلتيهما يخطئ تمامًا النقطة الثالثة ، ولكن هدفنا هو العثور على خط يكون بمعنى ما "قريبًا" من جميع النقاط ، على الرغم من أنه قد يمر بلا شيء. منهم. الطريقة التي نقيس بها "التقارب" في هذه الحالة هي إيجاد مجموع الخطأ التربيعي بين نقاط البيانات والخط. ضع في اعتبارك نقاط البيانات الثلاث والخط (y = frac {1} {2} x + frac {1} {2} ). لكل نقطة من نقاط البيانات لدينا ، نجد المسافة العمودية بين النقطة والخط. لتحقيق ذلك ، نحتاج إلى إيجاد نقطة على الخط أعلى أو أسفل كل نقطة بيانات مباشرة - بمعنى آخر ، نقطة على الخط بنفس تنسيق (x ) - كنقطة بياناتنا. على سبيل المثال ، للعثور على النقطة الموجودة على السطر الموجود أسفل ((1،2) ) مباشرةً ، نعوض (x = 1 ) في (y = frac {1} {2} x + frac {1 } {2} ) ونحصل على النقطة ((1،1) ). وبالمثل ، نحصل على ((3،1) ) يتوافق مع ((3،2) ) و ( left (4، frac {5} {2} right) ) لـ (( 4،3) ).

نجد الخطأ التربيعي الإجمالي (E ) بأخذ مجموع مربعات الفروق في إحداثيات (y ) - لكل نقطة بيانات والنقطة المقابلة لها على الخط. للبيانات والسطر أعلاه (E = (2-1) ^ 2 + (1-2) ^ 2 + left (3- frac {5} {2} right) ^ 2 = frac {9} {4} ). باستخدام الآلات الرياضية المتقدمة (خاصة حساب التفاضل والتكامل والجبر الخطي) من الممكن إيجاد السطر الذي ينتج عنه أقل قيمة لـ (E ). هذا الخط يسمى خط انحدار المربعات الصغرى، أو في بعض الأحيان "الخط الأنسب". تتطلب صيغة السطر الأنسب تدوينًا لن نقدمه حتى الفصل 9 ، لذلك سنعيد النظر فيه بعد ذلك. يمكن لآلة حاسبة الرسوم البيانية مساعدتنا هنا ، نظرًا لأنها تحتوي على ميزة مضمنة لحساب خط الانحدار. ندخل البيانات وننفذ ميزة الانحدار الخطي ونحصل عليها

تخبرنا الآلة الحاسبة أن الخط الأنسب هو (y = ax + b ) حيث يكون الميل (a حوالي 0.214 ) و (y ) - إحداثيات التقاطع (y ) هو (ب حوالي 1.428 ). (سنلتزم باستخدام ثلاثة منازل عشرية لتقديراتنا.) باستخدام هذا السطر ، نحسب الخطأ التربيعي الإجمالي لبياناتنا لتكون (E حوالي 1.786 ). القيمة (r ) هي معامل الارتباط وهو مقياس لمدى قرب البيانات من أن تكون على نفس الخط. كلما كان (| r | ) أقرب إلى (1 ) ، كان الملاءمة الخطية أفضل. نظرًا لأن (r تقريبًا 0.327 ) ، يخبرنا هذا أن السطر الأفضل ملاءمة لا يناسب كل هذا جيدًا - بمعنى آخر ، نقاط البيانات لدينا ليست قريبة من أن تكون خطية. القيمة (r ^ 2 ) تسمى معامل التحديد وهو أيضًا مقياس لمدى ملاءمة الملاءمة. حاشية سفلية {نحيل القارئ المهتم إلى دورة في الإحصاء لاستكشاف أهمية (r ) و (r ^ 2 ).} رسم البيانات مع انحدارها نتائج الخط في الصورة أدناه.

ينظر مثالنا الأول إلى استهلاك الطاقة في الولايات المتحدة على مدار الخمسين عامًا الماضية.

[ start {array} {| c | c |} hline mbox {Year} & mbox {Energy Usage،} & mbox {in Quads} hline 1950 & 34.6 hline 1960 & 45.1 hline 1970 & 67.8 hline 1980 & 78.3 hline 1990 & 84.6 hline 2000 & 98.9 hline end {array} ]

الوحدة 1 كواد تساوي 1 كوادريليون = (10 ​​^ {15} ) وحدة حرارية بريطانية ، وهي حرارة كافية لرفع بحيرة إيري تقريبًا (1 ^ { circ} ) F}

مثال ( PageIndex {1} ): استهلاك الطاقة

باستخدام بيانات استهلاك الطاقة الواردة أعلاه ،

  1. ارسم البيانات باستخدام حاسبة الرسوم البيانية.
  2. ابحث عن خط انحدار المربعات الصغرى وعلق على جودة الملاءمة.
  3. فسر ميل الخط الأنسب.
  4. استخدم خط الانحدار للتنبؤ باستهلاك الطاقة السنوي للولايات المتحدة في العام (2013 ).
  5. استخدم خط الانحدار للتنبؤ بموعد وصول الاستهلاك السنوي إلى (120 ) رباعي.

حل

  1. إدخال البيانات في الآلة الحاسبة يعطي

  1. ينتج عن إجراء الانحدار الخطي

يمكننا أن نقول من معامل الارتباط وكذلك الرسم البياني أن خط الانحدار مناسب للبيانات.

  1. ميل خط الانحدار هو (a حوالي 1.287 ). لتفسير ذلك ، تذكر أن الميل هو معدل تغير إحداثيات (y ) - فيما يتعلق بالإحداثيات (x ). نظرًا لأن الإحداثيات (y ) - تمثل استخدام الطاقة في الفترات الرباعية ، وتمثل الإحداثيات (س ) - السنوات ، يشير المنحدر الموجب (1.287 ) إلى زيادة في الاستخدام السنوي للطاقة بمعدل ( 1.287 ) الرباعية في السنة.
  2. للتنبؤ باحتياجات الطاقة في (2013 ) ، نستبدل (x = 2013 ) في معادلة الخط الأنسب للحصول على [y = 1.287 (2013) -2473.890 حوالي 116.841. ] المتوقع استهلاك الطاقة السنوي للولايات المتحدة في (2013 ) تقريبًا (116.841 ) رباعي.
  3. للتنبؤ بالوقت الذي سيصل فيه استخدام الطاقة السنوي في الولايات المتحدة إلى (120 ) رباعي ، نستبدل (y = 120 ) في معادلة السطر الأفضل للحصول على [120 = 1.287x - 2473.908. ] حل من أجل (x ) ينتج (x تقريبًا 2015.454 ). نظرًا لأن خط الانحدار يتزايد ، فإننا نفسر هذه النتيجة على أنها تقول أن الاستخدام السنوي في (2015 ) لن يكون (120 ) حتى الآن ، ولكن في (2016 ) ، سيكون الطلب أكثر من (120) كواد.

يمنحنا المثال التالي فرصة للعثور على نموذج غير خطي يناسب البيانات. وفقًا لخدمة الطقس الوطنية ، تم تقديم درجات الحرارة المتوقعة لكل ساعة في Painesville في 3 مارس 2009 على النحو الملخص أدناه.

[ start {array} {| c | c |} hline mbox {Time} & mbox {Temperature، (^ { circ} ) F} hline 10 mbox {AM} & 17 hline 11 mbox {AM} & 19 hline 12 mbox {PM} & 21 hline 1 mbox {PM} & 23 hline 2 mbox {PM} & 24 hline 3 mbox {PM} & 24 hline 4 mbox {PM} & 23 hline end {array} ]

لإدخال هذه البيانات في الآلة الحاسبة ، نحتاج إلى ضبط قيم (x ) ، حيث إن مجرد إدخال الأرقام قد يتسبب في حدوث ارتباك. (هل ترى لماذا؟) لدينا عدد قليل من الخيارات المتاحة لنا. ولعل الأسهل هو تحويل الأوقات إلى توقيت 24 ساعة بحيث يكون (1 ) مساءً (13 ) ، (2 ) مساءً (14 ) ، إلخ .. إذا أدخلنا هذه البيانات في حاسبة الرسوم البيانية ورسم النقاط التي نحصل عليها

بينما تبدو بداية البيانات خطية ، تبدأ درجة الحرارة في الانخفاض في ساعات بعد الظهر. يذكرنا هذا النوع من السلوك بالقطوع المكافئة ، ومن المؤكد أنه من الممكن العثور على القطع المكافئ الأفضل ملاءمة بنفس الطريقة التي وجدنا بها الخط الأكثر ملاءمة. هذه العملية تسمى الانحدار التربيعي وهدفها هو تقليل الخطأ التربيعي الأدنى للبيانات مع النقاط المقابلة لها على القطع المكافئ. تحتوي الآلة الحاسبة على ميزة مضمنة لهذا أيضًا والتي تنتج

يبدو معامل التحديد (R ^ 2 ) قريبًا بشكل معقول من (1 ) ، ويبدو الرسم البياني مناسبًا بصريًا. نستخدم هذا النموذج في مثالنا التالي.

مثال ( PageIndex {2} ): الانحدار التربيعي

باستخدام النموذج التربيعي لبيانات درجة الحرارة أعلاه ، توقع درجة الحرارة الأكثر دفئًا في اليوم. متى سيحدث هذا؟

حل

ستحدث درجة الحرارة القصوى عند قمة القطع المكافئ. استدعاء صيغة Vertex ، المعادلة 2.4 ، [x = - frac {b} {2a} almost - frac {9.464} {2 (-0.321)} حوالي 14.741. ] هذا يتوافق مع تقريبًا (2 !: ! 45 ) م. لإيجاد درجة الحرارة ، نعوض (x = 14.741 ) في [y = -0.321 x ^ 2 + 9.464x - 45.857 ] لنحصل على (y almost 23.899 ) ، أو (23.899 ^ { circ })F.

يجب أن تذكرك نتائج المثال الأخير بأن نماذج الانحدار هي مجرد نماذج. تم العثور على درجة الحرارة الأكثر دفئًا المتوقعة لدينا لتكون (23.899 ^ { circ} ) فهرنهايت ، لكن بياناتنا تشير إلى أنها سترتفع إلى (24 ^ { circ} ) فهرنهايت. من الجيد والجيد ملاحظة الاتجاهات والتخمين في نموذج ما ، ولكن إجراء تحقيق أكثر شمولاً فيه لماذا يجب أن تكون بعض البيانات خطية أو تربيعية بطبيعتها بالترتيب - وهذا ، في أغلب الأحيان ، هو عمل العلماء.


5 خوارزميات الانحدار يجب أن تعرفها & # 8211 الدليل التمهيدي!

في التعلم الآلي ، نستخدم أنواعًا مختلفة من الخوارزميات للسماح للآلات بمعرفة العلاقات داخل البيانات المقدمة وإجراء تنبؤات بناءً على الأنماط أو القواعد المحددة من مجموعة البيانات. لذا ، فإن الانحدار هو أسلوب تعلم آلي حيث يتنبأ النموذج بالمخرجات كقيمة عددية مستمرة.

غالبًا ما يستخدم تحليل الانحدار في التمويل والاستثمار وغيرها ، ويكتشف العلاقة بين متغير تابع واحد (متغير الهدف) يعتمد على عدة متغيرات مستقلة. على سبيل المثال ، التنبؤ بسعر المنزل أو سوق الأوراق المالية أو راتب الموظف وما إلى ذلك هي الأكثر شيوعًا
مشاكل الانحدار.

الخوارزميات التي سنغطيها هي:

3. دعم انحدار المتجهات

1. الانحدار الخطي

الانحدار الخطي هو خوارزمية ML المستخدمة للتعلم تحت الإشراف. ينفذ الانحدار الخطي مهمة التنبؤ بمتغير تابع (هدف) بناءً على المتغير (المتغيرات) المستقلة المحددة. لذلك ، تكتشف تقنية الانحدار هذه علاقة خطية بين متغير تابع والمتغيرات المستقلة الأخرى المعطاة. ومن ثم ، فإن اسم هذه الخوارزمية هو الانحدار الخطي.

في الشكل أعلاه ، على المحور X هو المتغير المستقل وعلى المحور Y هو الناتج. خط الانحدار هو أفضل خط ملائم للنموذج. وهدفنا الرئيسي في هذه الخوارزمية هو إيجاد هذا الخط الأنسب.

  • الانحدار الخطي سهل التنفيذ.
  • أقل تعقيدًا مقارنة بالخوارزميات الأخرى.
  • قد يؤدي الانحدار الخطي إلى الإفراط في الملاءمة ولكن يمكن تجنبه باستخدام بعض تقنيات تقليل الأبعاد وتقنيات التنظيم والتحقق المتبادل.
  • القيم المتطرفة تؤثر على هذه الخوارزمية بشكل سيء.
  • إنه يبسط مشاكل العالم الحقيقي بشكل مفرط من خلال افتراض علاقة خطية بين المتغيرات ، وبالتالي لا يوصى به لحالات الاستخدام العملية.

2. شجرة القرار

يمكن تطبيق نماذج شجرة القرار على كل تلك البيانات التي تحتوي على ميزات عددية وميزات فئوية. تعتبر أشجار القرار جيدة في التقاط التفاعل غير الخطي بين الميزات والمتغير المستهدف. تتطابق أشجار القرار إلى حد ما مع التفكير على مستوى الإنسان ، لذا من السهل جدًا فهم البيانات.

على سبيل المثال ، إذا كنا نصنف عدد الساعات التي يلعب فيها الطفل في طقس معين ، فإن شجرة القرار تبدو إلى حد ما كما هو مذكور أعلاه في الصورة.

لذلك ، باختصار ، شجرة القرار عبارة عن شجرة حيث تمثل كل عقدة ميزة ، ويمثل كل فرع قرارًا ، وتمثل كل ورقة نتيجة (القيمة الرقمية للانحدار).

  • سهل الفهم والتفسير ، بديهي بصريًا.
  • يمكن أن تعمل مع الميزات العددية والفئوية.
  • يتطلب القليل من المعالجة المسبقة للبيانات: لا حاجة إلى ترميز واحد ساخن ، أو متغيرات وهمية ، إلخ.
  • تميل إلى الإفراط في التجهيز.
  • يميل التغيير البسيط في البيانات إلى إحداث اختلاف كبير في بنية الشجرة ، مما يؤدي إلى عدم الاستقرار.

3. دعم انحدار المتجهات

يجب أن تكون قد سمعت عن SVM ، أي دعم آلة المتجهات. يستخدم SVR أيضًا نفس فكرة SVM ولكنه يحاول هنا التنبؤ بالقيم الحقيقية. تستخدم هذه الخوارزمية الطائرات الفائقة لفصل البيانات. في حالة عدم إمكانية هذا الفصل ، فإنه يستخدم خدعة kernel حيث يتم زيادة البعد ثم تصبح نقاط البيانات قابلة للفصل بواسطة المستوى الفائق.

في الشكل أعلاه ، الخط الأزرق هو الخط الأحمر في المستوى العالي هو الخط الحدودي

جميع نقاط البيانات داخل خط الحدود (الخط الأحمر). الهدف الرئيسي من SVR هو النظر بشكل أساسي في النقاط الموجودة داخل خط الحدود.

  • قوية للقيم المتطرفة.
  • قدرة ممتازة على التعميم
  • دقة عالية في التنبؤ.
  • غير مناسب لمجموعات البيانات الكبيرة.
  • لا تعمل بشكل جيد عندما تكون مجموعة البيانات بها ضوضاء أكثر.

4. انحدار اللاسو

  • يرمز LASSO إلى مشغل انكماش التحديد المطلق الأقل. يتم تعريف الانكماش بشكل أساسي على أنه قيد على السمات أو المعلمات.
  • تعمل الخوارزمية من خلال إيجاد وتطبيق قيد على سمات النموذج التي تتسبب في تقلص معاملات الانحدار لبعض المتغيرات نحو الصفر.
  • تم استبعاد المتغيرات ذات معامل الانحدار صفر من النموذج.
  • لذلك ، فإن تحليل انحدار lasso هو في الأساس أسلوب اختيار متغير وانكماش ويساعد على تحديد أي من المتنبئين هو الأكثر أهمية.
  • سيحدد LASSO ميزة واحدة فقط من مجموعة الميزات المترابطة
  • يمكن أن تكون الميزات المحددة شديدة التحيز.

5. إرتداد الغابة العشوائية

الغابات العشوائية هي مجموعة (مزيج) من أشجار القرار. إنها خوارزمية تعلم خاضعة للإشراف تستخدم للتصنيف والانحدار. يتم تمرير بيانات الإدخال من خلال عدة أشجار قرارات. يتم تنفيذه من خلال إنشاء عدد مختلف من أشجار القرار في وقت التدريب وإخراج الفصل الذي يمثل وضع الفئات (للتصنيف) أو متوسط ​​التنبؤ (للانحدار) للأشجار الفردية.

  • جيد في تعلم العلاقات المعقدة وغير الخطية
  • من السهل جدا تفسيرها وفهمها
  • هم عرضة للإفراط في التجهيز
  • يؤدي استخدام مجموعات الغابة العشوائية الكبيرة لتحقيق أداء أعلى إلى إبطاء سرعتها ومن ثم يحتاجون أيضًا إلى مزيد من الذاكرة.

2.5 - معامل التحديد ، r تربيع

لنبدأ بحثنا في معامل التحديد ، ص 2 ، من خلال النظر في مثالين مختلفين - مثال واحد فيه العلاقة بين الاستجابة ذ والمتنبئ x ضعيف جدا ومثال ثان فيه العلاقة بين الاستجابة ذ والمتنبئ x قوي إلى حد ما. إذا كان مقياسنا سيعمل بشكل جيد ، فيجب أن يكون قادرًا على التمييز بين هاتين الحالتين المختلفتين تمامًا.

إليك مؤامرة توضح علاقة ضعيفة جدًا بين ذ و x. يوجد خطان على الرسم ، خط أفقي يوضع عند الاستجابة المتوسطة ، ( شريط) ، وخط الانحدار المقدر الضحل ، ( hat). لاحظ أن منحدر خط الانحدار المقدر ليس شديد الانحدار ، مما يشير إلى ذلك باعتباره متنبئًا x يزيد ، لا يوجد تغيير كبير في متوسط ​​الاستجابة ذ. لاحظ أيضًا أن نقاط البيانات لا "تعانق" خط الانحدار المقدر:

تظهر الحسابات الموجودة على يمين الرسم البياني قيم "مجموع المربعات" متناقضة:

  • SSR هو "مجموع انحدار المربعات" ويحدد مدى خط الانحدار المقدر ، ( hat_i ) ، من الأفقي "بلا خط علاقة" ، متوسط ​​العينة أو ( شريط).
  • SSE هو "مجموع خطأ المربعات" ويحدد مقدار نقاط البيانات ، (y_i ) ، التي تختلف حول خط الانحدار المقدر ، ( قبعة_أنا).
  • SSTO هو "المجموع الكلي للمربعات" ويحدد مقدار نقاط البيانات ، (y_i ) ، حول متوسطها ، ( شريط).

لاحظ أن SSTO = SSR + SSE. يبدو أن مجاميع المربعات تروي القصة بشكل جيد. يخبروننا أن معظم التباين في الاستجابة ذ (SSTO = 1827.6) فقط بسبب الاختلاف العشوائي (SSE = 1708.5) ، وليس بسبب انحدار ذ على x (SSR = 119.1). قد تلاحظ ذلك SSR مقسومًا على SSTO هو 119.1 / 1827.6 أو 0.065. هل ترى مكان ظهور هذه الكمية في مخطط الخط المجهز أعلاه؟

قارن المثال أعلاه بالمثال التالي الذي توضح فيه الحبكة علاقة مقنعة إلى حد ما بينهما ذ و x. انحدار خط الانحدار المقدر أكثر حدة ، مما يوحي بذلك باعتباره المتنبئ x يزداد ، هناك تغيير جوهري إلى حد ما (انخفاض) في الاستجابة ذ. وهنا ، تقوم نقاط البيانات "باحتضان" خط الانحدار المقدر:

تروي مجاميع المربعات لمجموعة البيانات هذه قصة مختلفة تمامًا ، وهي أن معظم التباين في الاستجابة ذ (SSTO = 8487.8) بسبب انحدار ذ على x (SSR = 6679.3) ليس فقط بسبب خطأ عشوائي (SSE = 1708.5). و، SSR مقسومًا على SSTO هو 6679.3 / 8487.8 أو 0.799 ، والذي يظهر مرة أخرى في مخطط الخط المناسب.

اقترح المثالان السابقان كيف يجب أن نحدد المقياس رسميًا. باختصار ،معامل التحديد" أو "ص-قيمة مربعة،" يعني ص 2 ، هو مجموع انحدار المربعات مقسومًا على المجموع الكلي للمربعات. بدلاً من ذلك ، كما هو موضح في هذه الشاشة أدناه ، منذ ذلك الحين SSTO = SSR + SSE، الكمية ص 2 يساوي أيضًا واحدًا مطروحًا منه نسبة مجموع خطأ المربعات إلى المجموع الكلي للمربعات:

فيما يلي بعض الخصائص الأساسية للقياس:

  • حيث ص 2 هي نسبة ، وهي دائمًا رقم بين 0 و 1.
  • إذا ص 2 = 1 ، تقع جميع نقاط البيانات بشكل مثالي على خط الانحدار. المتنبئ x حساب لى الكل من الاختلاف في ذ!
  • إذا ص 2 = 0 ، خط الانحدار المقدر أفقي تمامًا. المتنبئ x حساب لى لا أحد من الاختلاف في ذ!

لقد تعلمنا تفسير الحالتين السهلتين - متى ص 2 = 0 أو ص 2 = 1 - لكن كيف نفسر ذلك ص 2 عندما يكون رقمًا بين 0 و 1 ، مثل 0.23 أو 0.57 ، على سبيل المثال؟ فيما يلي طريقتان متشابهتان ، لكنهما مختلفتان قليلاً ، يتم من خلالهما معامل التحديد ص 2 يمكن تفسيرها. نقول إما:

"ص 2 × 100 بالمائة من الاختلاف في ذ يتم تقليله من خلال مراعاة المتنبئ x"

"ص 2 × 100 بالمائة من الاختلاف في ذ يتم "شرحه من خلال" التباين في التوقع x."

يفضل العديد من الإحصائيين التفسير الأول. أميل إلى تفضيل الثانية. تكمن خطورة استخدام التفسير الثاني - ومن ثم لماذا تظهر "مفسرة بـ" في الاقتباسات - في أنه يمكن إساءة فهمها على أنها توحي بأن المتنبئ x الأسباب التغيير في الاستجابة ذ. الرابطة ليست سببية. هذا فقط لأن مجموعة البيانات تتميز بوجود حجم كبير ص-قيمة مربعة ، فهذا لا يعني ذلك x الأسباب التغييرات في ذ. طالما أنك تضع المعنى الصحيح في الاعتبار ، فلا بأس من استخدام التفسير الثاني. الاختلاف في التفسير الثاني هو القول ، "ص 2 × 100 بالمائة من الاختلاف في ذ يتم احتسابه من خلال الاختلاف في التوقع x."

غالبًا ما يسأل الطلاب: "ما يعتبر كبيرًا ص-قيمة مربعة؟ "يعتمد ذلك على مجال البحث. علماء الاجتماع الذين يحاولون غالبًا معرفة شيء ما عن التباين الهائل في السلوك البشري سيميلون إلى العثور على صعوبة بالغة في الحصول عليه ص- قيم مربعة أعلى بكثير ، لنقل 25٪ أو 30٪. من ناحية أخرى ، من المرجح أن يجد المهندسون الذين يميلون إلى دراسة أنظمة أكثر دقة ص- قيمة مربعة 30٪ فقط غير مقبولة. المغزى من القصة هو قراءة الأدب لمعرفة ما هو نموذجي ص- القيم المربعة هي لمجال البحث الخاص بك!

دعنا نعيد النظر في مثال الوفيات بسرطان الجلد (skincancer.txt). سيقوم أي برنامج إحصائي يقوم بإجراء تحليل انحدار خطي بسيط بالإبلاغ عن ص-قيمة مربعة بالنسبة لك ، وهي في هذه الحالة 67.98٪ أو 68٪ لأقرب رقم صحيح.

يمكننا القول أن 68٪ من التباين في معدل وفيات سرطان الجلد ينخفض ​​من خلال مراعاة خط العرض. أو يمكننا القول - بمعرفة ما تعنيه حقًا - أن 68٪ من التباين في معدل الوفيات بسرطان الجلد "يُفسَّر" بخط العرض.


نموذج 2 الانحدار

في نموذج الانحدار 1 ، يمكنك التحكم في المتغير المستقل (x) وقياس المتغير التابع (الاستجابة) (y). التجارب المعملية هي أمثلة على ذلك. في حالات أخرى ، لا يمكنك التحكم في أي من المتغيرين ، مثل قياس أطوال وعرض المحار الذي وجدته على الشاطئ. في هذه الحالات ، ليس من الواضح أي متغير يمكن اعتباره متغيرًا مستقلًا (س) أو متغيرًا تابعًا (ص). الترتيب مهم ، لأن انحدار y على x ينتج خطًا مختلفًا عن انحدار x على y. عندما لا تتحكم في أحد المتغيرات ، يُقال إن كلا المتغيرين بهما خطأ في القياس ويجب عليك إجراء انحدار للنموذج 2. تسمح لنا انحدارات النموذج 2 بوصف العلاقة ، وإنشاء فترات ثقة ، واختبار بعض الفرضيات ، ولكن لا يمكن استخدامها للتنبؤ.

يفسر الانحدار النموذجي 2 عدم اليقين في كل من x و y عن طريق تقليل الأخطاء في كلا الاتجاهين. هناك عدة طرق للقيام بذلك. في انحدار المحور الرئيسي ، ما يتم تصغيره هو المسافة العمودية من نقطة إلى الخط. في انحدار المحور الرئيسي القياسي (SMA) (يسمى أيضًا المحور الرئيسي المنخفض أو انحدار RMA) ، يتم تقليل مناطق المثلثات التي تكونت بواسطة الملاحظات وخط الانحدار. انحدار المحور الرئيسي القياسي شائع بشكل خاص. ال ميل من انحدار SMA هو:

يتم سرد العلامة على أنها موجب أو ناقص لأنها مضبوطة لتتناسب مع علامة معامل الارتباط. يمكن حساب المنحدر كنسبة من الانحرافات المعيارية أو كجذر تربيعي لنسبة مجموع المربعات ، أيهما أكثر ملاءمة.

SMA تقاطع ص يتم حسابه كما هو الحال بالنسبة لانحدار المربعات الصغرى ، أي أن الخط يجب أن يمر عبر النقطه الوسطى.

وظائف منحدر واعتراض SMA واضحة ومباشرة. لاحظ أن علامة المنحدر مصنوعة لتتناسب مع معامل الارتباط مع وظيفة ifelse ().

smaSlope & lt- function (x، y) <
علامة & lt- ifelse (cor & gt = 0، 1، -1)
b1 & lt- تسجيل * sd (y) / sd (x)
ب 1
>

smaIntercept & lt- function (x، y) <
b1 & lt- smaSlope (x، y)
b0 & lt- يعني (y) - يعني (x) * b1
ب 0
>

يساوي منحدر SMA منحدر المربعات الصغرى مقسومًا على معامل الارتباط ، وبالتالي يكون دائمًا أكثر انحدارًا من منحدر المربعات الصغرى. يتناقص الاختلاف في هذين المنحدرين كلما أصبح الارتباط أقوى. مع ضعف الارتباط بين متغيرين ، يقترب ميل انحدار SMA من 1.0 ، بينما يقترب من الصفر في انحدار المربعات الصغرى.

الأخطاء المعيارية متوفرة لمنحدر وتقاطع SMA (Kermack and Haldane 1950 ، Miller and Kahn 1962 ، وانظر الإقرارات أدناه). من هذه ، يمكنك حساب فترات الثقة على الميل والتقاطع ، باستخدام n-2 درجات الحرية. راجع نهاية محاضرة الوسائل للحصول على إرشادات حول كيفية القيام بذلك.

يمكن لحزمة lmodel2 تشغيل مجموعة متنوعة من انحدارات النموذج 2 ورسمها وحساب فترات الثقة وإجراء الاختبارات الإحصائية. بعد تحميل هذه المكتبة ، سيعرض تشغيل المقالة القصيرة ("mod2user") ملف pdf رائعًا حول أفضل الممارسات ، لا سيما الظروف المناسبة لكل نوع من أنواع الانحدار في النموذج 2. إذا كنت تعتقد أنك قد تحتاج إلى نموذج انحدار 2 ، اقرأ ملف pdf هذا.


كيف يبدو انحدار الطفل

بدأت في البداية تساورني مخاوف بشأن تطور ابني في سن الثانية تقريبًا. ولكن منذ أن بلغ الثالثة من عمره ، تراجع تمامًا عن النمو.

على مدار ستة أشهر ، انتقل طفلي البالغ من العمر 3 سنوات من التحدث بثلاث إلى أربع جمل ، وطرح الأسئلة عن السبب وتعلم كلمات جديدة إلى عدم التواصل تقريبًا. ما زال يتكلم ، لكني لا أستطيع أن أفهم شيئًا يقوله!

علاوة على تراجع الكلام واللغة ، أعربت معلمة ما قبل المدرسة عن مخاوفها أيضًا بشأن الحساسية المفرطة للضوضاء الصاخبة ، واللعب بمفرده ، واللعب المتكرر ، وعدم التحدث ، وعدم التفاعل مع الأطفال الآخرين.

إنه يستخدم فقط كلمات غير منطقية من نفس المقاطع عند التكرار. ليس فقط أن خطابه يتراجع عن الإشارات غير اللفظية مثل الإشارة إلى الأشياء فهي قليلة ومتباعدة. على سبيل المثال ، لا يمكنه إخباري بما يريد ولن يشير إلى شيء ما حتى لو طلبت منه ذلك. هذا يؤدي إلى انهيار كامل مع الصراخ والبكاء إذا كنت ما زلت لا أستطيع معرفة احتياجاته.

لقد أصبح الأمر محبطًا للغاية! نرى أنا وزوجي الآن علامات أخرى على التوحد لم نلاحظها من قبل (على الرغم من أنه كان يعاني من هذه العلامات منذ فترة).

من ناحية ، أنا ممتن لانحدار خطاب طفلي لأنه بدون ذلك لم أكن لأتمكن من التعرف على العلامات الأخرى التي يظهرها للتوحد. لكنني أيضًا حزين تمامًا!

ليس لأنه قد يكون مصابًا بالتوحد ، ولكن لأنه يكافح كثيرًا لتوصيل الاحتياجات والرغبات البسيطة.

الآن بعد أن تعرفنا على علامات التوحد لدى ابننا ، فإننا نمضي قدمًا في مواعيد العلاج المهني والكلام لبدء عملية التقييم.

طفل لا يقول الكلمات التي كان يستخدمها

بينما يكون الانحدار التنموي محبطًا ، هناك أمل! غالبًا ما يكون سبب الانحدار هو مجرد حدث في الحياة يضع الضغط والقلق على طفل صغير. قد يكون السبب الآخر هو أن طفلك يتعلم إتقان مجموعة جديدة من المهارات الحياتية المهمة.

لكن في بعض حالات الانحدار ، هناك علامات تشير إلى احتمالية الإصابة بالتوحد. أعرف ذلك لأن ابني يقع في هذه الفئة.

في كثير من الأحيان ، هناك سبب بسيط وراء الانحدار التطوري ، وبالتالي فإن الانحدار سيتحسن بمرور الوقت. ومع ذلك ، إذا استمر الانحدار النمائي مع عدم وجود علامات على التحسن ورأيت علامات أخرى على التوحد لدى طفلك ، اتصل بطبيب الأطفال أو معالج النطق على الفور! التدخل المبكر ضروري لمساعدة الأطفال والمراهقين على الخروج من الانحدار النمائي ومساعدتهم في التقدم إلى الأمام في النمو.


ما هي المعلمات الأكثر أهمية؟

تتمثل إحدى طرق تحديد المعلمات الأكثر أهمية في حساب الخطأ القياسي لكل معامل. يوضح الخطأ القياسي مدى ثقة النموذج في كل معامل ، مع وجود قيم أكبر تشير إلى أن النموذج أقل ثقة من هذه المعلمة. يمكننا حدس هذا حتى بدون رؤية المعادلات الأساسية. إذا كان الخطأ المرتبط بمصطلح ما مرتفعًا ، فهذا يعني أن المصطلح ليس له تأثير قوي جدًا على مطابقة النموذج لمجموعة البيانات.

يعد حساب الخطأ القياسي عملية إحصائية متضمنة ، ولا يمكن وصفها بإيجاز في مقالة قصيرة. لحسن الحظ ، تتوفر حزم Python التي يمكنك استخدامها للقيام بذلك نيابة عنك. تم طرح السؤال والإجابة عليه على موقع StackOverflow مرة واحدة على الأقل. هذه الأدوات يجب أن تبدأ.

بعد حساب الخطأ القياسي لكل معامل ، يمكنك استخدام النتائج لتحديد المعامِلات الأعلى والأدنى. نظرًا لأن القيم العالية تشير إلى أن هذه المصطلحات تضيف قيمة أقل تنبؤية للنموذج ، يمكنك معرفة أن هذه المصطلحات هي الأقل أهمية للاحتفاظ بها. في هذه المرحلة ، يمكنك البدء في اختيار المصطلحات التي يمكن إزالتها في النموذج لتقليل عدد المصطلحات في المعادلة دون تقليل القدرة التنبؤية للنموذج بشكل كبير.

طريقة أخرى هي استخدام تقنية تسمى التنظيم. يعمل التنظيم عن طريق إضافة مصطلح جديد إلى حساب الخطأ الذي يعتمد على عدد المصطلحات في معادلة الانحدار المتعدد. سيؤدي وجود المزيد من المصطلحات في المعادلة بطبيعتها إلى خطأ تنظيم أعلى ، بينما يؤدي عدد أقل من المصطلحات بطبيعته إلى خطأ تنظيم أقل. بالإضافة إلى ذلك ، يمكن زيادة أو تقليل عقوبة إضافة شروط في معادلة التسوية حسب الرغبة. ستؤدي زيادة العقوبة أيضًا إلى ارتفاع خطأ التنظيم ، بينما يؤدي تقليلها إلى انخفاض خطأ التنظيم.

مع إضافة مصطلح تنظيم إلى معادلة الخطأ ، لا يعني تقليل الخطأ تقليل الخطأ في النموذج فحسب ، بل يعني أيضًا تقليل عدد المصطلحات في المعادلة. سيؤدي هذا بطبيعته إلى نموذج يناسب بيانات التدريب بشكل أسوأ ، ولكنه سيؤدي أيضًا بطبيعته إلى نموذج به شروط أقل في المعادلة. تؤدي قيم العقوبة / المصطلح الأعلى في خطأ التنظيم إلى مزيد من الضغط على النموذج للحصول على شروط أقل.


شكرا للجميع على النصيحة! أنا في الواقع بحاجة إلى توضيح أمر التدريب على استخدام الحمام لأن الكثير منكم قد استجابوا لذلك. إنها بالتأكيد جاهزة لاستخدام القصرية. تخبرنا أنها يجب أن تذهب لكنها لا تريد استخدام القصرية. في بعض الأحيان ستستخدمه - كل ذلك بمفردها - بدون مطالبات أو أي شيء. لكن يجب أن يكون قرارها. لن تستخدمه إذا طلبت منها ذلك. حقيقة الأمر - إنها تستخدمه عندما يحلو لها وهذا هو مدى ذلك. هذا غير مقبول! لقد جربنا طريق التعزيز الإيجابي - الملصقات ، والحلوى الصغيرة ، والحلوى الكبيرة ، ومخططات المكافآت ، وأقراص DVD & # 39 ، والدمى - كل شيء بشكل أساسي. لكن المحصلة النهائية هي أنها تحفزها المكافآت فقط عندما تختار ذلك. لذلك نقول لها - القرار بشأن استخدام القصرية يعود لها. ولكن إذا اتخذت القرار الخاطئ - فستكون هناك عواقب سلبية مثل عدم وجود نادي ميكي ماوس. لقد حصلت على هذا تمامًا وأخبرتني هذا الصباح أن & # 34no قعادة تعني عدم وجود تلفزيون & # 34. ثم سألتها إذا كانت مستعدة لاستخدام القصرية فقالت & # 34 ليس بعد & # 34 إنها صامدة. لقد فعلت ذلك عندما أخذت الزجاجة الخاصة بها بعيدًا عن عمر 10 أشهر. رفضت شرب الحليب من كوب الشرب لمدة أسبوعين !! لكنها في النهاية رضخت. لذا فهو في الحقيقة ليس مثل هذا الشيء السلبي الكبير. لقد قمنا بالتعزيز الإيجابي لمدة 6 أشهر تقريبًا مع نجاح ضئيل للغاية ، لذلك كنا بحاجة إلى تجربة شيء مختلف. إنها ليست منزعجة حقًا من قاعدة عدم وجود تلفزيون لأنها على ما يبدو تدرك أن هذا هو اختيارها. نحن لا نجعلها مشكلة كبيرة - إنها ببساطة قاعدة أن التلفزيون للفتيات الكبيرات والفتيات الكبار يستخدمن النونية وهذه هي نهاية القصة. قد لا يتفق بعض الناس مع هذا ولكن الجميع يعرف ما يصلح لأطفالهم. حتى أن معلمتها في المدرسة أوصت بهذا النهج لأنها ترى أيضًا أن ابنتي عنيدة للغاية بشأن استخدامها فقط عندما تشعر بالرغبة في ذلك. أنا أقدر كل النصائح على الرغم من أنني أعلم أنني لم أشرح حقًا مشكلة التدريب على استخدام الحمام في رسالتي الأصلية ، لذلك أردت التوضيح!

لقد ذهبت إلى هذا الأمر مع ابني ، وكان فقط يختبر الحدود. ومع ذلك ، لا أعتقد أن التخلص من أويس والممتازات بعيدًا لأنها تقاوم التدريب على استخدام الحمام هو الجواب الصحيح. قد لا تكون جاهزة بعد


2.5: الانحدار

تحديد العلاقة الخطية المتعددة في الانحدار المتعدد

إحصائيات مساعدة لطلاب الأطروحة والباحثين

كيفية تحديد العلاقة الخطية المتعددة

يمكنك تقييم العلاقة الخطية المتعددة عن طريق فحص التسامح وعامل تضخم التباين (VIF) هما عاملا تشخيص العلاقة الخطية المتداخلة التي يمكن أن تساعدك على تحديد العلاقة الخطية المتعددة. التسامح هو مقياس العلاقة الخطية المتداخلة التي تم الإبلاغ عنها من قبل معظم البرامج الإحصائية مثل SPSS ، والتسامح المتغير هو 1-R2. تشير قيمة التسامح الصغيرة إلى أن المتغير قيد الدراسة يكاد يكون مزيجًا خطيًا مثاليًا من المتغيرات المستقلة الموجودة بالفعل في المعادلة وأنه لا ينبغي إضافته إلى معادلة الانحدار. جميع المتغيرات المشاركة في العلاقة الخطية سيكون لها تفاوت ضئيل. يقترح البعض أن قيمة التسامح أقل من 0.1 ينبغي التحقيق فيها بشكل أكبر. إذا كانت قيمة التسامح المنخفضة مصحوبة بأخطاء قياسية كبيرة وغير مهمة ، فقد تكون العلاقات الخطية المتعددة مشكلة.

عامل تضخم التباين (VIF)

يقيس عامل تضخم التباين (VIF) تأثير العلاقة الخطية المتداخلة بين المتغيرات في نموذج الانحدار. عامل تضخم التباين (VIF) هو 1 / التسامح ، وهو دائمًا أكبر من أو يساوي 1. لا توجد قيمة VIF رسمية لتحديد وجود علاقة خطية متعددة. غالبًا ما يُنظر إلى قيم VIF التي تتجاوز 10 على أنها تشير إلى علاقة خطية متعددة ، ولكن في قيم النماذج الأضعف التي تزيد عن 2.5 قد تكون مدعاة للقلق. في العديد من برامج الإحصاء ، يتم عرض النتائج كقيمة R2 فردية (تختلف عن R2 الإجمالي للنموذج) وعامل تضخم التباين (VIF). عندما تكون قيم R2 و VIF هذه عالية لأي من المتغيرات في النموذج الخاص بك ، فمن المحتمل أن تكون العلاقة الخطية المتعددة مشكلة. عندما يكون VIF مرتفعًا ، يكون هناك ارتفاع متعدد الخطية وعدم استقرار معاملات b و beta. غالبًا ما يكون من الصعب حل هذا الأمر. طلب مساعدة البحث والإحصاءات اليوم!

يمكنك أيضًا تقييم العلاقة الخطية المتعددة في الانحدار بالطرق التالية:


1. افحص العلاقات المتبادلة and associations (nominal variables) between independent variables to detect a high level of association. High bivariate correlations are easy to spot by running correlations among your variables. If high bivariate correlations are present, you can delete one of the two variables. However, this may not always be sufficient.

2. Regression coefficients will change dramatically according to whether other variables are included or excluded from the model. Play around with this by adding and then removing variables from your regression model.

3. The standard errors of the regression coefficients will be large if multicollinearity is an issue.

4. Predictor variables with known, strong relationships to the outcome variable will not achieve statistical significance. In this case, neither may contribute significantly to the model after the other one is included. But together they contribute a lot. If you remove both variables from the model, the fit would be much worse. So the overall model fits the data well, but neither X variable makes a significant contribution when it is added to your model last. When this happens, multicollinearity may be present.


Toddler sleep regression generally occurs between 18 months and 2 years of age, although the exact time is different for each child. If you&aposve noticed the symptoms, rest assured that most sleep regression stages last for only a few weeks at a time. Pretty soon your little one will start sleeping through the night again, and they&aposll no longer wake up crying.

Whether you&aposre dealing with 18-month-old sleep regression, 2-year-old sleep regression, or 3-year-old sleep regression, these tips can help your little one get a good night&aposs rest.

The Problem: Your Toddler Stalls Bedtime

Kids this age are learning that they have some power in the world, and they&aposll seize any opportunity to use it. So don&apost be surprised if your mini negotiator says just about anything to stall their bedtime𠅎ven if they’re about to fall asleep mid-sentence.

How to Help: Make small tweaks to your child&aposs bedtime routine. You should still stick to the basics𠅊 bath, a story, some cuddling, then lights-out𠅋ut let them make small decisions along the way, suggests Jill Spivack, co-creator of the book and DVD The Sleepeasy Solution. Your toddler may be less likely to balk at bedtime if they get to call a few of the shots. (Red or yellow pajamas? Three good-night kisses or four?)

If your toddler cries when you leave their room, explain that it&aposs time to sleep and say that you&aposll be back to check on them when they’re calm, says Brett Kuhn, PhD, a licensed psychologist at the University of Nebraska Medical Center and Children&aposs Sleep Center, in Omaha. Return, as promised, but don&apost stick around. Or try mom Gina Beltrami&aposs clever sleep strategy: After she tucked in her toddler, Sonny, she set a timer for five minutes. "I told him that I&aposd sit quietly at the foot of his bed until the timer went off, and then he had to rest by himself," says Beltrami, of Bethlehem, Pennsylvania. "Stalling problem solved!"

The Problem: Your Toddler Escapes the Bed

With no crib bars to stop them, toddlers often like to savor their newfound freedom by taking 3 a.m. jaunts to your bed.

How to Help: Carry your midnight wanderer back to their room every time they bust into yours. If you let them crash with you, you&aposre setting the stage for a never-ending bedtime battle. Consider hanging bells on your doorknob so you can hear your toddler coming that way, you can walk them back to their room before they climb into your bed and make themselves comfy.

Another way to avoid sleepless nights is to install a baby gate on your child&aposs door. "Explain that it&aposs there to keep her safe, since she could get hurt walking around the house by herself in the dark," says Spivack. Leave their bedroom door open so they don’t feel alone.

The Problem: Your Toddler is Scared of Sleeping

You know how badly you sleep when you&aposve got a lot of worries on your mind. The same goes for your toddler, though they’re panicking about monsters, not the mortgage. "This is the stage when your child&aposs imagination really takes off," says Spivack. "Even if he wasn&apost afraid of the dark before, he may start &aposseeing&apos ghosts and other eerie creatures."

How to Help: Respect your child&aposs fears. Let them know you understand how scared they feel, but beware of making their anxiety worse. Using "monster spray," for example, actually suggests that creepy creatures could be hanging out in their room, says Dr. Kuhn. Instead, reassure them that you&aposre always nearby and that monsters don&apost exist.

Look for ways to convince your toddler that their room is a safe place. Play in their bedroom more often so they associate it with good times, or "camp out" with them there for a night. You could also appoint one of your child&aposs stuffed animals the "watch pet," says Carol Ash, medical director of Sleep for Life in Hillsborough, New Jersey. "I gave my son a big bear that he could prop up on his bed all night to keep an eye on him."

The Problem: Your Toddler Refuses to Nap

Toddlers often refuse to snooze during the day𠅋lame their newfound sense of independence and changing sleep needs𠅋ut kids aren&apost truly ready to give up naps for good until around age 5. If you let your child skip theirs, they may be too overtired to sleep well at night.

How to Help: Ignore the clock. As kids get older, they might not need to catch their afternoon zzz&aposs on the same old schedule. Instead, look for clues that your toddler is getting tired. Put them down when they get clingy, spacey, hyper, or start rubbing their eyes. Making your toddler&aposs siesta seem like bedtime can help them drift off: Keep their room dark, read a story, or sing a lullaby. But if they absolutely refuse to sleep, encourage them to play quietly in their room and call it "rest time."


Simple / Linear Regression Tutorial, Examples

Regression Definition:

A regression is a statistical analysis assessing the association between two variables. In simple linear regression, a single independent variable is used to predict the value of a dependent variable.

Regression Formula:

Regression Example:

To find the Simple/Linear Regression of

To find regression equation, we will first find slope, intercept and use it to form regression equation.

الخطوة 1:

Count the number of values. N = 5

الخطوة 2:

Find XY, X 2 See the below table

X ValueY ValueX*YX*X
603.1 60 * 3.1 =186 60 * 60 = 3600
613.661 * 3.6 = 219.661 * 61 = 3721
623.862 * 3.8 = 235.662 * 62 = 3844
63463 * 4 = 25263 * 63 = 3969
654.165 * 4.1 = 266.565 * 65 = 4225
الخطوه 3:

Find ΣX, ΣY, ΣXY, ΣX 2 . ΣX = 311 ΣY = 18.6 ΣXY = 1159.7 ΣX 2 = 19359

الخطوة الرابعة:

Substitute in the above slope formula given. Slope(b) = (NΣXY - (ΣX)(ΣY)) / (NΣX 2 - (ΣX) 2 ) = ((5)*(1159.7)-(311)*(18.6))/((5)*(19359)-(311) 2 ) = (5798.5 - 5784.6)/(96795 - 96721) = 13.9/74 = 0.18784

Step 5:

Now, again substitute in the above intercept formula given. Intercept(a) = (ΣY - b(ΣX)) / N = (18.6 - 0.18784(311))/5 = (18.6 - 58.41824)/5 = -39.81824/5 = -7.964

Step 6:

Then substitute these values in regression equation formula Regression Equation(y) = a + bx = -7.964+0.188x.
Suppose if we want to know the approximate y value for the variable x = 64. Then we can substitute the value in the above equation. Regression Equation(y) = a + bx = -7.964+0.188(64). = -7.964+12.032. = 4.068 This example will guide you to find the relationship between two variables by calculating the Regression from the above steps.


شاهد الفيديو: Multiple regression: qualitative and dummy variables (شهر اكتوبر 2021).