مقالات

8.3: ملاءمة النماذج الأسية للبيانات


أهداف التعلم

  • بناء نموذج أسي من البيانات.
  • بناء نموذج لوغاريتمي من البيانات.
  • بناء نموذج لوجستي من البيانات.

في الأقسام السابقة من هذا الفصل ، تم إعطاؤنا وظيفة رسم بياني أو تقييم بشكل صريح ، أو تم إعطاؤنا مجموعة من النقاط التي كان مضمونًا وضعها على المنحنى. ثم استخدمنا الجبر لإيجاد المعادلة التي تناسب النقاط تمامًا. في هذا القسم ، نستخدم تقنية النمذجة تسمى تحليل الانحدار للعثور على منحنى يصمم البيانات التي تم جمعها من ملاحظات العالم الحقيقي. مع تحليل الانحدار ، لا نتوقع أن تكون جميع النقاط على المنحنى تمامًا. الفكرة هي العثور على نموذج يناسب البيانات بشكل أفضل. ثم نستخدم النموذج لعمل تنبؤات حول الأحداث المستقبلية.

لا تخلط بين الكلمة نموذج. في الرياضيات ، غالبًا ما نستخدم المصطلحات وظيفة, معادلة، و نموذج بالتبادل ، على الرغم من أن لكل منهما تعريفه الرسمي الخاص. على المدى نموذج تُستخدم عادةً للإشارة إلى أن المعادلة أو الوظيفة تقترب من حالة العالم الحقيقي.

سنركز في هذا القسم على ثلاثة أنواع من نماذج الانحدار: الأسي واللوغاريتمي واللوجستي. تتيح لنا معرفة تعريفاتهم الرسمية وسلوك رسومهم البيانية وبعض تطبيقاتهم الواقعية الفرصة لتعميق فهمنا. مع تقديم كل نموذج انحدار ، يتم تضمين الميزات والتعريفات الرئيسية للوظيفة المرتبطة به للمراجعة. توقف لحظة لإعادة التفكير في كل من هذه الوظائف ، والتفكير في العمل الذي أنجزناه حتى الآن ، ثم استكشاف طرق استخدام الانحدار لنمذجة ظواهر العالم الحقيقي.

بناء نموذج أسي من البيانات

كما تعلمنا ، هناك العديد من المواقف التي يمكن نمذجتها بوظائف أسية ، مثل نمو الاستثمار ، والانحلال الإشعاعي ، وتغيرات الضغط الجوي ، ودرجات حرارة جسم التبريد. ما المشترك بين هذه الظواهر؟ لسبب واحد ، كل النماذج تزداد أو تنقص مع تقدم الوقت. لكن هذه ليست القصة كاملة. انها ال طريق زيادة أو نقص البيانات التي تساعدنا على تحديد ما إذا كان من الأفضل نمذجة المعادلة الأسية. تتيح لنا معرفة سلوك الدوال الأسية بشكل عام التعرف على وقت استخدام الانحدار الأسي ، لذلك دعونا نراجع النمو الأسي والانحطاط.

تذكر أن الدوال الأسية لها الشكل (y = ab ^ x ) أو (y = A_0e ^ {kx} ). عند إجراء تحليل الانحدار ، نستخدم النموذج الأكثر استخدامًا في أدوات الرسم البياني ، (y = ab ^ x ). توقف لحظة للتفكير في الخصائص التي تعلمناها بالفعل حول الدالة الأسية (y = ab ^ x ) (افترض (a> 0 )):

  • يجب أن يكون (b ) أكبر من صفر ولا يساوي واحدًا.
  • القيمة الأولية للنموذج هي (y = a ).
    • إذا (ب> 1 ) ، فإن نماذج الوظيفة النمو الأسي. مع زيادة (x ) ، تزداد مخرجات النموذج ببطء في البداية ، ولكن بعد ذلك تزداد بسرعة أكبر ، دون قيود.
    • إذا (0 <ب <1 ) ، فإن نماذج الوظائف تسوس الأسي. مع زيادة (x ) ، تنخفض نواتج النموذج بسرعة في البداية ثم تستقر لتصبح مقاربة إلى x-محور. بمعنى آخر ، لا تصبح النواتج مساوية للصفر أو أقل منه.

كجزء من النتائج ، ستعرض الآلة الحاسبة رقمًا يعرف باسم معامل الارتباط، المسمى بالمتغير (r ) ، أو (r ^ 2 ). (قد تضطر إلى تغيير إعدادات الآلة الحاسبة لعرضها.) القيم هي مؤشر على "ملاءمة" معادلة الانحدار للبيانات. نحن أكثر شيوعًا في استخدام قيمة (r ^ 2 ) بدلاً من (r ) ، ولكن كلما كانت أي من القيمتين أقرب إلى (1 ) ، كانت معادلة الانحدار تقارب البيانات بشكل أفضل.

حكم أسي

الانحدار الأسي تُستخدم لنمذجة المواقف التي يبدأ فيها النمو ببطء ثم يتسارع بسرعة دون قيود ، أو حيث يبدأ الاضمحلال بسرعة ثم يتباطأ ليقترب أكثر فأكثر من الصفر. نستخدم الأمر "ExpReg" في أداة الرسم البياني لتلائم دالة أسية لمجموعة من نقاط البيانات. هذا يعيد معادلة النموذج ،

[y = ab ^ x ]

لاحظ أن:

  • يجب أن يكون (b ) غير سالب.
  • عندما (b> 1 ) ، لدينا نموذج نمو أسي.
  • عندما (0 <ب <1 ) ، لدينا نموذج تسوس أسي.

الكيفية: بالنظر إلى مجموعة من البيانات ، قم بإجراء انحدار أسي باستخدام أداة رسم بيانية

  1. استخدم قائمة STAT ثم EDIT لإدخال البيانات المحددة.
    1. امسح أي بيانات موجودة من القوائم.
    2. قائمة بقيم الإدخال في العمود L1.
    3. سرد قيم الإخراج في العمود L2.
  2. رسم بيانيًا وملاحظة مخطط مبعثر للبيانات باستخدام ميزة STATPLOT.
    1. استخدم ZOOM [9] لضبط المحاور لتناسب البيانات.
    2. تحقق من البيانات تتبع النمط الأسي.
  3. أوجد المعادلة التي تشكل البيانات.
    1. حدد "ExpReg" من قائمة STAT ثم CALC.
    2. استخدم القيم التي تم إرجاعها لـ أ و ب لتسجيل النموذج ، (y = ab ^ x ).
  4. قم برسم النموذج في نفس النافذة مثل مخطط التشتت للتحقق من ملاءمته للبيانات.

مثال ( PageIndex {1} ): استخدام الانحدار الأسي لملاءمة نموذج مع البيانات

في عام 2007 ، نُشرت دراسة جامعية تبحث في مخاطر الاصطدام بالقيادة تحت تأثير الكحول. تم استخدام البيانات من (2871 ) حوادث لقياس مدى ارتباط مستوى الكحول في الدم (BAC) بخطر التعرض لحادث. يعرض الجدول ( PageIndex {1} ) نتائج الدراسة. ال خطر نسبي هو مقياس لعدد المرات التي يحتمل أن يتعرض فيها الشخص للتحطم. لذلك ، على سبيل المثال ، الشخص الذي لديه BAC من (0.09 ) هو (3.54 ) مرات أكثر عرضة للانهيار مثل الشخص الذي لم يشرب الكحول.

جدول ( PageIndex {1} )
باك00.010.030.050.070.09
الخطر النسبي للانهيار11.031.061.382.093.54
باك0.110.130.150.170.190.21
الخطر النسبي للانهيار6.4112.622.139.0565.3299.78
  1. دع (x ) يمثل مستوى BAC ، ودع (y ) يمثل الخطر النسبي المقابل. استخدم الانحدار الأسي لملاءمة نموذج مع هذه البيانات.
  2. بعد (6 ) شرب ، فإن الشخص الذي يزن (160 ) رطل يكون لديه BAC حوالي (0.16 ). كم عدد المرات التي يزيد فيها احتمال تحطم شخص بهذا الوزن إذا كان يقود سيارته بعد تناول علبة بيرة من (6 )؟ قرّب لأقرب جزء من مائة.

المحلول

  1. باستخدام قائمة STAT ثم EDIT في أداة الرسم البياني ، قم بإدراج قيم BAC في L1 وقيم المخاطر النسبية في L2. ثم استخدم ميزة STATPLOT للتحقق من أن المخطط المبعثر يتبع النمط الأسي الموضح في الشكل ( PageIndex {1} ):

استخدم الأمر "ExpReg" من قائمة STAT ثم CALC للحصول على النموذج الأسي ،

(ص = 0.58304829 {(2.20720213E10)} ^ س )

التحويل من الترميز العلمي ، لدينا:

(ص = 0.58304829 {(22،072،021،300)} ^ س )

لاحظ أن (r ^ 2≈0.97 ) يشير إلى أن النموذج مناسب للبيانات بشكل جيد. لرؤية هذا ، قم برسم النموذج في نفس النافذة مثل مخطط التشتت للتحقق من أنه مناسب تمامًا كما هو موضح في الشكل ( PageIndex {2} ):

  1. استخدم النموذج لتقدير المخاطر المرتبطة بـ BAC بمقدار (0.16 ). استبدل (0.16 ) بـ (x ) في النموذج وحل من أجل (y ).

[ begin {align *} y & = 0.58304829 {(22،072،021،300)} ^ x qquad text {استخدم نموذج الانحدار الموجود في الجزء} (a) & = 0.58304829 {(22،072،021،300)} ^ {0.16} qquad text {استبدال 0.16 لـ x} & almost 26.35 qquad text {تقريب لأقرب مائة} end {align *} ]

إذا كان (160 ) - شخص يقود سيارته بعد تناول (6 ) مشروبات ، فإنه يكون أكثر عرضة للاصطدام بحوالي (26.35 ) مرة مما لو كان يقود سيارته أثناء يقظ.

تمرين ( PageIndex {1} )

يعرض الجدول ( PageIndex {2} ) رصيد بطاقة ائتمان الخريجين الجدد كل شهر بعد التخرج.

جدول ( PageIndex {2} )
شهر12345678
الدين (بالدولار)620.00761.88899.801039.931270.631589.041851.312154.92
  1. استخدم الانحدار الأسي لملاءمة نموذج مع هذه البيانات.
  2. إذا استمر الإنفاق على هذا المعدل ، فما ديون بطاقة ائتمان الخريج بعد عام واحد من تخرجه؟
الإجابة أ

نموذج الانحدار الأسي الذي يناسب هذه البيانات هو (y = 522.88585984 {(1.19645256)} ^ x ).

الجواب ب

إذا استمر الإنفاق بهذا المعدل ، فسيكون دين بطاقة ائتمان الخريج (4،499.38 دولارًا أمريكيًا) بعد عام واحد.

سؤال وجواب: هل من المعقول افتراض أن نموذج الانحدار الأسي سيمثل موقفًا إلى أجل غير مسمى؟

لا ، تذكر أن النماذج يتم تكوينها بواسطة بيانات واقعية تم جمعها من أجل الانحدار. عادة ما يكون من المعقول عمل تقديرات خلال الفترة الزمنية للملاحظة الأصلية (الاستيفاء). ومع ذلك ، عند استخدام نموذج لعمل تنبؤات ، من المهم استخدام مهارات التفكير لتحديد ما إذا كان النموذج منطقيًا للمدخلات التي تتجاوز فترة الملاحظة الأصلية (الاستقراء).

بناء نموذج لوغاريتمي من البيانات

تمامًا كما هو الحال مع الوظائف الأسية ، هناك العديد من التطبيقات الواقعية للوظائف اللوغاريتمية: شدة الصوت ، ومستويات الأس الهيدروجيني للحلول ، ونتائج التفاعلات الكيميائية ، وإنتاج السلع ، ونمو الأطفال. كما هو الحال مع النماذج الأسية ، فإن البيانات التي تم تصميمها بواسطة الدوال اللوغاريتمية تتزايد دائمًا أو تتناقص دائمًا مع تقدم الوقت. مرة أخرى ، هو طريق تزيد أو تنقص مما يساعدنا على تحديد ما إذا كان نموذج لوغاريتمي هو الأفضل.

تذكر أن الدوال اللوغاريتمية تزيد أو تنقص بسرعة في البداية ، ولكن بعد ذلك تتباطأ بثبات مع مرور الوقت. من خلال التفكير في الخصائص التي تعلمناها بالفعل حول هذه الوظيفة ، يمكننا تحليل مواقف العالم الحقيقي التي تعكس هذا النوع من النمو أو الاضمحلال بشكل أفضل. عند تنفيذ اللوغاريتمية تحليل الانحدار، نستخدم شكل الدالة اللوغاريتمية الأكثر استخدامًا في أدوات الرسم البياني ، (y = a + b ln (x) ). لهذه الوظيفة

  • يجب أن تكون جميع قيم الإدخال ، (x ) ، أكبر من الصفر.
  • النقطة ((1 ، أ) ) موجودة على الرسم البياني للنموذج.
  • إذا (b> 0 ) ، فإن النموذج يتزايد. يزيد النمو بسرعة في البداية ثم يتباطأ بثبات بمرور الوقت.
  • إذا (ب <0 ) ، فإن النموذج يتناقص. يحدث التسوس بسرعة في البداية ثم يتباطأ بثبات بمرور الوقت.

التسجيل اللوغاريتمي

الانحدار اللوغاريتمي يستخدم لنمذجة المواقف التي يتسارع فيها النمو أو الاضمحلال بسرعة في البداية ثم يتباطأ بمرور الوقت. نستخدم الأمر "LnReg" في أداة الرسم البياني لتلائم وظيفة لوغاريتمية لمجموعة من نقاط البيانات. هذا يعيد معادلة النموذج ،

[y = a + b ln (x) ]

لاحظ أن

  • يجب أن تكون جميع قيم الإدخال (x ) غير سالبة.
  • عندما (ب> 0 ) ، يتزايد النموذج.
  • عندما (ب <0 ) ، يتناقص النموذج.

الكيفية: بالنظر إلى مجموعة من البيانات ، قم بإجراء الانحدار اللوغاريتمي باستخدام أداة الرسم البياني

  1. استخدم قائمة STAT ثم EDIT لإدخال البيانات المحددة.
    1. امسح أي بيانات موجودة من القوائم.
    2. قائمة بقيم الإدخال في العمود L1.
    3. سرد قيم الإخراج في العمود L2.
  2. رسم بيانيًا وملاحظة مخطط مبعثر للبيانات باستخدام ميزة STATPLOT.
    1. استخدم ZOOM [9] لضبط المحاور لتناسب البيانات.
    2. تحقق من البيانات التي تتبع النمط اللوغاريتمي.
  3. أوجد المعادلة التي تشكل البيانات.
    1. حدد "LnReg" من قائمة STAT ثم CALC.
    2. استخدم القيم التي تم إرجاعها لـ أ و ب لتسجيل النموذج ، (y = a + b ln (x) ).
  4. قم برسم النموذج في نفس النافذة مثل مخطط التشتت للتحقق من ملاءمته للبيانات.

مثال ( PageIndex {2} ): استخدام الانحدار اللوغاريتمي لملاءمة نموذج مع البيانات

بسبب التقدم في الطب وارتفاع مستويات المعيشة ، ارتفع متوسط ​​العمر المتوقع في معظم البلدان المتقدمة منذ بداية العشرينذ عقد. يوضح الجدول ( PageIndex {3} ) متوسط ​​العمر المتوقع ، بالسنوات ، للأمريكيين من 1900 إلى 2010.

جدول ( PageIndex {3} )
عام190019101920193019401950
متوسط ​​العمر المتوقع (سنوات)47.350.054.159.762.968.2
عام196019701980199020002010
متوسط ​​العمر المتوقع (سنوات)69.770.873.775.476.878.7
  1. لنفترض أن (x ) يمثل الوقت بالعقود التي تبدأ بـ (x = 1 ) لعام 1900 ، (x = 2 ) لعام 1910 ، وهكذا. دع (y ) يمثل متوسط ​​العمر المتوقع المقابل. استخدم الانحدار اللوغاريتمي لملاءمة نموذج لهذه البيانات.
  2. استخدم النموذج للتنبؤ بمتوسط ​​العمر المتوقع في أمريكا لعام 2030.

المحلول

  1. باستخدام قائمة STAT ثم EDIT في أداة الرسم البياني ، قم بإدراج السنوات باستخدام القيم (1–12 ) في L1 ومتوسط ​​العمر المتوقع المقابل في L2. ثم استخدم ميزة STATPLOT للتحقق من أن المخطط المبعثر يتبع نمطًا لوغاريتميًا كما هو موضح في الشكل ( PageIndex {3} ):

استخدم الأمر "LnReg" من قائمة STAT ثم CALC للحصول على النموذج اللوغاريتمي ،

(ص = 42.52722583 + 13.85752327 ln (س) )

بعد ذلك ، قم برسم النموذج في نفس النافذة مثل مخطط التشتت للتحقق من أنه مناسب تمامًا كما هو موضح في الشكل ( PageIndex {4} ):

  1. للتنبؤ بمتوسط ​​العمر المتوقع للأمريكي في العام (2030 ) ، استبدل (س = 14 ) في النموذج وحل من أجل (ص ):

[ begin {align *} y & = 42.52722583 + 13.85752327 ln (x) qquad text {استخدم نموذج الانحدار الموجود في الجزء} (أ) & = 42.52722583 + 13.85752327 ln (14) qquad text {استبدال 14 لـ x} & حوالي 79.1 qquad text {تقريب لأقرب جزء من عشرة} end {align *} ]

إذا استمر متوسط ​​العمر المتوقع في الزيادة بهذه الوتيرة ، فإن متوسط ​​العمر المتوقع للأمريكي سيكون (79.1 ) بحلول العام (2030 ).

تمرين ( PageIndex {2} )

انطلقت مبيعات إحدى ألعاب الفيديو التي تم إصدارها في عام 2000 في البداية ، ولكنها تباطأت بعد ذلك بشكل مطرد مع مرور الوقت. يعرض الجدول ( PageIndex {4} ) عدد الألعاب المباعة بالآلاف من الأعوام 2000-2010.

جدول ( PageIndex {4} )
عام200020012002200320042005
عدد المباع (بالآلاف)142149154155159161
عام20062007200820092010-
عدد المباع (بالآلاف)163164164166167-

لنفترض أن (x ) يمثل الوقت بالسنوات التي تبدأ بـ (x = 1 ) لعام 2000. لنفترض أن (y ) يمثل عدد الألعاب المباعة بالآلاف.

  1. استخدم الانحدار اللوغاريتمي لملاءمة نموذج مع هذه البيانات.
  2. إذا استمرت الألعاب في البيع بهذا السعر ، فكم عدد الألعاب التي سيتم بيعها في عام 2015؟ قرّب لأقرب ألف.
الإجابة أ

نموذج الانحدار اللوغاريتمي الذي يناسب هذه البيانات هو (y = 141.91242949 + 10.45366573 ln (x) )

الجواب ب

إذا استمرت المبيعات على هذا المعدل ، فسيتم بيع حوالي (171000 ) لعبة في العام (2015 ).

بناء نموذج لوجستي من البيانات

مثل النمو الأسي واللوغاريتمي ، يزيد النمو اللوجستي بمرور الوقت. أحد الاختلافات الملحوظة مع نماذج النمو اللوجيستي هو أنه عند نقطة معينة ، يتباطأ النمو بشكل مطرد وتقترب الوظيفة من الحد الأعلى ، أو الحد من القيمة. لهذا السبب ، فإن الانحدار اللوجستي هو الأفضل لنمذجة الظواهر حيث توجد حدود للتوسع ، مثل توافر مساحة المعيشة أو العناصر الغذائية.

وتجدر الإشارة إلى أن الوظائف اللوجيستية تصوغ في الواقع نموًا أسيًا محدود الموارد. هناك العديد من الأمثلة على هذا النوع من النمو في مواقف العالم الحقيقي ، بما في ذلك النمو السكاني وانتشار الأمراض والشائعات وحتى البقع في النسيج. عند إجراء تحليل الانحدار اللوجستي ، نستخدم النموذج الأكثر استخدامًا في أدوات الرسم البياني:

(y = dfrac {c} {1 + ae ^ {- bx}} )

تذكر أن:

  • ( dfrac {c} {1 + a} ) هي القيمة الأولية للنموذج.
  • عندما (b> 0 ) ، يزيد النموذج بسرعة في البداية حتى يصل إلى نقطة أقصى معدل نمو له ، (( dfrac { ln (a)} {b} ، dfrac {c} {2}) ). عند هذه النقطة ، يتباطأ النمو بشكل مطرد وتصبح الوظيفة مقاربة للحد الأعلى (y = c ).
  • (c ) هي القيمة المحددة ، وتسمى أحيانًا القدرة على التحملمن النموذج.

الانحدار اللوجستي

الانحدار اللوجستي يستخدم لنمذجة المواقف التي يتسارع فيها النمو بسرعة في البداية ثم يتباطأ بثبات إلى الحد الأعلى. نستخدم الأمر "Logistic" في أداة الرسم البياني لتلائم وظيفة لوجستية لمجموعة من نقاط البيانات. هذا يعيد معادلة النموذج

[y = dfrac {c} {1 + ae ^ {- bx}} ]

لاحظ أن

  • القيمة الأولية للنموذج هي ( dfrac {c} {1 + a} ).
  • تنمو قيم الإخراج للنموذج بشكل أقرب وأقرب إلى (y = c ) مع زيادة الوقت.

الكيفية: بالنظر إلى مجموعة من البيانات ، قم بإجراء الانحدار اللوجستي باستخدام أداة الرسوم البيانية

  1. استخدم قائمة STAT ثم EDIT لإدخال البيانات المحددة.
    1. امسح أي بيانات موجودة من القوائم.
    2. قائمة بقيم الإدخال في العمود L1.
    3. سرد قيم الإخراج في العمود L2.
  2. رسم بيانيًا وملاحظة مخطط مبعثر للبيانات باستخدام ميزة STATPLOT.
    1. استخدم ZOOM [9] لضبط المحاور لتناسب البيانات.
    2. تحقق من أن البيانات تتبع نمطًا لوجستيًا.
  3. أوجد المعادلة التي تشكل البيانات.
    1. حدد "لوجيستي" من قائمة STAT ثم CALC.
    2. استخدم القيم التي تم إرجاعها لـ (a ) و (b ) و (c ) لتسجيل النموذج ، (y = dfrac {c} {1 + ae ^ {- bx}} ).
  4. قم برسم النموذج في نفس النافذة مثل مخطط التشتت للتحقق من ملاءمته للبيانات.

مثال ( PageIndex {3} ): استخدام الانحدار اللوجستي لملاءمة نموذج مع البيانات

زادت خدمة الهاتف المحمول بسرعة في أمريكا منذ منتصف التسعينيات. اليوم ، جميع المقيمين تقريبًا لديهم خدمة خلوية. يوضح الجدول ( PageIndex {5} ) النسبة المئوية للأمريكيين الذين لديهم خدمة خلوية بين عامي 1995 و 2012.

جدول ( PageIndex {5} )
عامالأمريكيون ذوو الخدمة الخلوية (٪)عامالأمريكيون ذوو الخدمة الخلوية (٪)
199512.69200462.852
199616.35200568.63
199720.29200676.64
199825.08200782.47
199930.81200885.68
200038.75200989.14
200145.00201091.86
200249.16201195.28
200355.15201298.17
  1. لنفترض أن (x ) يمثل الوقت بالسنوات التي تبدأ بـ (x = 0 ) لعام 1995. لنفترض أن (y ) تمثل النسبة المئوية المقابلة للمقيمين بالخدمة الخلوية. استخدم الانحدار اللوجستي لملاءمة نموذج مع هذه البيانات.
  2. استخدم النموذج لحساب النسبة المئوية للأمريكيين الذين لديهم خدمة خلوية في عام 2013. قم بالتقريب لأقرب جزء من عشرة بالمائة.
  3. ناقش القيمة التي تم إرجاعها للحد الأعلى ، (ج ). ماذا يخبرك هذا عن النموذج؟ ماذا ستكون القيمة المحددة إذا كان النموذج دقيقًا؟

المحلول

  1. باستخدام قائمة STAT ثم EDIT في أداة الرسم البياني ، قم بإدراج السنوات باستخدام القيم (0–15 ) في L1 والنسبة المئوية المقابلة في L2. ثم استخدم ميزة STATPLOT للتحقق من أن المخطط المبعثر يتبع نمطًا لوجستيًا كما هو موضح في الشكل ( PageIndex {5} ):

استخدم الأمر "Logistic" من قائمة STAT ثم CALC للحصول على النموذج اللوجستي ،

[y = 105.73795261 + 6.88328979e ^ {- 0.2595440013x} ]

بعد ذلك ، قم برسم النموذج في نفس النافذة كما هو موضح في الشكل ( PageIndex {6} ) مخطط التشتت للتحقق من أنه مناسب بشكل جيد:

  1. لتقريب النسبة المئوية للأمريكيين الذين لديهم خدمة خلوية في عام 2013 ، استبدل (x = 18 ) في النموذج وحل من أجل (y ):

[ begin {align *} y & = dfrac {105.7379526} {1 + 6.88328979e ^ {- 0.2595440013x}} qquad text {استخدم نموذج الانحدار الموجود في الجزء} (a) & = dfrac { 105.7379526} {1 + 6.88328979e ^ {- 0.2595440013 (18)}} qquad text {البديل 18 لـ x} & almost 99.3 qquad text {التقريب إلى أقرب عشر} end {align *} ]

وفقًا للنموذج ، كان لدى حوالي 98.8 ٪ من الأمريكيين خدمة خلوية في عام 2013.

  1. يعطي النموذج قيمة محددة تبلغ حوالي (105 ). هذا يعني أن أقصى نسبة ممكنة من الأمريكيين الذين لديهم خدمة خلوية ستكون (105٪ ) ، وهو أمر مستحيل. (كيف يمكن أن يكون لدى أكثر من (100٪ ) من السكان خدمة خلوية؟) إذا كان النموذج دقيقًا ، فستكون القيمة المحددة (c = 100 ) وستكون مخرجات النموذج قريبة جدًا من ، ولكنها لا تصل في الواقع أبدًا (100٪ ). بعد كل شيء ، سيكون هناك دائمًا شخص ما بدون خدمة خلوية!

تمرين ( PageIndex {3} )

يوضح الجدول ( PageIndex {6} ) عدد فقمة الموانئ في بحر وادن بالآلاف على مدار الأعوام من 1997 إلى 2012.

جدول ( PageIndex {6} )
عامعدد الفقمات (بالآلاف)عامعدد الفقمات (بالآلاف)
19973.493200519.590
19985.282200621.955
19996.357200722.862
20009.201200823.869
200111.224200924.243
200212.964201024.344
200316.226201124.919
200418.137201225.108

لنفترض أن (x ) يمثل الوقت بالسنوات التي تبدأ بـ (x = 0 ) لعام 1997. لنفترض أن (y ) يمثل عدد الأختام بالآلاف.

  1. استخدم الانحدار اللوجستي لملاءمة نموذج مع هذه البيانات.
  2. استخدم النموذج للتنبؤ بعدد الفقمات لعام 2020.
  3. ما هي القيمة المحددة لهذا النموذج ، لأقرب عدد صحيح؟
الإجابة أ

نموذج الانحدار اللوجستي الذي يناسب هذه البيانات هو (y = dfrac {25.65665979} {1 + 6.113686306e ^ {- 0.3852149008x}} ).

الجواب ب

إذا استمر النمو السكاني بهذا المعدل ، فسيكون هناك حوالي (25634 ) من الفقمة في عام 2020.

الجواب ج

لأقرب رقم صحيح ، تكون السعة الاستيعابية (25،657 ).

وسائل الإعلام

قم بالوصول إلى هذا المورد عبر الإنترنت للحصول على تعليمات وممارسات إضافية باستخدام نماذج الوظائف الأسية.

  • الانحدار الأسي على الآلة الحاسبة

قم بزيارة هذا الموقع للحصول على أسئلة تدريب إضافية من Learningpod.

المفاهيم الرئيسية

  • يستخدم الانحدار الأسي لنمذجة المواقف التي يبدأ فيها النمو ببطء ثم يتسارع بسرعة دون قيود ، أو حيث يبدأ الانحطاط بسرعة ثم يتباطأ ليقترب أكثر فأكثر من الصفر.
  • نستخدم الأمر "ExpReg" في أداة الرسم البياني لتلائم وظيفة النموذج (y = ab ^ x ) لمجموعة من نقاط البيانات. راجع المثال ( PageIndex {1} ).
  • يُستخدم الانحدار اللوغاريتمي لنمذجة المواقف التي يتسارع فيها النمو أو الاضمحلال بسرعة في البداية ثم يتباطأ بمرور الوقت.
  • نستخدم الأمر "LnReg" في أداة الرسم البياني لتلائم دالة من النموذج (y = a + b ln (x) ) لمجموعة من نقاط البيانات. راجع المثال ( PageIndex {2} ).
  • يستخدم الانحدار اللوجستي لنمذجة المواقف التي يتسارع فيها النمو بسرعة في البداية ثم يتباطأ بثبات مع اقتراب الوظيفة من الحد الأعلى.
  • نستخدم الأمر "Logistic" في أداة الرسم البياني لتلائم دالة من النموذج (y = dfrac {c} {1 + ae ^ {- bx}} ) لمجموعة من نقاط البيانات. راجع المثال ( PageIndex {3} ).

بناء نموذج أسي من البيانات

كما تعلمنا ، هناك العديد من المواقف التي يمكن نمذجتها بوظائف أسية ، مثل نمو الاستثمار ، والانحلال الإشعاعي ، وتغيرات الضغط الجوي ، ودرجات حرارة جسم التبريد. ما المشترك بين هذه الظواهر؟ لسبب واحد ، كل النماذج تزداد أو تنقص مع تقدم الوقت. لكن هذه ليست القصة كاملة. انها ال طريق زيادة أو نقص البيانات التي تساعدنا على تحديد ما إذا كان من الأفضل نمذجة المعادلة الأسية. تتيح لنا معرفة سلوك الدوال الأسية بشكل عام التعرف على وقت استخدام الانحدار الأسي ، لذلك دعونا نراجع النمو الأسي والانحطاط.

  • ب يجب أن تكون أكبر من صفر ولا تساوي واحدًا.
  • القيمة الأولية للنموذج ذ = أ.
    • لو ب & GT 1 ، نماذج دالة النمو الأسي. كما x يزداد ، تزداد نواتج النموذج ببطء في البداية ، ولكن بعد ذلك تزداد بسرعة أكبر ، دون قيود.
    • إذا كان 0 & lt ب العلامة & lt 1 ، نماذج الوظيفة تسوس الأسي. كما x يزيد ، تنخفض نواتج النموذج بسرعة في البداية ثم تستقر لتصبح مقاربة لـ x-محور. بمعنى آخر ، لا تصبح النواتج مساوية للصفر أو أقل منه.

    كجزء من النتائج ، ستعرض الآلة الحاسبة رقمًا يعرف باسم معامل الارتباط، المسمى بالمتغير ص، أو [اللاتكس]^ <2> [/ لاتكس]. (قد تضطر إلى تغيير إعدادات الآلة الحاسبة حتى يتم عرضها.) القيم هي إشارة إلى & # 8220 ملاءمة & # 8221 لمعادلة الانحدار للبيانات. نحن أكثر شيوعًا في استخدام قيمة [اللاتكس]^ <2> [/ latex] بدلاً من ص، ولكن كلما كانت أي من القيمتين أقرب إلى 1 ، كلما كانت معادلة الانحدار أقرب إلى البيانات.

    ملاحظة عامة: الانحدار الأسي

    الانحدار الأسي تُستخدم لنمذجة المواقف التي يبدأ فيها النمو ببطء ثم يتسارع بسرعة دون قيود ، أو حيث يبدأ الاضمحلال بسرعة ثم يتباطأ ليقترب أكثر فأكثر من الصفر. نستخدم الأمر & # 8220ExpReg & # 8221 في أداة الرسم البياني لتلائم دالة أسية لمجموعة من نقاط البيانات. هذا يعيد معادلة من النموذج ، [لاتكس] ص = أ^[/ اللاتكس]

    • ب يجب أن تكون غير سلبية.
    • متي ب & GT 1 ، لدينا نموذج نمو أسي.
    • عندما 0 & lt ب & lt 1 ، لدينا نموذج اضمحلال أسي.

    الكيفية: بالنظر إلى مجموعة من البيانات ، قم بإجراء الانحدار الأسي باستخدام أداة الرسوم البيانية.

    1. استخدم قائمة STAT ثم EDIT لإدخال البيانات المحددة.
      1. امسح أي بيانات موجودة من القوائم.
      2. قائمة بقيم الإدخال في العمود L1.
      3. سرد قيم الإخراج في العمود L2.
      1. استخدم ZOOM [9] لضبط المحاور لتناسب البيانات.
      2. تحقق من البيانات تتبع النمط الأسي.
      1. حدد & # 8220ExpReg & # 8221 من قائمة STAT ثم CALC.
      2. استخدم القيم التي تم إرجاعها لـ أ و ب لتسجيل النموذج ، [اللاتكس] y = a^[/ لاتكس].

      مثال 1: استخدام الانحدار الأسي لملاءمة نموذج مع البيانات

      في عام 2007 ، نُشرت دراسة جامعية تبحث في مخاطر الاصطدام بالقيادة تحت تأثير الكحول. تم استخدام بيانات من 2871 حادثًا لقياس ارتباط مستوى الكحول في دم الشخص (BAC) بخطر التعرض لحادث. يوضح الجدول أدناه نتائج الدراسة. [1] إن خطر نسبي هو مقياس لعدد المرات التي يحتمل أن يتعرض فيها الشخص للتحطم. لذلك ، على سبيل المثال ، الشخص الذي لديه BAC 0.09 هو 3.54 مرة أكثر عرضة للتحطم من الشخص الذي لم يشرب الكحول.

      1. يترك x تمثل مستوى BAC ، واسمحوا ذ تمثل المخاطر النسبية المقابلة. استخدم الانحدار الأسي لملاءمة نموذج مع هذه البيانات.
      2. بعد 6 مشروبات ، سيحصل الشخص الذي يزن 160 رطلاً على BAC يبلغ حوالي 0.16. كم عدد المرات التي يُرجح فيها إصابة شخص بهذا الوزن إذا كان يقود سيارته بعد تناول 6 عبوات من البيرة؟ قرّب لأقرب جزء من مائة.
      1. باستخدام قائمة STAT ثم EDIT في أداة الرسم البياني ، قم بإدراج قيم BAC في L1 وقيم المخاطر النسبية في L2. ثم استخدم ميزة STATPLOT للتحقق من أن مخطط الانتشار يتبع النمط الأسي الموضح في الشكل 1:

      استخدم الأمر & # 8220ExpReg & # 8221 من قائمة STAT ثم CALC للحصول على النموذج الأسي ،

      التحويل من التدوين العلمي ، لدينا:

      لاحظ أن [اللاتكس]^ <2> حوالي 0.97 [/ لاتكس] مما يشير إلى أن النموذج مناسب للبيانات بشكل جيد. لرؤية هذا ، قم برسم النموذج في نفس النافذة مثل مخطط التشتت للتحقق من أنه مناسب تمامًا كما هو موضح في الشكل 2:

      استخدم النموذج لتقدير المخاطر المرتبطة بـ BAC بقيمة 0.16. استبدل 0.16 بـ x في النموذج وحلها ذ.

      إذا كان الشخص الذي يبلغ وزنه 160 رطلاً يقود سيارته بعد تناول 6 مشروبات ، فمن المحتمل أن يصطدم بحوالي 26.35 مرة أكثر من القيادة أثناء اليقظة.

      جربها

      يوضح الجدول أدناه رصيد بطاقة ائتمان الخريجين الجدد كل شهر بعد التخرج.

      شهر 1 2 3 4 5 6 7 8
      الدين (بالدولار) 620.00 761.88 899.80 1039.93 1270.63 1589.04 1851.31 2154.92

      أ. استخدم الانحدار الأسي لملاءمة نموذج مع هذه البيانات.

      ب. إذا استمر الإنفاق على هذا المعدل ، فما ديون بطاقة ائتمان الخريج بعد عام واحد من تخرجه؟

      أ. نموذج الانحدار الأسي الذي يناسب هذه البيانات هو [اللاتكس] y = 522.88585984 < left (1.19645256 right)> ^[/ لاتكس].
      ب. إذا استمر الإنفاق بهذا المعدل ، فسيكون ديون بطاقة ائتمان الخريج $ 4،499.38 بعد عام واحد.

      هل من المعقول أن نفترض أن نموذج الانحدار الأسي سيمثل حالة إلى أجل غير مسمى؟

      لا ، تذكر أن النماذج يتم تكوينها بواسطة بيانات واقعية تم جمعها من أجل الانحدار. عادة ما يكون من المعقول عمل تقديرات خلال الفترة الزمنية للملاحظة الأصلية (الاستيفاء). ومع ذلك ، عند استخدام نموذج لعمل تنبؤات ، من المهم استخدام مهارات التفكير لتحديد ما إذا كان النموذج منطقيًا للمدخلات التي تتجاوز فترة الملاحظة الأصلية (الاستقراء).


      8.3: ملاءمة النماذج الأسية للبيانات

      كما تعلمنا ، هناك العديد من المواقف التي يمكن نمذجتها بوظائف أسية ، مثل نمو الاستثمار ، والانحلال الإشعاعي ، وتغيرات الضغط الجوي ، ودرجات حرارة جسم التبريد. ما المشترك بين هذه الظواهر؟ لسبب واحد ، كل النماذج تزداد أو تنقص مع تقدم الوقت. لكن هذه ليست القصة كاملة. انها ال طريق زيادة أو نقص البيانات التي تساعدنا على تحديد ما إذا كان من الأفضل نمذجة المعادلة الأسية. تتيح لنا معرفة سلوك الدوال الأسية بشكل عام التعرف على وقت استخدام الانحدار الأسي ، لذلك دعونا نراجع النمو الأسي والانحطاط.

      • ب يجب أن تكون أكبر من صفر ولا تساوي واحدًا.
      • القيمة الأولية للنموذج ذ = أ.
        • لو ب & GT 1 ، نماذج دالة النمو الأسي. كما x يزداد ، تزداد نواتج النموذج ببطء في البداية ، ولكن بعد ذلك تزداد بسرعة أكبر ، دون قيود.
        • إذا كان 0 & lt ب & lt 1 ، نماذج الوظائف تسوس الأسي. كما x يزيد ، تنخفض نواتج النموذج بسرعة في البداية ثم تستقر لتصبح مقاربة لـ x-محور. بمعنى آخر ، لا تصبح النواتج مساوية للصفر أو أقل منه.

        كجزء من النتائج ، ستعرض الآلة الحاسبة رقمًا يعرف باسم معامل الارتباط، المسمى بالمتغير ص، أو [اللاتكس]^ <2> [/ لاتكس]. (قد تضطر إلى تغيير إعدادات الآلة الحاسبة حتى يتم عرضها.) القيم هي إشارة إلى & # 8220 ملاءمة & # 8221 لمعادلة الانحدار للبيانات. نحن أكثر شيوعًا في استخدام قيمة [اللاتكس]^ <2> [/ latex] بدلاً من ص، ولكن كلما كانت أي من القيمتين أقرب إلى 1 ، كلما كانت معادلة الانحدار أقرب إلى البيانات.

        ملاحظة عامة: الانحدار الأسي

        الانحدار الأسي تُستخدم لنمذجة المواقف التي يبدأ فيها النمو ببطء ثم يتسارع بسرعة دون قيود ، أو حيث يبدأ الاضمحلال بسرعة ثم يتباطأ ليقترب أكثر فأكثر من الصفر. نستخدم الأمر & # 8220ExpReg & # 8221 في أداة الرسم البياني لتلائم دالة أسية لمجموعة من نقاط البيانات. هذا يعيد معادلة من الشكل ، [لاتكس] ص = أ^[/ اللاتكس]

        • ب يجب أن تكون غير سلبية.
        • متي ب & GT 1 ، لدينا نموذج نمو أسي.
        • عندما 0 & lt ب & lt 1 ، لدينا نموذج اضمحلال أسي.

        الكيفية: بالنظر إلى مجموعة من البيانات ، قم بإجراء الانحدار الأسي باستخدام أداة الرسوم البيانية.

        1. استخدم قائمة STAT ثم EDIT لإدخال البيانات المحددة.
          1. امسح أي بيانات موجودة من القوائم.
          2. قائمة بقيم الإدخال في العمود L1.
          3. سرد قيم الإخراج في العمود L2.
          1. استخدم ZOOM [9] لضبط المحاور لتناسب البيانات.
          2. تحقق من البيانات تتبع النمط الأسي.
          1. حدد & # 8220ExpReg & # 8221 من قائمة STAT ثم CALC.
          2. استخدم القيم التي تم إرجاعها لـ أ و ب لتسجيل النموذج ، [اللاتكس] y = a^[/ لاتكس].

          مثال 1: استخدام الانحدار الأسي لملاءمة نموذج مع البيانات

          في عام 2007 ، نُشرت دراسة جامعية تبحث في مخاطر الاصطدام بالقيادة تحت تأثير الكحول. تم استخدام بيانات من 2871 حادثًا لقياس ارتباط مستوى الكحول في دم الشخص (BAC) بخطر التعرض لحادث. يوضح الجدول أدناه نتائج الدراسة. [1] إن خطر نسبي هو مقياس لعدد المرات التي يحتمل أن يتعرض فيها الشخص للتحطم. لذلك ، على سبيل المثال ، الشخص الذي لديه BAC 0.09 هو 3.54 مرة أكثر عرضة للتحطم من الشخص الذي لم يشرب الكحول.

          1. يترك x تمثل مستوى BAC ، واسمحوا ذ تمثل المخاطر النسبية المقابلة. استخدم الانحدار الأسي لملاءمة نموذج مع هذه البيانات.
          2. بعد 6 مشروبات ، سيحصل الشخص الذي يزن 160 رطلاً على BAC يبلغ حوالي 0.16. ما هو عدد المرات التي يزيد فيها احتمال تحطم شخص بهذا الوزن إذا كان يقود سيارته بعد تناول 6 عبوات من البيرة؟ قرّب لأقرب جزء من مائة.

          المحلول

          1. باستخدام قائمة STAT ثم EDIT في أداة الرسم البياني ، قم بإدراج قيم BAC في L1 وقيم المخاطر النسبية في L2. ثم استخدم ميزة STATPLOT للتحقق من أن مخطط الانتشار يتبع النمط الأسي الموضح في الشكل 1:

          استخدم الأمر & # 8220ExpReg & # 8221 من قائمة STAT ثم CALC للحصول على النموذج الأسي ،

          التحويل من الترميز العلمي ، لدينا:

          لاحظ أن [اللاتكس]^ <2> حوالي 0.97 [/ لاتكس] مما يشير إلى أن النموذج مناسب للبيانات بشكل جيد. لرؤية هذا ، قم برسم النموذج في نفس النافذة مثل مخطط التشتت للتحقق من أنه مناسب تمامًا كما هو موضح في الشكل 2:

          استخدم النموذج لتقدير المخاطر المرتبطة بـ BAC بقيمة 0.16. استبدل 0.16 بـ x في النموذج وحلها ذ.

          إذا كان الشخص الذي يبلغ وزنه 160 رطلاً يقود سيارته بعد تناول 6 مشروبات ، فمن المحتمل أن يصطدم بحوالي 26.35 مرة أكثر من القيادة أثناء القيادة.

          جربه 1

          يوضح الجدول أدناه رصيد بطاقة ائتمان الخريجين الجدد كل شهر بعد التخرج.

          شهر 1 2 3 4 5 6 7 8
          الدين (بالدولار) 620.00 761.88 899.80 1039.93 1270.63 1589.04 1851.31 2154.92

          أ. استخدم الانحدار الأسي لملاءمة نموذج مع هذه البيانات.

          ب. إذا استمر الإنفاق على هذا المعدل ، فما ديون بطاقة ائتمان الخريج بعد عام واحد من تخرجه؟

          هل من المعقول أن نفترض أن نموذج الانحدار الأسي سيمثل حالة إلى أجل غير مسمى؟

          لا ، تذكر أن النماذج يتم تكوينها بواسطة بيانات حقيقية تم جمعها من أجل الانحدار. عادة ما يكون من المعقول عمل تقديرات خلال الفترة الزمنية للملاحظة الأصلية (الاستيفاء). ومع ذلك ، عند استخدام نموذج لعمل تنبؤات ، من المهم استخدام مهارات التفكير لتحديد ما إذا كان النموذج منطقيًا للمدخلات التي تتجاوز فترة الملاحظة الأصلية (الاستقراء).


          مقدمة لتحليل البيانات

          في نهاية القسم السابق ، رأينا أنه يمكننا استخدام نهج AIC لحساب القيمة التقريبية للاحتمال اللاحق (P (M_ منتصف D) ) للنموذج (M_) إعطاء البيانات (د ). نهج عامل Bayes مشابه لهذا ، لكنه يتجنب أخذ النماذج السابقة في المعادلة من خلال التركيز عليها إلى أي مدى تغير البيانات (د ) معتقداتنا حول النموذج الأكثر ترجيحًا.

          • (M_1 ) له سابق (P ( theta_1 mid M_1) ) واحتمالية (P (D mid theta_1 ، M_1) )
          • (M_2 ) له سابق (P ( theta_2 mid M_2) ) واحتمالية (P (D mid theta_2 ، M_2) )

          باستخدام قاعدة Bayes ، نحسب الاحتمالات اللاحقة للنماذج (مع مراعاة البيانات) كمنتج لنسبة الاحتمالية والاحتمالات السابقة.

          وتسمى نسبة الاحتمالية أيضًا بـ عامل بايز. Formally, the Bayes factor is the factor by which a rational agent changes her prior odds in the light of observed data to arrive at the posterior odds. More intuitively, the Bayes factor quantifies the strength of evidence given by the data about the models of interest. It expresses this evidence in terms of the models’ relative prior predictive accuracy. To see the latter, let’s expand the Bayes factor as what it actually is: the ratio of marginal likelihoods.

          Three insights are to be gained from this expansion. Firstly, the Bayes factor is a measure of how well each model would have predicted the data ex ante, i.e., before having seen any data. In this way, it is diametrically opposed to a concept like AIC, which relies on models’ maximum likelihood fits (therefore using the data, so being المنشور القديم).

          Secondly, the marginal likelihood of a model is exactly the quantity that we identified (in the context of parameter estimation) as being very hard to compute, especially for complex models. The fact that marginal likelihoods are hard to compute was the reason that methods like MCMC sampling are useful, since they give posterior samples بدون requiring the calculation of marginal likelihoods. It follows that Bayes factors can be very difficult to compute in general. However, for many prominent models, it is possible to calculate Bayes factors analytically if the right kinds of priors are specified (Rouder et al. 2009 Rouder and Morey 2012 Gronau, Ly, and Wagenmakers 2019) . We will see an example of this in Chapter 11. Also, as we will see in the following there are very clever approaches to computing Bayes factors in special cases and good algorithms for approximating marginal likelihoods also for complex models.

          Thirdly, Bayes factor model comparison implicitly (and quite vigorously) punishes model complexity, but in a more sophisticated manner than just counting free parameters. To appreciate this intuitively, imagine a model with a large parameter set and a very diffuse, uninformative prior that spreads its probability over a wide range of parameter values. Since Bayes factors are computed based on ex ante predictions, a diffuse model is punished for its imprecision of prior predictions because we integrate over all parameters (weighted by priors) and their associated likelihood.

          [ ext_ <12>= frac] for the Bayes factor in favor of model (M_1) over model (M_2) . This quantity can take on positive values, which are often translated into natural language as follows:

          (BF_<12>) تفسير
          1 irrelevant data
          1 - 3 hardly worth ink or breath
          3 - 6 anecdotal
          6 - 10 now we’re talking: substantial
          10 - 30 قوي
          30 - 100 very strong
          100 + decisive (bye, bye (M_2) !)

          As ( ext_ <12>= ext_<21>^<-1>) , it suffices to give this translation into natural language only for values (ge 1) .

          There are at least two general approaches to calculating or approximating Bayes factors, paired here with a (non-exhaustive) list of example methods:

          1. get each model’s marginal likelihood
            • grid approximation (see Section 10.3.1)
            • by Monte Carlo sampling (see Section 10.3.2)
            • bridge sampling (see Section 10.3.3)
          2. get Bayes factor directly
            • Savage-Dickey method (see Section 11.4.1)
            • using encompassing models (see Section 11.4.2)

          10.3.1 Grid approximation

          يمكننا ان نستخدم grid approximation to approximate a model’s marginal likelihood if the model is small enough, say, no more than 4-5 free parameters. Grid approximation considers discrete values for each parameter evenly spaced over the whole range of plausible parameter values, thereby approximating the integral in the definition of marginal likelihoods.

          Let’s calculate an example for the comparison of the exponential and the power model of forgetting. To begin with, we need to define a prior over parameters to obtain Bayesian versions of the exponential and power model. Here, we assume flat priors over a reasonable range of parameter values for simplicity. For the exponential model, we choose:

          The (Bayesian) power model is given by:

          We can also express these models in code, like so:

          To approximate each model’s marginal likelihood via grid approximation, we consider equally spaced values for both parameters (a tighly knit grid), assess the prior and likelihood for each parameter pair and finally take the sum over all of the visited values:

          Based on this computation, we would be entitled to conclude that the data provide overwhelming evidence in favor of the exponential model. The result tells us that a rational agent should adjust her prior odds by a factor of more than 1000 in favor of the exponential model when updating her beliefs with the data. In other words, the data tilt our beliefs very strongly towards the exponential model, no matter what we believed initially. In this sense, the data provide strong evidence for the exponential model.

          10.3.2 Naive Monte Carlo

          For simple models (with maybe 4-5 free parameters), we can also use naive Monte Carlo sampling to approximate Bayes factors. In particular, we can approximate the marginal likelihood by taking samples from the prior, calculating the likelihood of the data for each sampled parameter tuple, and then averaging over all calculated likelihoods:

          [P(D, M_i) = int P(D mid heta, M_i) P( heta mid M_i) ext heta approx frac<1> sum^_ < heta_j sim P( heta mid M_i)>P(D mid heta_j, M_i)]

          Here is a calculation using one million samples from the prior of each model:

          We can also check the time course of our MC-estimate by a plot like that in Figure 10.3. The plot shows the current estimate of the Bayes factor on the (y) -axis after having taken the number of samples given on the (x) -axis. We see that the initial calculations (after only 10,000 samples) are far off, but that the approximation finally gets reasonably close to the value calculated by grid approximation, which is shown as the red line.

          Figure 10.3: Temporal development (as more samples come in) of the Monte Carlo estimate of the Bayes factor in favor of the exponential model over the power model of forgetting. The red horizontal line indicates the Bayes factor estimate obtained previously via grid approximation.

          Exercise 11.3

          Which statements concerning Bayes Factors (BF) are correct?

          1. The Bayes Factor shows the absolute probability of a particular model to be a good explanation of the observed data.
          2. If (BF_ <12>= 11) , one should conclude that there is strong evidence in favor of (M_1) .
          3. Grid approximation allows us to compare no more than five models simultaneously.
          4. With the Naive Monte Carlo method, we can only approximate the BF for models with continuous parameters.
          5. BF computation penalizes more complex models.

          Statements b. and e. هذا صحيح.

          10.3.3 Excursion: Bridge sampling

          For more complex models (e.g., high-dimensional/hierarchical parameter spaces), naive Monte Carlo methods can be highly inefficient. If random sampling of parameter values from the priors is unlikely to deliver values for which the likelihood of the data is reasonably high, most naive MC samples will contribute very little information to the overall estimate of the marginal likelihood. For this reason, there are better sampling-based procedures which preferentially sample لاحقة credible parameter values (given the data) and use clever math to compensate for using the wrong distribution to sample from. This is the main idea behind approaches like importance sampling. A very promising approach is in particular bridge sampling, which also has its own R package (Gronau et al. 2017) .

          We will not go into the formal details of this method, but just showcase here an application of the bridgesampling package. This approach requires samples from the posterior, which we can obtain using Stan (see Section 9.3.2). Towards this end, we first assemble the data for input to the Stan program in a list:

          The models are implemented in Stan. We here only show the exponential model.

          We then use Stan to obtain samples from the posterior in the usual way. To get reliable estimates of Bayes factors via bridge sampling, we should take a much larger number of samples than we usually would for a reliable estimation of, say, the posterior means and credible intervals.

          The bridgesampling package can then be used to calculate each model’s marginal likelihood.

          We then obtain an estimate of the Bayes factor in favor of the exponential model with this function:

          مراجع

          Gronau, Quentin F., Alexander Ly, and Eric-Jan Wagenmakers. 2019. “Informed Bayesian تي-Tests.” الإحصائي الأمريكي.

          Gronau, Quentin F., Alexandra Sarafoglou, Dora Matzke, Alexander Ly, Udo Boehm, Maarten Marsman, David S. Leslie, Jonathan J. Forster, Eric-Jan Wagenmakers, and Helen Steingroever. 2017. “A Tutorial on Bridge Sampling.” Journal of Mathematical Psychology 81: 80–97.

          Rouder, Jeffrey N., and Richard D. Morey. 2012. “Default Bayes Factors for Model Selection in Regression.” Multivariate Behavioral Research 47 (6): 877–903.

          Rouder, Jeffrey N., Paul l. Speckman, Dongchu Sun, Richard D. Morey, and Geoffrey Iverson. 2009. “Bayesian تي Tests for Accepting and Rejecting the Null Hypothesis.” Psychonomic Bulletin & Review 16 (2): 225–37.


          4.3 Fitting Linear Models to Data

          In this section we will be plotting collections of data points and looking for patterns in these data sets. A scatterplot is a collection of points plotted on the same coordinate system. When trying to fit a function to a data set it is important to note if there is a pattern to the data set and whether that pattern is linear or nonlinear. If the dependent variable increases as the independent variable increases, we call this a positive association . If the dependent variable decreases as the independent variable increases, we call this a negative association .

          Try It #1

          Plot points in a rectangular coordinate system, then find a line through two of the data points.

          A precalculus instructor is looking at a random sample of students to see if there is a relationship between the number of hours spent working in a homework platform for a given chapter, and the score for the chapter exam.

          ⓐ Plot each of the data points on a coordinate system below. You may either plot the points by hand or using a graphing utility. Be sure to label your x and y axes.

          ⓑ Observe any patterns in the data points. Do you think the association between the variables is positive or negative? Is the pattern linear or nonlinear?

          ⓒ What would you suggest to a friend enrolled in this course based on the data set you graphed?

          ⓓ Choose two points that seem to represent the general pattern in the data set. Write these points as ordered pairs below.
          ( , ) ( , )
          ( , ) ( , )

          ⓔ Find the slope of a line passing through these two points. Interpret its value in terms of the variables being measured.
          m = y 2 - y 1 x 2 - x 1 = m = y 2 - y 1 x 2 - x 1 =

          ⓕ Use point-slope form or slope intercept form to write the equation of the line passing through these data points.
          y – y 1 = m ( x – x 1 ) y – y 1 = m ( x – x 1 ) or y = m x + b y = m x + b

          ⓖ Write this equation in slope-intercept form.
          y = m x + b y = m x + b

          ⓗ Rewrite this equation using function notation.
          f ( x ) = f ( x ) =

          ⓘ This equation is a linear model. Sketch the line on the graph created in part a.

          ⓙ Use this mathematical linear model to predict the exam score for a student who spent 15 hours working on this chapter in their homework system. Show your work below.

          Practice Makes Perfect

          The data below shows the relationship between the mass of an automobile (measured in kg) and the fuel efficiency of the car (measured in miles per gallon) for 7 automobiles.

          ⓐ Draw a scatter plot (by hand or using a graphing utility) for the data provided being sure to label your axes.

          ⓑ Does the data appear to be linearly related? Is the association between the variables positive or negative?

          ⓒ Choose two points that seem to represent the general pattern in the data set. Write these points as ordered pairs below.
          ( , ) ( , )
          ( , ) ( , )

          ⓓ Write the equation of the line passing through the points you listed in part c. in slope intercept form. Show your work below.

          ⓔ Use the linear function you found in part d. to predict the fuel efficiency of an Audi A5 Quattro whose mass is 1610 kg.

          The data set below shows the relationship between the number of hours worked and the tips received by Nyla, a server at Pi Pizzeria.

          ⓐ Draw a scatter plot (by hand or using a graphing utility) for the data provided being sure to label your axes.

          ⓑ Does the data appear to be linearly related? Is the association between the variables positive or negative?

          ⓒ Choose two points that seem to represent the general pattern in the data set. Write these points as ordered pairs below.
          ( , ) ( , )
          ( , ) ( , )

          ⓓ Write the equation of the line passing through the points you listed in part c. in slope intercept form. Show your work below.

          ⓔ Based on the linear function you found in part d, how much could Nyla expect to make in tips if they work 38 hours in a given week?

          A professor is attempting to identify trends among final exam scores. His class has a mixture of students, so he wonders if there is any relationship between age and final exam scores. One way for him to analyze the scores is by creating a diagram that relates the age of each student to the exam score received. In this section, we will examine one such diagram known as a scatter plot.

          Drawing and Interpreting Scatter Plots

          A scatter plot is a graph of plotted points that may show a relationship between two sets of data. If the relationship is from a linear model , or a model that is nearly linear, the professor can draw conclusions using his knowledge of linear functions. Figure 1 shows a sample scatter plot.

          Notice this scatter plot does ليس indicate a linear relationship . The points do not appear to follow a trend. In other words, there does not appear to be a relationship between the age of the student and the score on the final exam.

          مثال 1

          Using a Scatter Plot to Investigate Cricket Chirps

          Table 1 shows the number of cricket chirps in 15 seconds, for several different air temperatures, in degrees Fahrenheit 11 . Plot this data, and determine whether the data appears to be linearly related.

          Chirps 44 35 20.4 33 31 35 18.5 37 26
          درجة حرارة 80.5 70.5 57 66 68 72 52 73.5 53

          المحلول

          Plotting this data, as depicted in Figure 2 suggests that there may be a trend. We can see from the trend in the data that the number of chirps increases as the temperature increases. The trend appears to be roughly linear, though certainly not perfectly so.

          Finding the Line of Best Fit

          Once we recognize a need for a linear function to model that data, the natural follow-up question is “what is that linear function?” One way to approximate our linear function is to sketch the line that seems to best fit the data. Then we can extend the line until we can verify the ذ-intercept. We can approximate the slope of the line by extending it until we can estimate the rise run . rise run .

          مثال 2

          Finding a Line of Best Fit

          Find a linear function that fits the data in Table 1 by “eyeballing” a line that seems to fit.

          المحلول

          On a graph, we could try sketching a line. Using the starting and ending points of our hand drawn line, points (0, 30) and (50, 90), this graph has a slope of

          و أ ذ-intercept at 30. This gives an equation of

          التحليلات

          This linear equation can then be used to approximate answers to various questions we might ask about the trend.

          Recognizing Interpolation or Extrapolation

          While the data for most examples does not fall perfectly on the line, the equation is our best guess as to how the relationship will behave outside of the values for which we have data. We use a process known as interpolation when we predict a value inside the domain and range of the data. عملية extrapolation is used when we predict a value outside the domain and range of the data.

          Figure 4 compares the two processes for the cricket-chirp data addressed in Example 2. We can see that interpolation would occur if we used our model to predict temperature when the values for chirps are between 18.5 and 44. Extrapolation would occur if we used our model to predict temperature when the values for chirps are less than 18.5 or greater than 44.

          There is a difference between making predictions inside the domain and range of values for which we have data and outside that domain and range. Predicting a value outside of the domain and range has its limitations. When our model no longer applies after a certain point, it is sometimes called model breakdown . For example, predicting a cost function for a period of two years may involve examining the data where the input is the time in years and the output is the cost. But if we try to extrapolate a cost when x = 50 , x = 50 , that is in 50 years, the model would not apply because we could not account for factors fifty years in the future.

          Interpolation and Extrapolation

          Different methods of making predictions are used to analyze data.

          The method of interpolation involves predicting a value inside the domain and/or range of the data.
          The method of extrapolation involves predicting a value outside the domain and/or range of the data.
          Model breakdown occurs at the point when the model no longer applies.

          مثال 3

          Understanding Interpolation and Extrapolation

          Use the cricket data from Table 1 to answer the following questions:

          1. ⓐ Would predicting the temperature when crickets are chirping 30 times in 15 seconds be interpolation or extrapolation? Make the prediction, and discuss whether it is reasonable.
          2. ⓑ Would predicting the number of chirps crickets will make at 40 degrees be interpolation or extrapolation? Make the prediction, and discuss whether it is reasonable.

          المحلول

          1. ⓐ The number of chirps in the data provided varied from 18.5 to 44. A prediction at 30 chirps per 15 seconds is inside the domain of our data, so would be interpolation. Using our model:

          Based on the data we have, this value seems reasonable.

          We can compare the regions of interpolation and extrapolation using Figure 5.

          التحليلات

          Our model predicts the crickets would chirp 8.33 times in 15 seconds. While this might be possible, we have no reason to believe our model is valid outside the domain and range. In fact, generally crickets stop chirping altogether below around 50 degrees.

          Try It #2

          According to the data from Table 1, what temperature can we predict it is if we counted 20 chirps in 15 seconds?

          Finding the Line of Best Fit Using a Graphing Utility

          While eyeballing a line works reasonably well, there are statistical techniques for fitting a line to data that minimize the differences between the line and data values 12 . One such technique is called least squares regression and can be computed by many graphing calculators, spreadsheet software, statistical software, and many web-based calculators 13 . Least squares regression is one means to determine the line that best fits the data, and here we will refer to this method as linear regression.

          كيف

          Given data of input and corresponding outputs from a linear function, find the best fit line using linear regression.

          1. Enter the input in List 1 (L1).
          2. Enter the output in List 2 (L2).
          3. On a graphing utility, select Linear Regression (LinReg).

          مثال 4

          Finding a Least Squares Regression Line

          Find the least squares regression line using the cricket-chirp data in Table 2.

          المحلول

          التحليلات

          Notice that this line is quite similar to the equation we “eyeballed” but should fit the data better. Notice also that using this equation would change our prediction for the temperature when hearing 30 chirps in 15 seconds from 66 degrees to:

          The graph of the scatter plot with the least squares regression line is shown in Figure 6.

          Will there ever be a case where two different lines will serve as the best fit for the data?

          No. There is only one best fit line.

          Distinguishing Between Linear and Nonlinear Models

          As we saw above with the cricket-chirp model, some data exhibit strong linear trends, but other data, like the final exam scores plotted by age, are clearly nonlinear. Most calculators and computer software can also provide us with the correlation coefficient , which is a measure of how closely the line fits the data. Many graphing calculators require the user to turn a "diagnostic on" selection to find the correlation coefficient, which mathematicians label as r r The correlation coefficient provides an easy way to get an idea of how close to a line the data falls.

          We should compute the correlation coefficient only for data that follows a linear pattern or to determine the degree to which a data set is linear. If the data exhibits a nonlinear pattern, the correlation coefficient for a linear regression is meaningless. To get a sense for the relationship between the value of r r and the graph of the data, Figure 7 shows some large data sets with their correlation coefficients. Remember, for all plots, the horizontal axis shows the input and the vertical axis shows the output.

          معامل الارتباط

          ال correlation coefficient is a value, r , r , between –1 and 1.


          AN EM ALGORITHM FOR FITTING A NEW CLASS OF MIXED EXPONENTIAL REGRESSION MODELS WITH VARYING DISPERSION

          Regression modelling involving heavy-tailed response distributions, which have heavier tails than the exponential distribution, has become increasingly popular in many insurance settings including non-life insurance. Mixed Exponential models can be considered as a natural choice for the distribution of heavy-tailed claim sizes since their tails are not exponentially bounded. This paper is concerned with introducing a general family of mixed Exponential regression models with varying dispersion which can efficiently capture the tail behaviour of losses. Our main achievement is that we present an Expectation-Maximization (EM)-type algorithm which can facilitate maximum likelihood (ML) estimation for our class of mixed Exponential models which allows for regression specifications for both the mean and dispersion parameters. Finally, a real data application based on motor insurance data is given to illustrate the versatility of the proposed EM-type algorithm.


          Section Exercises

          What situations are best modeled by a logistic equation? Give an example, and state a case for why the example is a good fit.

          Logistic models are best used for situations that have limited values. For example, populations cannot grow indefinitely since resources such as food, water, and space are limited, so a logistic model best describes populations.

          What is a carrying capacity? What kind of model has a carrying capacity built into its formula? Why does this make sense?

          What is regression analysis? Describe the process of performing regression analysis on a graphing utility.

          Regression analysis is the process of finding an equation that best fits a given set of data points. To perform a regression analysis on a graphing utility, first list the given points using the STAT then EDIT menu. Next graph the scatter plot using the STAT PLOT feature. The shape of the data points on the scatter graph can help determine which regression feature to use. Once this is determined, select the appropriate regression analysis command from the STAT then CALC menu.

          What might a scatterplot of data points look like if it were best described by a logarithmic model?

          What does the ذ-intercept on the graph of a logistic equation correspond to for a population modeled by that equation?

          ال ذ-intercept on the graph of a logistic equation corresponds to the initial population for the population model.


          شاهد الفيديو: الدوال الأسية ج1 (شهر اكتوبر 2021).