مقالات

1.6.1.1: تشريح المؤامرة


الهدف من رسم البيانات هو تقديم ملخص لمجموعة البيانات في عرض تقديمي ثنائي الأبعاد (أو ثلاثي الأبعاد أحيانًا). نشير إلى الأبعاد كما المحاور - يسمى المحور الأفقي المحور السيني والمحور العمودي يسمى المحور ص. قد تكون هذه القيم إما مستمرة أو قاطعة.

هناك العديد من الأنواع المختلفة من الأراضي التي يمكننا استخدامها ، والتي لها مزايا وعيوب مختلفة. لنفترض أننا مهتمون بتوصيف الفرق في الطول بين الرجال والنساء في مجموعة بيانات NHANES. يوضح الشكل 6.3 أربع طرق مختلفة لرسم هذه البيانات.

  1. يوضح الرسم البياني الشريطي في اللوحة (أ) الاختلاف في الوسائل ، ولكنه لا يوضح لنا مقدار الانتشار الموجود في البيانات حول هذه الوسائل - وكما سنرى لاحقًا ، فإن معرفة هذا أمر ضروري لتحديد ما إذا كنا نفكر في الفرق بين المجموعات كبيرة بما يكفي لتكون مهمة.
  2. يُظهر المخطط الثاني الأشرطة المتراكبة مع جميع نقاط البيانات - وهذا يجعل توزيعات الطول للرجال والنساء متداخلة ، ولكن لا يزال من الصعب رؤيتها بسبب العدد الكبير من نقاط البيانات.

بشكل عام ، نفضل استخدام تقنية الرسم التي توفر رؤية أوضح لتوزيع نقاط البيانات.

  1. في اللوحة C ، نرى مثالًا واحدًا على ملف مؤامرة الكمان، الذي يرسم توزيع البيانات في كل حالة (بعد تنعيمها قليلاً).
  2. خيار آخر هو مربع مؤامرة كما هو موضح في اللوحة D ، والتي تُظهر الوسيط (الخط المركزي) ، ومقياس التباين (عرض الصندوق ، والذي يعتمد على مقياس يسمى النطاق بين الشرائح الربعية) ، وأي قيم متطرفة (مُشار إليها بالنقاط الموجودة في نهايات خطوط). هاتان طريقتان فعالتان لإظهار البيانات التي توفر إحساسًا جيدًا لتوزيع البيانات.
الشكل 6.3: أربع طرق مختلفة لرسم الفرق في الطول بين الرجال والنساء في مجموعة بيانات NHANES. ترسم اللوحة (أ) وسائل المجموعتين ، والتي لا تعطي أي طريقة لتقييم التداخل النسبي للتوزيعين. تُظهر اللوحة B نفس الأشرطة ، ولكنها أيضًا تراكب نقاط البيانات ، مما يؤدي إلى تشويشها حتى نتمكن من رؤية توزيعها العام. تُظهر اللوحة C مخطط الكمان ، والذي يوضح توزيع مجموعات البيانات لكل مجموعة. تُظهر اللوحة D مخطط الصندوق ، الذي يسلط الضوء على انتشار التوزيع جنبًا إلى جنب مع أي قيم متطرفة (تظهر كنقاط فردية).


شاهد الفيديو: Нужно ли программисту изучать C++? (شهر اكتوبر 2021).