الإحصاء الوصفي (Descriptive Statistics)
الإحصاء الوصفي (Descriptive Statistics)
مقدمة:
يُعد الإحصاء الوصفي اللبنة الأساسية في تحليل البيانات، فهو يوفر
طرقًا لتلخيص ووصف الخصائص الرئيسية لمجموعة البيانات بطريقة موجزة وذات معنى. قبل
الغوص في التحليلات الإحصائية الأكثر تعقيدًا (مثل اختبار الفرضيات)، من الضروري
فهم الإحصاء الوصفي، حيث يساعدك على:
- الحصول
على نظرة عامة على البيانات: فهم توزيع
البيانات، والقيم المتطرفة، والاتجاهات العامة.
- تحديد
المشكلات المحتملة في البيانات: الكشف
عن الأخطاء، والقيم المفقودة، والتوزيعات غير الطبيعية.
- توصيف
العينات والمجموعات: مقارنة
الخصائص الأساسية لمجموعات مختلفة.
- تجهيز
البيانات للتحليلات اللاحقة: التأكد من
أن البيانات مناسبة للاختبارات الإحصائية التي سيتم تطبيقها.
أهم مقاييس الإحصاء الوصفي:
1.
مقاييس
النزعة المركزية (Measures of Central Tendency): تصف
القيمة "النموذجية" أو "المركزية" في مجموعة البيانات.
o
المتوسط (Mean): مجموع
جميع القيم مقسومًا على عددها. يُستخدم عادةً للبيانات المتصلة (continuous data) ذات
التوزيع الطبيعي تقريبًا.
§
الصيغة: Mean (µ) = Σxᵢ / n
§
حيث:
§
xᵢ: قيمة كل
ملاحظة في البيانات.
§
n: عدد
الملاحظات في البيانات.
§
مثال
تطبيقي: لنفترض
أن لديك بيانات عن إنتاجية محصول القمح (طن/هكتار) في 5 حقول مختلفة: 3.5، 4.0،
4.2، 3.8، 4.5.
§
المتوسط
= (3.5 + 4.0 + 4.2 + 3.8 + 4.5) / 5 = 4.0 طن/هكتار.
o
الوسيط (Median): القيمة
التي تفصل البيانات المرتبة إلى نصفين متساويين. يُستخدم عندما تكون البيانات غير
متماثلة
(skewed) أو تحتوي على قيم متطرفة.
§
الطريقة: رتب
البيانات تصاعديًا. إذا كان عدد القيم فرديًا، فالوسيط هو القيمة الوسطى. إذا كان
عدد القيم زوجيًا، فالوسيط هو متوسط القيمتين الوسطيتين.
§
مثال
تطبيقي: لنفترض
أن لديك بيانات عن إنتاجية محصول القمح (طن/هكتار) في 5 حقول مختلفة: 3.5، 4.0،
4.2، 3.8، 7.5 (لاحظ وجود قيمة متطرفة).
§
رتب
البيانات: 3.5، 3.8، 4.0، 4.2، 7.5
§
الوسيط =
4.0 طن/هكتار.
لاحظ أن الوسيط أقل تأثرًا بالقيمة المتطرفة من المتوسط.
o
المنوال (Mode): القيمة
الأكثر تكرارًا في مجموعة البيانات. يُستخدم للبيانات الاسمية (nominal data) والبيانات
الترتيبية
(ordinal data).
§
مثال
تطبيقي: لنفترض
أن لديك بيانات عن أنواع التربة في 10 مواقع مختلفة: طينية، رملية، طينية، طينية،
رملية، طينية، طميية، رملية، طينية، طميية.
§
المنوال
= طينية (تكررت 5 مرات).
2.
مقاييس
التشتت
(Measures of Dispersion): تصف مدى انتشار أو تباعد البيانات حول القيمة
المركزية.
o
المدى (Range): الفرق
بين أكبر قيمة وأصغر قيمة في مجموعة البيانات. يوفر مقياسًا بسيطًا للانتشار، لكنه
حساس للقيم المتطرفة.
§
الصيغة: Range = Maximum value -
Minimum value
§
مثال
تطبيقي: لنفترض
أن لديك بيانات عن إنتاجية محصول القمح (طن/هكتار) في 5 حقول مختلفة: 3.5، 4.0،
4.2، 3.8، 4.5.
§
المدى =
4.5 - 3.5 = 1.0 طن/هكتار.
o
التباين (Variance): متوسط
مجموع مربعات انحرافات القيم عن المتوسط. يوفر مقياسًا أكثر دقة للانتشار من
المدى، لكنه بوحدات مربعة.
§
الصيغة: Variance (σ²) = Σ(xᵢ - µ)² / (n - 1) (نستخدم n-1 لتقدير
التباين في العينة)
§
حيث:
§
xᵢ: قيمة كل
ملاحظة في البيانات.
§
µ: متوسط
البيانات.
§
n: عدد
الملاحظات في البيانات.
§
مثال
تطبيقي: (باستخدام
بيانات إنتاجية القمح من المثال السابق)
§
µ = 4.0 طن/هكتار.
§
Variance = [(3.5-4.0)² + (4.0-4.0)² +
(4.2-4.0)² + (3.8-4.0)² + (4.5-4.0)²] / (5-1) = 0.115 (طن/هكتار)²
o
الانحراف
المعياري
(Standard Deviation): الجذر التربيعي للتباين. يوفر مقياسًا للانتشار
بوحدات البيانات الأصلية، مما يجعله أكثر سهولة في التفسير.
§
الصيغة: Standard Deviation (σ) =
√Variance
§
مثال
تطبيقي: (باستخدام
بيانات إنتاجية القمح من المثال السابق)
§
Standard Deviation = √0.115 = 0.339 طن/هكتار.
o
معامل
الاختلاف
(Coefficient of Variation - CV): نسبة الانحراف المعياري إلى المتوسط، معبرًا عنها
كنسبة مئوية. يستخدم لمقارنة التباين بين مجموعات بيانات مختلفة ذات وحدات قياس
مختلفة أو متوسطات مختلفة.
§
الصيغة: CV = (σ / µ) * 100%
§
مثال
تطبيقي: لنفترض
أن لديك مجموعتين من البيانات:
§
المجموعة
1: إنتاجية القمح (المتوسط = 4.0 طن/هكتار، الانحراف المعياري = 0.339 طن/هكتار)
§
المجموعة
2: إنتاجية الشعير (المتوسط = 3.0 طن/هكتار، الانحراف المعياري = 0.25 طن/هكتار)
§
CV (القمح)
= (0.339 / 4.0) * 100% = 8.48%
§
CV (الشعير)
= (0.25 / 3.0) * 100% = 8.33%
§
على
الرغم من أن الانحراف المعياري للقمح أكبر، إلا أن معامل الاختلاف متقارب بين
القمح والشعير، مما يشير إلى أن التباين النسبي مماثل.
3.
مقاييس
الشكل
(Measures of Shape): تصف شكل توزيع البيانات.
o
الالتواء (Skewness): يقيس مدى
تماثل توزيع البيانات.
§
التوزيع
المتماثل
(Symmetrical): الالتواء = 0 (تقريبًا).
§
الالتواء
الموجب
(Positive Skew): الذيل الأيمن أطول من الذيل الأيسر (معظم القيم
متجمعة على اليسار). غالبًا ما يحدث عندما تكون هناك قيم متطرفة عالية.
§
الالتواء
السالب
(Negative Skew): الذيل الأيسر أطول من الذيل الأيمن (معظم القيم
متجمعة على اليمين). غالبًا ما يحدث عندما تكون هناك قيم متطرفة منخفضة.
o
التفرطح (Kurtosis): يقيس مدى
"تسطح" أو "تدبب" توزيع البيانات مقارنة بالتوزيع الطبيعي.
§
التوزيع
الطبيعي
(Mesokurtic): التفرطح = 3 (تقريبًا).
§
التوزيع
المدبب
(Leptokurtic): التفرطح > 3 ذيل
أثقل، قمة أكثر حدة.
§
التوزيع
المسطح
(Platykurtic): التفرطح < 3 ذيل أخف،
قمة أكثر تسطحًا.
عرض البيانات الإحصائية الوصفية:
يمكن عرض الإحصاء الوصفي باستخدام:
- الجداول
(Tables): لتلخيص مقاييس النزعة المركزية والتشتت
والشكل.
- الرسوم
البيانية (Graphs):
- المدرج
التكراري (Histogram): يعرض
توزيع البيانات المتصلة.
- الرسم
البياني الصندوقي (Box Plot): يعرض
الوسيط والربيعات (quartiles) والقيم
المتطرفة.
- الرسم
البياني الشريطي (Bar Chart): يقارن
بين متوسطات مجموعات مختلفة.
- الرسم
البياني الدائري (Pie Chart): يعرض
النسب المئوية لفئات مختلفة.
مثال تطبيقي شامل:
لنفترض أنك تدرس تأثير نوعين من الأسمدة A و B على
ارتفاع نبات الذرة بعد 30 يومًا من الزراعة. قمت بجمع البيانات التالية
(بالسنتيمتر):
النبتة |
السماد A |
السماد B |
1 |
25 |
28 |
2 |
27 |
30 |
3 |
24 |
27 |
4 |
26 |
29 |
5 |
28 |
31 |
6 |
23 |
26 |
7 |
29 |
32 |
8 |
25 |
28 |
9 |
27 |
30 |
10 |
26 |
29 |
الإحصاء الوصفي:
المقياس |
السماد A |
السماد B |
المتوسط (Mean) |
26.0 |
28.0 |
الوسيط (Median) |
26.0 |
29.0 |
الانحراف المعياري (Standard Deviation) |
1.94 |
1.89 |
المدى (Range) |
6 |
6 |
التفسير:
- المتوسط
والوسيط: يشيران
إلى أن السماد B يؤدي إلى
ارتفاع أكبر لنبات الذرة مقارنة بالسماد A.
- الانحراف
المعياري: يشير إلى
أن التباين في ارتفاع النباتات داخل كل مجموعة (A و B) متقارب.
- المدى: يشير
إلى أن الانتشار الكلي للبيانات متقارب بين المجموعتين.
الخلاصة:
الإحصاء الوصفي هو أداة قوية لتلخيص ووصف البيانات. من خلال فهم
واستخدام هذه المقاييس بشكل صحيح، يمكنك الحصول على رؤى قيمة حول بياناتك وتجهيزها
للتحليلات الإحصائية الأكثر تعقيدًا. تذكر أن الإحصاء الوصفي هو مجرد الخطوة
الأولى في عملية تحليل البيانات، ويجب استخدامه بالتزامن مع طرق إحصائية أخرى
للوصول إلى استنتاجات صحيحة وموثوقة.