آنالیز واریانس یا همان Anova یک روش آماری است که برای اندازه گیری اختلاف میانگین بین سه دسته یا بیشتر استفاده می شود. که براساس آن، نتیجه گیری شود آیا اختلاف معناداری بین این دسته ها وجود دارد یا خیر! این روش در سال 1918 توسط رونالد فیشر مطرح گردید. و نام دیگر این آزمون آماری، آنالیز واریانس فیشر می باشد. همان طور که می دانید برای یافتن اختلاف بین دو گروه از آزمون t استفاده می نماییم. ولی در حالتی که از دو دسته بیشتر مقایسه داشته باشیم از روش Anova (آنالیز واریانس) استفاده می کنیم.
مثال: مقایسه میزان سطح هوش افراد و کشورشان که می تواند امریکا، کانادا، ایتالیا، ایران و… باشد. با توجه به مثال بیان شده ما بیش از دو دسته برای انجام مقایسه داریم. لذا بهترین گزینه برای مقایسه این که آیا اختلاف معناداری وجود دارد یا خیر، آنالیز واریانس یا اصطلاحا Anova می باشد. انواع مختلف آنالیز واریانس یک-طرفه، دو-طرفه و N-طرفه وجود دارد. که در ادامه مثالی از روش یک-طرفه بررسی می گردد.
نکته:
با توجه به آن که معیار مقایسه، میانگین است. قبل از بررسی داده ها، باید داده های پرت را به نحوی مدیریت نمود.
مثال:
به بررسی میزان یادگیری درس ریاضی در سه مدرسه مختلف بر اساس نمرات اعلام شده آن درس می پردازیم. (نکته: از آن جایی که مقایسه اختلاف یادگیری در بین سه گروه است از آنالیز واریانس برای بررسی و مقایسه میزان یادگیری ریاضی استفاده می کنیم) فرض صفر آن است که میانگین تمامی گروه ها با هم برابر است و فرض یک، آن است که حداقل میانگین یک گروه از بین گروه ها با بقیه متفاوت است.
گام 1:
با توجه به آن که بررسی نمرات تمامی دانش آموزان هر مدرسه زمانبر و پرهزینه است. به بررسی نمونه ایی از هر مدرسه اکتفا می کنیم. در نهایت تفسیر بدست آمده را به کل مدرسه بسط می دهیم.
گام 2:
در این مثال از هر مدرسه 5 نفر از کل جمعیت 500 نفری آن مدرسه انتخاب می نماییم. و نمرات ریاضی آن ها را یادداشت می کنیم.
گام 3:
در ادامه برای تک تک دسته ها مجموع مربعات را محاسبه می نماییم. که اصطلاحا به آن مجموع مربعات درون گروهی گفته می شود.
گام 4:
در گام بعدی به بررسی واریانس بین گروهی با استفاده از محاسبه مجموع مربعات بین گروهی می پردازیم.
گام 4:
در این مرحله تمامی داده ها را در یک دسته قرار می دهیم و مجموع مربعات کل را بدست می آوریم.
گام 5:
به محاسبه F-Ratio می پردازیم و بر اساس نمودار زیر تصمیم می گیریم که آیا فرضیه صفر را رد کنیم و یا رد نکنیم. (نکته: بستگی به آن دارد که مقدار F Ratio در ناحیه قرمز یا سبز در نمودار زیر قرار گیرد. ناحیه قرمز برای رد فرضیه صفر است)
گام 6:
درجه آزادی را برای F-Ratio محاسبه می کنیم.
گام 7:
سراغ جدول F-Table می رویم و مقدار مورد نظر را بدست می آوریم. و براساس آن تصمیم می گیریم که فرضیه صفر را بپذیریم یا رد نماییم.
همان طور که پیش تر توضیح داده شد، برای محاسبه Anova یا همان آنالیز واریانس در گام های اولیه از فرمول زیر استفاده می کنیم:
Total Sum of Squares = Sum of Squares Between Groups + Sum of Squares Within Groups
مجموع مربعات درون گروهی + مجموع مربعات بین گروهی = مجموع مربعات کل
محاسبه مجموع مربعات درون گروهی:
ابتدا به محاسبه مجموع مربعات درون گروهی می پردازیم. همان طور که در تصویر زیر مشخص است، ابتدا میانگین هر گروه را محاسبه می نماییم. در گام بعد تک تک مقادیر هر گروه را از میانگین کم کرده و به توان دو میرسانیم. فرمول محاسبه ی آن به رنگ زرد مشخص شده است. در نهایت اعداد بدست آمده را با هم جمع می کنیم.
برای محاسبه مجموع مربعات درون گروهی اعداد بدست آمده ی بالا را با هم جمع می کنیم:
مجموع مربعات درون گروهی = 98.8 + 115.2 + 33.2 = 247.2
در مقالات علمی مجموع مربعات درون گروهی Sum of Squares Within Groups به اختصار SSW ذکر می شود. همان طور که مشاهده می کنید یکی از مقادیر فرمول بالا که به رنگ بنفش نوشته شده است، بدست آمد.
محاسبه مجموع مربعات کل:
در گام بعدی مقدار مجموع مربعات کل Total Sum of Squares را بدست می آوریم. که به اختصار SST نامیده می شود. به همین منظور، تمامی مقادیر سه گروه را کنار هم قرار داده و همانند گام قبل رفتار می نماییم. ( نکته: مقدار میانگین محاسبه شده در تصویر زیر، رند شده است)
همان طور که مشخص است فرمول بالا (رنگ بنفش) دارای دو مقدار مشخص است که با استفاده از اعمال جبری، مقدار سوم قابل محاسبه است. ولی در ادامه این مقدار که مجموع مربعات بین گروهی است به صورت مستقل محاسبه می شود.
محاسبه مجموع مربعات بین گروهی:
در این مرحله مجموع مربعات بین گروهی Sum of Squares Between Groups که به اختصار SSG نامیده می شود، محاسبه می شود. با توجه به آن که میانگین تک تک گروه ها و همچنین میانگین کلی تمامی گروه ها را داریم. در ادامه مطابق تصویر زیر عمل می کنیم.
همان طور که در تصویر بالا مشاهده می نمایید.
در مرحله اول، مقدار میانگین هر گروه، از مقدار میانگین کل کم می شود.
در مرحله دوم، این تفاضل را به توان دو می رسانیم.
در مرحله سوم، آن ها را با هم جمع می کنیم.
در مرحله چهارم، عدد محاسبه شده در مرحله ی قبل در تعداد نمونه های انتخاب شده ضرب می شود. که در مثال بالا عدد 5 می باشد. عدد بدست آمده طی فرآیند بالا 17.73 می شود. (نکته: زمانی که مقادیر بدست آمده را در فرمول بالا (بنفش) قرار دهید، کمی اختلاف دارد. این اختلاف ناشی از رند کردن داده هاست)
محاسبه F-Ratio:
در این مرحله به محاسبه F-Ratio می پردازیم. به این منظور از فرمول زیر استفاده می کنیم.
8.86 = 2 / 17.73 = درجه آزادی / مجموع مربعات بین گروهی
نحوه ی محاسبه درجه آزادی، چون در این مثال 3 گروه داریم از آن یک واحد کم می کنیم و به عدد 2 می رسیم. (این محاسبه بر اساس فرمول کلی محاسبه آزادی است)
22.07 = 12 / 264.95 = درجه آزادی / مجموع مربعات درون گروهی
نحوه ی محاسبه درجه آزادی، به این صورت است که تعداد کل مشاهدات در هر سه گروه (در این جا 15 است) منهای تعداد گروه ها (در این جا 3 گروه) می شود. که در نهایت به عدد 12 می رسیم.
برای محاسبه F-Ratio دو عدد بالا را بر هم تقسیم می کنیم. که 0.40 بدست می آید.
تا اینجا به این نتیجه رسیده ایم. F (2, 12) = 0.40, p-value<0.05. در ادامه به جدول F-Table مراجعه می کنیم. و مقدار مورد نظر را بدست می آوریم.
عدد 3.89 نقطه بحرانی را مشخص می کند. یعنی اعداد بالاتر از این مقدار مطابق نمودار بالا، در ناحیه ی قرمز قرار می گیرند. و در نهایت باعث Reject null hypothesis می شود. که در اینجا عدد 0.40 کمتر از 3.89 است، لذا در ناحیه ی سبز نمودار بالا قرار می گیرد. به صورت کلی، ما ادله ی کافی برای رد فرضیه صفر نداریم.