Anova - wyklad.pdf

(233 KB) Pobierz
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
Metody statystyczne w naukach biologicznych
2006-03-28
Wykład: Analiza wariancji prosta i złożona (ANOVA)
Analiza zmienności została opracowana przez uczonego angielskiego, biologa i genetyka Ronalda
A. Fishera. Istota jego teorii opiera się na podziale zmienności głównej na pewne frakcje i na
analizowaniu tych poszczególnych zmienności.
W oparciu o pogląd Fishera wyróżniamy 3 rodzaje zmienności:
a) zmienność ogólna - wyraża się zróżnicowaniem wszystkich poszczególnych zmiennych
w stosunku do ogólnej średniej (obliczonej dla całej zbiorowości)
b) zmienność międzygrupowa - występuje na skutek różnic powstałych między grupami
doświadczalnymi, wywołana jest działaniem czynnika doświadczalnego na poszczególne grupy
doświadczalne, wyraża się zróżnicowaniem średnich poszczególnych grup doświadczalnych
w stosunku do ogólnej średniej
c) zmienność wewnątrzgrupowa - istnieje między poszczególnymi zmiennymi wewnątrz każdej
grupy, wywołana jest czynnikami osobniczymi czyli indywidualnymi cechami poszczególnych
osobników, wyraża się zróżnicowaniem poszczególnych zmiennych wewnątrz każdej grupy
w stosunku do średniej dla tej grupy
Analizą wariancji posługujemy się przy badaniu istotności różnic między grupami
doświadczalnymi. W tym celu wykorzystujemy wykryte przez Fishera prawo, że stosunek
kwadratów odchyleń międzygrupowych do wewnątrzgrupowych kształtuje się według określonego
rozkładu (rozkład F) i stąd możliwa jest ocena prawdopodobieństwa wystąpienia pewnych wartości
F. Sytuację tę można wyobrazić sobie w następujący sposób. Jeśli z populacji o rozkładzie
normalnym wybieralibyśmy losowo po dwie próby i badalibyśmy wzajemne relacje ich wariancji
(iloraz), to ten stosunek miałby rozkład zgodny z rozkładem F. Jest to rozkład prawoskośny, tj.
średnia arytmetyczna jest większa od mediany.
Założenia analizy wariancji:
Niezależność zmiennych objaśniających (czynników).
Homogeniczność wariancji (równość wariancji) : porównywane grupy nie różnią się zmiennością. Jeśli
nie ma homogeniczności, to możliwe są logarytmiczne transformacje zmiennych lub też usunięcie grupy,
która pod względem zmienności wyraźnie odstaje od pozostałych.
Normalność: Rozkład cechy w każdej z grup winien być normalny. W praktyce często badamy czy
czynnik losowy, tj. e ij posiada rozkład normalny. W celu sprawdzenia tego założenia, od każdego
pomiaru odejmujemy średnią wartość grupy, z której ten pomiar pochodzi, a następnie badamy rozkład
tychże różnic. Jeśli reszty nie mają rozkładu normalnego, to zaleca się transformacje zmiennych.
Autor: Dariusz Piwczyński
1
858840773.050.png 858840773.057.png 858840773.058.png
 
Metody statystyczne w naukach biologicznych
2006-03-28
Hipoteza zerowa i alternatywna:
H 0 : Wszystkie średnie są równe.
H 0 : m 1 =m 2 =m 3 =m 4 =m 5 =m 6 ...
H 1 : Istnieje co najmniej jedna para średnich, które różnią się ze sobą.
H 1 : m 1 ¹m 2 lub m 1 ¹m 3 lub m 2 ¹m 3 itd....
Model liniowy analizy wariancji:
Każda obserwacja przedstawiana jest jako suma efektów czynników, jakie zostały uwzględnione
w analizie zmienności.
Y ij = m + a i + e ij
Czynnik stały (modele stałe): Z reguły liczba poziomów czynnika stałego jest niewielka.
W badaniach uwzględniamy z góry określone poziomy czynnika. Wnioski odnosimy wyłącznie do
tych poziomów czynnika, które zostały uwzględnione w analizie. Przykładem czynnika stałego
może być: płeć, grupa żywieniowa, rasa, rok badań, stado, sezon doju próbnego.
Czynnik losowy (modele losowe): Liczba poziomów czynnika losowego jest zwykle duża.
Badaniom poddany jest losowy podzbiór wszystkich poziomów czynnika. Nasze wnioski odnosimy
do wszystkich poziomów czynnika, nawet tych, które nie zostały uwzględnione w eksperymencie,
np. twierdzimy, że rasa wpływ na udział tłuszczu w mleko. Przykładem czynnika losowego jest
efekt matki, ojca, grupy genetycznej, rasy.
Różnica między czynnikami stałymi oraz losowymi jest dość płynna, w dużej mierze zależy od
postawionego do rozwiązania problemu.
Model I analizy wariancji
Y ij =m + a i + e ij
gdzie:
Y ij – wartość cechy u j-tego obiektu pochodzącego z i-tej grupy,
m - średnia ogólna, obliczona dla całej populacji,
a i - stały efekt i-tej grupy, tj. różnica między średnią dla i-tej grupy i dla całej populacji. Można ten
efekt traktować jako przewagę i-tej grupy nad przeciętną dla całej populacji.
e ij – błąd losowy, resztowy.
Błąd losowy jest odchyleniem danej obserwacji od średniej grupy, z jakiej ona pochodzi.
Spowodowany jest zmiennością przypadkową, a ta dotyczy konkretnej obserwacji. Błąd jest to taka
część obserwowanej zmienności, która nie jest wytłumaczona za pomocą modelu.
Model II analizy wariancji
Y ij =m + A i + e ij
gdzie:
A i - losowy efekt i-tej grupy, tj. różnica między średnią dla i-tej grupy i dla całej populacji,
Model dwuczynnikowy z interakcją. Analiza wariancji w układzie krzyżowym.
Y ijk =m + a i + b j + (ab) ij + e ijk
gdzie: (ab) ij – efekt interakcji pomiędzy czynnikami (poprawka ze względu na interakcję).
Autor: Dariusz Piwczyński
2
858840773.001.png 858840773.002.png 858840773.003.png 858840773.004.png
 
Metody statystyczne w naukach biologicznych
2006-03-28
Zaleca się, aby z modelu wyeliminować takie interakcje, które są nieistotne statystycznie. Zwiększa
się tym samym siłę działania czynników głównych. Jest to tym bardziej uzasadnione, jeśli: liczba
stopni swobody dla błędu jest mniejsza aniżeli 5 oraz średni kwadrat odchyleń dla interakcji
podzielony przez wariancję błędu jest mniejszy aniżeli 2.
Interakcja, czyli współdziałanie czynników ze sobą.
Jeśli interakcja jest istotna, to nie możemy porównywać średnich dla czynników głównych,
konieczne jest wtedy indywidualne porównanie poszczególnych podgrup, np. maciorki merynosa
polskiego z tryczkami suffolk..
Autor: Dariusz Piwczyński
3
858840773.005.png
Metody statystyczne w naukach biologicznych
2006-03-28
Model dwuczynnikowy z interakcją. Analiza wariancji w układzie hierarchicznym.
Jest to sytuacja, w której określone poziomy czynnika rozważane są w obrębie czynnika
nadrzędnego. Np. kozioł czy też tryk kryje samice w wyłącznie w wybranych stadach.
Y ijk =m + a i + b ij + e ijk
gdzie:
a i – efekt stada, b ij – czynnik zagnieżdżony, tj. wpływ ojca.
Przykład: Samce A i B kryły samice w następującym stadach:
Stado 1
Stado 2
Stado 3
A
B
A
B
Kolejność obliczeń (Analiza wariancji prosta)
1. Obliczanie stopni swobody (rodzaj zmienności) (
DF
)
Ogólna
N-1
(N – liczebność populacji)
a)
Międzygrupowa
k-1
(k - liczba grup doświadczalnych)
b)
Wewnątrzgrupowa
N-k
c)
2. Sumy kwadratów odchyleń (
SKO
)
a) Ogólna
(
)
2
å
x
å
2
S o
=
x
-
N
b) Międzygrupowa
(
)
(
)
(
)
(
)
(
)
å
2
å
2
å
2
å
2
å
2
x
x
x
x
x
1
2
3
i
S
=
+
+
+
...
+
-
m
n
n
n
n
N
1
2
3
i
c) Wewnątrzgrupowa: Sw=S o - S m
3. Średnie kwadraty odchyleń (
)
a) zmienność międzygrupowa: S m 2 =S m /(k-1)
b) zmienność wewnątrzgupowa: S w 2 =S w /(N-k)
ŚKO
2
S
F
=
m
4. F empiryczne
emp
2
S
w
Tabela analizy zmienności
Rodzaj zmienności
Liczba
stopni
swobody
DF
Suma
kwadratów
odchyleń
SKO
Średni
kwadrat
odchyleń
ŚKO
F emp
F tab
0,05
0,01
Ogólna
Międzygrupowa
Wewnątrzgrupowa
N-1
k-1
N-k
S o
S m
S w
S m 2
S w 2
F emp
Autor: Dariusz Piwczyński
4
858840773.006.png 858840773.007.png 858840773.008.png 858840773.009.png 858840773.010.png 858840773.011.png 858840773.012.png 858840773.013.png 858840773.014.png 858840773.015.png 858840773.016.png 858840773.017.png 858840773.018.png 858840773.019.png 858840773.020.png 858840773.021.png 858840773.022.png 858840773.023.png 858840773.024.png 858840773.025.png 858840773.026.png 858840773.027.png 858840773.028.png 858840773.029.png 858840773.030.png 858840773.031.png 858840773.032.png 858840773.033.png 858840773.034.png 858840773.035.png 858840773.036.png 858840773.037.png 858840773.038.png 858840773.039.png 858840773.040.png 858840773.041.png 858840773.042.png 858840773.043.png
Metody statystyczne w naukach biologicznych
2006-03-28
Obliczoną wartość statystyki F (tzw. F empiryczne - F emp. ) odnosimy do wartości krytycznej z
rozkładu F-Snedecora dla założonego poziomu istotności (a) i określonej liczby stopni swobody
(n 1 =k-1 oraz n 2 =N-k) (F tabelaryczne - F tab. ). Jeżeli F emp. ³ F tab. - to mamy podstawę do odrzucenie
hipotezy zerowej i stwierdzenia, iż istnieje co najmniej jedna para średnich, które różnią się ze
sobą. Zatem czynnik doświadczalny wpływa statystycznie na cechę. W przeciwnym przypadku,
nie mamy podstaw do odrzucenia H 0 .
Testy wielokrotnych porównań możemy je podzielić na 3 grupy:
Analiza kontrastów (test Scheffego)
Testy oparte na studentyzowanym rozstępie umożliwiające grupowanie średniach (NIR,
Newmana-Keulsa, Tukey, Duncan,)
Wnioskowanie na podstawie przedziałów ufności (test Scheffego, Benferroniego, test
Dunneta)
Testy wielokrotnych porównań wykonujemy wtedy, gdy na podstawie analizy
wariancji stwierdzimy, iż czynnik wpływa istotnie na badaną cechę!!!!
Grupy jednorodne: są to takie grupy średnich, które nie różnią się statystycznie ze sobą.
Procedury, które zmierzają do wyróżnienia grup jednorodnych nazywają się procedurami porównań
wielokrotnych, procedurami jednoczesnego wnioskowania lub post-hoc. Testy te wykorzystujemy
przy analizie wariancji wykonywanej w ramach Modelu I.
Test Duncana jest oparty na studentyzowanym rozstępie. Poziom istotności dla całego
doświadczenia wynosi 1-(1-a) n-1 . W sytuacji, gdy n rośnie do nieskończoności poziom ten rośnie do
jedności. W związku z czym, przy dużej liczbie porównywanych średnich prawdopodobieństwo
popełnienia błędu drastycznie rośnie. Test ten stosowany jest raczej jako test towarzyszący innym
testom. Test Duncana umożliwia tworzenie grup jednorodnych, czyli takich, pomiędzy którymi nie
występują różnice istotne statystycznie na podstawie prób niezależnych. Kolejność działań przy
wykonywaniu testu Duncana:
1. Porządkujemy rosnąco ciąg uzyskanych średnich arytmetycznych
2. Wybieramy parę średnich do porówania
3. Odczytujemy z tabel testu Duncana wartości krytyczne. Uzależnione są one od poziomu
istotności, liczby stopni swobody oraz typu rozstępu. Typ rozstępu - liczba wartości średnich
zawartych w jednym ciągu pomiędzy porównywanymi średnimi.
4. Wyliczamy tzw. istotny obszar zmienności: D*Sd
D – odczytujemy w zależności od liczby stopni swobody (zmienność wewnątrzgrupowa) oraz typu
rozstęp u.
2
2
S
S
=
w
d
n
gr
S 2 w – wariancja dla zmienności wewnątrzgrupowej; n gr – przeciętna liczebność grupy
å i
æ
2
ö
n
1
æ
ö
å
ç
è
i
÷
ø
n
=
*
n
-
è
ø
gr
i
å
k
-
1
n
k – liczba grup doświadczalnych, n i – liczebność grupy
Jeżeli |x i - x j | ³ S d *D 0,05 to różnica pomiędzy średnimi jest istotna statystycznie;
Jeżeli |x i - x j | ³ S d *D 0,01 to różnica pomiędzy średnimi jest wysoko istotna statystycznie;
Jeżeli |x i - x j | < S d *D 0,05 to różnica pomiędzy średnimi jest nieistotna statystycznie.
Autor: Dariusz Piwczyński
5
858840773.044.png 858840773.045.png 858840773.046.png 858840773.047.png 858840773.048.png 858840773.049.png 858840773.051.png 858840773.052.png 858840773.053.png 858840773.054.png 858840773.055.png 858840773.056.png
 
Zgłoś jeśli naruszono regulamin