• Rezultati Niso Bili Najdeni

EM algoritem

N/A
N/A
Protected

Academic year: 2022

Share "EM algoritem"

Copied!
2
0
0

Celotno besedilo

(1)

EM algoritem

Pogosto sreˇcamo v statistiki problem manjkajoˇcih opazovanih vrednosti.

Obstaja mnogo metod, kako korektno oceniti parametre. Ogledali si bomo poseben primer EM (expectation maximization) algoritma, ki je eden od pristopov.

a. Prepostavite, da so vaˇse opazovane vrednosti neodvisnip-razseˇzni nor- malni vektorji X1,X2, . . . ,Xn s parametri µ inΣ. Ocenite parametra po metodi najveˇcjega verjetja, ˇce ni manjkajoˇcih podatkov.

b. Predpostavite, da nekatere komponente “opazovanih” vektorjev man- jkajo. Prepostavite, da so podatki manjkajo “nakljuˇcno” in neodvisno od X1, . . . ,Xn, vendar tako, da nikoli ne manjkajo vse komponente.

Oznaˇcimo z x1,x2, . . . ,xn opazovane vrednosti (z manjkajoˇcimi po- datki).

EM algoritem ima dva koraka:

(i) E-korak: Naj bo `c(µ,Σ|x1,x2, . . . ,xn) logaritemska funkcija verjetja, ˇce imamo vse podatke. Indeks cpomeni “complete”. Te funkcije ne moremo izraˇcunati, ˇce kakˇsen podatek manjka. Kaj storiti? Oznaˇcimo z y1,y2, . . . ,yn dejansko opazovane “ˇskrbaste”

vektorje. Izberimo zaˇceten pribliˇzek za parametra µinΣ, recimo µ0 in Σ0. Izraˇcunajmo pogojno matematiˇcno upanje

Q(µ,Σ, µ00) =E

`c(µ,Σ|X1,X2, . . . ,Xn)

y1,y2, . . . ,yn

. Pri tem privzemamo, da so X1,X2, . . . ,Xn porazdeljeni veˇcraz- seˇzno normalno s parametroma µ0 in Σ0.

(ii) M-korak: Naslednja pribliˇzka µ1 in Σ1 za neznana parametra dobimo tako, da maksimiziramo funkcijo Q(µ,Σ, µ00) po µ in Σ.

Koraka E in M potem ponavljamo. Ponovimo E-korak z novimi pri- bliˇzki za parameter in “pridelamo” nove pribliˇzke z M-korakom. V mnogo primerih (glej Dempster, A. P., Laird, N. M., and Rubin, D.

B. (1977). Maximum likelihood from incomplete data via the EM al- gorithm (with discussion), Journal of the Royal Statistical Society B,

1

(2)

39, 1-38) zaporedni pribliˇzki konvergirajo proti neki limiti, ki je potem naˇsa ocena za parametre.

Na kratko komentirajte, kaj mislite o tem postopku? Se vam zdi smiseln? Zakaj?

c. Opiˇsite, s ˇcim se nadomestijo manjkajoˇce vrednosti v primeru veˇcraz- seˇzne normalne porazdelitve. Utemeljite vaˇse izjave. Lahko se omejite na primer p = 2. Kako smiseln se vam zdi zdaj EM algoritem? Na kratko komentirajte.

d. Naj bo p = 2. Generirajte vzorec velikosti n = 400. Za vsak k = 1,2, . . . , n naj manjka ena od komponent z verjetnostjo 0,1 in sicer manjkajoˇci podatek izberite nakljuˇcno z verjetnostjo 1/2. Sprogrami- rajte EM algoritem in ugotovite, ali zaporedni pribliˇzki res konvergi- rajo. Primerjajte limitne ocene s tistimi, ki bi jih dobili z metodo najveˇcjega verjetja samo na podlagi podatkov, kjer ne manjka nobena komponenta. Komentar?

Literatura: Geoffrey J. McLachlan, Thriyambakam Krishnan,The EM Algorithm and Extensions, Wiley Series in Probability and Statistics, 1997.

2

Reference

POVEZANI DOKUMENTI

Aplikacija je zelo kompleksna, manjka pa ji še precej modulov, ki bi jih študenti lahko (neodvisno) razvili in dodali v sistem in s tem razširili celoto.. Strokovno

S pomočjo podatkov z OBD2 in senzorjev mobilne naprave bi lahko, podobno kot v zavarovalništvu, plačilo cestnine zniževali na podlagi dejavnikov, kot so: dejanski

Drugi algoritem, na katerem smo preizkusili natanˇ cnost napovedovanja razpoloˇ zenja na glasbenih odlomkih iz naˇ se podatkovne zbirke, je algoritem GaiaTransform, ki na

Rezultati določanja vsebnosti sečnine v mleku, kloridov v sirih in kislosti surovega masla, ki smo jih dobili z metodo FOODLAB, so vrednosti, ki smo jih določali neodvisno

a) Neformalno (subjektivno) vrednotenje: vključuje neformalne ocene in subjektivna mnenja na podlagi osebnih stikov med kupcem in dobaviteljem, kjer na podlagi postavljanja

Če bi bili dosledni, bi projektno metodo imenovali samo tisto izobraževalno metodo, kjer študenti v celoti raziščejo problem, ki si ga sami zastavijo, sami poiščejo

V nadaljevanju bomo na podlagi podatkov iz raziskav sku- šali predstaviti nekatere kulturne elemente, ki bi jih lahko pripisali prebival- cem na manj gosto naseljenih

Predlagani pristop postopnega odstranjevanja podatkov mikromrež nižje kvalitete smo s stališča izvedbe ovrednotili na podlagi primerjave skupin genov, ki smo jih določili glede