• Rezultati Niso Bili Najdeni

Obdelava podatkov

In document 2 PREGLED OBJAV (Strani 50-53)

3 MATERIALI IN METODE

3.3 C DNA MIKROMREŽE

3.3.6 Obdelava podatkov

3.3.6.1 Analiza slike

Slike, dobljene z optičnim branjem, smo analizirali s programom ArrayPro Analyzer® (Media Cybernetics, ZDA). V tem programu smo slike obrnili, nastavili mrežo, točkam pripisali podatke o nanešeni cDNA (datoteka GAL), ocenili kvaliteto posameznih točk ter izvozili podatke o signalu točk in ozadju na obeh kanalih.

S postavitvijo mreže smo definirali območje, kjer je bila nanesena cDNA. Pri nastavitvi za mrežo smo upoštevali podatke o razporeditvi točk nanesene cDNA v bloke, stolpce in vrstice (datoteka GAL) ter dejstvo, da so bile točke nanešene cDNA neenakomerne velikosti. Nato smo približno mrežo smo naložili na slike ter jo z ukazom »Auto align« in

vizuelnim pregledovanjem natančno nastavili.

Po postavitvi mreže smo nastavili izračun naslednjih parametrov (za oba kanala):

Intenziteta v točki: Rf (red foreground) - za barvilo Cy3 in Gf (green foreground) - za barvilo Cy5 (izražena v arbitrarnih enotah), je bila izračunana kot modificirana aritmetična sredina signala slikovnih elementov (pixel) na celotni površini točke nanešene cDNA.

Ozadje posamezne točke (Gb – green background in Rb – red background) je bilo izračunano kot modificirana aritmetična sredina signala v lokalnih kotih posamezne točke (slika 6).

Slika 6: Shema položaja lokalnih kotov (pobarvani temno sivo) točk nanešene cDNA na mikromreži, iz signala katerih smo izračunali ozadje za posamezno točko.

Figure 6: Scheme the position of the local corners of the spots on microarray which were used to extract background signal for each spot.

Za bolj zanesljivo nadaljno analizo smo že med analizo slike izvedli kontrolo kvalitete in izločili točke po naslednjih kriterijih:

Mesta na mreži, kjer cDNA ni bila nanesena (ID = null) in točke cDNA, ki niso bile validirane (ID = 0) (glej poglavje 3.3.1in sliko 5)

Točke nepravilnih oblik (artefakti prahu, oblika obroča ipd.), kjer povprečna vrednost signala ne odraža pravega stanja:

) 1

kjer je SD standardna deviacija signala točke.

Točke z nizkim razmerjem med signalom in šumom (SNR, povzročijo ga lahko prašni delci, premaknjena sosednja točka ipd.), kjer bi lahko napačen izračun ozadja pomenil napačen izračun signala te točke cDNA

kjer je SD standardna deviacija signala ozadja.

Točke z nizkim signalom glede na ozadje na obeh kanalih:

Za nadaljne analize smo za vsako točko cDNA določili vrednost parametra »Ignore Filter«.

Točke, izločene po zgoraj navedenih kriterijih so imele vrednost 0, ostale pa vrednost 1.

Parameter smo v nadaljnih analizah uporabili kot utež.

Po končani analizi smo v .txt datoteko izvozili naslednje vrednosti za vsako točko:

Name (verjetna določitev, putative annotation, iz datoteke GAL)

Clone_name (oznaka klona, iz datoteke GAL) Gf

Naslednje faze predpriprave podatkov (normalizacija, kontrola kvalitete, priprava matric za statistično testiranje) smo izvedli v odprtokodnem statističnem programu R (R Development Core Team, 2005). Uporabili smo pakete »marray«, »convert« in »limma«

(Smyth in sod., 2005). Postopek analize smo priredili po Baebler in sodelavci (2005).

Pred uvozom podatkov signala točk in ozadja na obeh kanalih smo pripravili datoteko

»phenodata«, ki je vsebovala podatke o vseh mikromrežah: vzorci, označevanje in imena datotek s podatki. Z ukazi paketa »limma« smo nato povezali podatke o signalih in utežeh ter datoteko GAL v objekt tipa RG.

S funkcijo »imageplot« smo pregledali vrednosti in razporeditev signalov točk in ozadja na vseh mikromrežah (glej tudi sliko 10). Nato smo z ukazom »normalizeWithinArrays« od signala točk odšteli ozadje in signal normalizirali (normalizacija lowess). Nastali objekt MA je tako vseboval vrednosti:



kjer sta R in G vrednosti signala Cy3 in Cy5, z odštetim ozadjem. Za kontrolo normalizacije smo izdelali tudi objekt MA, ki ni bil normaliziran. Nato smo za vsako posamezno mikromrežo primerjali razporeditev M vrednosti v odvisnosti od A z MA grafikonom pred in po normalizaciji (slika 12). Razporeditev vrednosti M pred in po normalizaciji smo med mikromrežemi primerjali z grafikonom kvantilov (slika 11).

Sledilo je povprečenje vrednosti A in M za obe točki istega klona cDNA. V primeru, da smo zaradi slabe kvalitete eno izmed paralelk za posamezen klon v predhodni analizi izključili, smo upoštevali le vrednost dobre paralelke.

Pri tako pripravljenih podatkih smo upoštevali še označevanje. Prednastavljeno računanje vrednosti M (enačba 4) predvideva, da je tretiran vzorec označen z barvilom Cy3 (G), kontrola pa s Cy5 (R). Ker smo v naših eksperimentih med biološkimi ponovitvami izvedli zamenjavo barvil, smo vrednosti M tistih mikromrež, pri katerih je bila kontrola označena z barvilom Cy5 (R), pomnožili z -1. Tako vrednost M, predstavljena v rezultatih, vedno predstavlja relativno izražanje v okuženih rastlinah, glede na slepo inokulirane rastline.

Da bi zmanjšali število genov za statistična testiranja in tako povečali statitično zanesljivost, smo odfiltrirali tiste gene, ki niso kazali različnega izražanja med vzorcema.

Odstranili smo tiste klone, ki so imeli na vseh mikromrežah vrednost M med -0,2 in 0,2.

Nato smo izvozili vrednosti A in M, ter jih združili s podatki o naneseni cDNA. Tako pripravljeno tabelo smo uporabili za statistično analizo podatkov.

3.3.6.3 Analiza podatkov

Pripravljne podatke o cDNA in izražanju pri vseh parih vzorcev smo uvozili v odprtokodni program MeV v3.1 (Saeed in sod., 2003; www.tm4.org/mev.html) in izvedli statistični analizi t-test in dvofaktorsko analizo variance (ANOVA).

S t-testom smo testirali, ali je izražanje genov v okviru ene skupine bioloških ponovitev statistično značilno različno od vrednosti 0, glede na t-porazdelitev. Mejo statistične značilnosti smo določili pri p = 0,1 nato pa izbrali le tiste gene, ki so imeli absolutno povprečno vrednost M med biološkimi ponovitvami večjo od 0,3.

Pri testu ANOVA smo uporabili dvofaktorsko analizo s faktorjema sorta in čas, ki sta vsaka vsebovala 2 nivoja. Tako smo iskali gene, ki se statistično različno izražajo med sortama, časovnima točkama in v inteakciji obeh faktorjev, glede na F-porazdelitev. Mejo statistične značilnosti smo določili pri p = 0,01.

In document 2 PREGLED OBJAV (Strani 50-53)