definování haplotypových bloků a tag jednonukleotidových polymorfismů v lidském genomu

Abstrakt

nedávné studie naznačují, že genom je uspořádán do bloků haplotypů a snahy o vytvoření mapy jednonukleotidových polymorfismů (SNP) v celém genomu již probíhají. Haplotypové bloky jsou definovány algoritmicky a dosud bylo navrženo několik algoritmů. O jejich relativním výkonu v reálných datech nebo o vlivu frekvencí alel a možností parametrů na detekci haplotypových bloků a markerů, které je označují, je však známo jen málo. Zde uvádíme formální srovnání dvou hlavních algoritmů, metody založené na vazbě (ld) a algoritmu dynamického programování (DPA), ve třech chromozomálních oblastech lišících se obsahem genů a rychlostí rekombinace. Obě metody přinesly nápadně odlišné výsledky. DPA identifikovala méně a větší haplotypové bloky a menší sadu tagů SNP než metoda LD. U obou metod byly výsledky silně závislé na frekvenci alely. Snížení frekvence menších alel vedlo až k 3,7 násobnému zvýšení počtu haplotypových bloků a tagů SNP. Definice haploytpe bloků a tagů SNP byla také citlivá na změny parametrů, ale výsledky nemohly být sladěny jednoduše úpravou parametrů. Tyto výsledky ukazují, že dvě hlavní metody detekce haplotypových bloků a SNP značek mohou produkovat různé výsledky ve stejných datech a že tyto výsledky jsou citlivé na frekvence markerových alel a volby parametrů. Další informace jsou potřebné k vedení volby metody, markerové alely frekvence, a parametry při vývoji mapy haplotypu.

Úvod

mapování disequilibria (LD) s vazbou na celý genom bylo navrženo jako výkonný nástroj pro detekci genů citlivosti pro komplexní vlastnosti (1). Nedávné studie naznačují, že lidský genom je organizován do bloků haplotypů (2,3). Předpokládá se, že tato genomická architektura může usnadnit mapování LD v celém genomu omezením počtu jednonukleotidových polymorfismů (SNP), které mají být zadány, na SNP, které dostatečně vysvětlují nebo „značí“ vzor haplotypu (4).

byla navržena řada různých algoritmů pro identifikaci haplotypových bloků a tagů SNP (2,5-11). O relativním výkonu těchto různých metod v reálných datech je však známo jen málo. Jaké jsou rozdíly mezi několika algoritmy? Docházejí všechny metody ke stejným závěrům, to znamená, že identifikují stejné nebo alespoň podobné haploytpe bloky a označují SNP? Jak lze vyřešit nesouhlas mezi metodami? Nedávno, Schwartz a kol. (12) posoudil překrývání hranic bloků přiřazených různými algoritmy. Našli „obecně špatnou shodu mezi hranicemi bloků odvozenými z různých“ algoritmů, což bylo výraznější u malých vzorků. Další studie ukázala, že rozteč markerů ovlivňuje předpokládanou délku haplotypových bloků v analýze evolučního modelování (13). Bylo také prokázáno, že velikost haplotypových bloků je závislá na algoritmu (14). Stále však chybí studie, které formálně studují výkon různých algoritmů ve stejných sadách dat, a žádná studie neposoudila dopad nastavení parametrů nebo frekvencí alel.

zde uvádíme formální srovnání dvou hlavních metod pro definování haplotypových bloků, metody založené na LD navržené Gabrielem et al. (5) a dynamický programovací algoritmus (DPA) vyvinutý Zhang et al. (10). Na rozdíl od předchozích studií jsme porovnávali počet haploytpe bloků a tagů SNP identifikovaných každou metodou, protože tyto proměnné jsou kritické v asociačním mapování. Neomezujeme naši analýzu na jednu libovolně zvolenou prahovou hodnotu menší frekvence alel (q), ale provádíme analýzu různých hodnot q, abychom objasnili dopad frekvence alel na výsledky. Nakonec zkoumáme dopad změn parametrů na rozdělení bloků. Abychom zvýšili generalizabilii naší studie, vybrali jsme tři plně sekvenované chromozomální oblasti, které se lišily jejich průměrnou mírou rekombinace a obsahem genů: 18q21.32-33 (180 kb), genotyped s 33 SNP u 50 jedinců (zakladatelé CEPH); 22q13. 31-32 (811 kb), genotyped s 55 SNP u 91 jedinců (data získaná z Wellcome Trust Sanger Institute); a 22q13.33 (993 kb), genotyped s 54 SNP u stejných 91 jedinců. Zjistili jsme, že tyto dvě metody přinesly různé výsledky. Metoda DPA důsledně identifikovala méně, větší haplotypové bloky, stejně jako méně SNP tagů než metoda LD. Pro obě metody byla identifikace haplotypových bloků a tagů SNP velmi citlivá na frekvenci markerových alel. Obě metody byly citlivé na volby parametrů, ale metoda LD byla v tomto ohledu méně citlivá než metoda DPA. Samotné nastavení parametrů podstatně nezlepšilo shodu mezi metodami. Tyto výsledky ukazují, že dvě hlavní metody detekce haplotypových map a SNP značek mohou produkovat různé výsledky ve stejných datech a že tyto výsledky jsou citlivé na frekvence alel markerů a volby parametrů.

výsledky

odlišné vzory LD pro každou ze tří oblastí (doplňkový materiál, obr. 1)

vzory párového LD se lišily mezi třemi studovanými oblastmi. Na 22q13. 33 lze pozorovat vyšší a rozšířenější hladiny LD (průměr D’=0,35) než v sousední oblasti na 22q13.31-32 (průměr D’=0.27), který odpovídá známým rozdílům v rekombinaci. Tento rozdíl v LD platí také při porovnávání podmnožin s vyššími prahovými hodnotami q. Oblast na 18q22 vykazovala rozšířené a silné hladiny LD(průměr D ‚ =0,58). Doplňková data Obrázek 1 ukazuje celkovou distribuci LD pro tři studované regiony, pro různé prahové hodnoty q.

DPA identifikuje méně haplotypových bloků a tagů SNP než metoda LD (obr. 1)

výsledky dělení haplotypových bloků a identifikace tagů SNP oběma algoritmy jsou znázorněny na obrázku 1. Podrobné výsledky, včetně přesného rozdělení bloků a fyzické délky haplotypových bloků, jsou uvedeny v doplňkovém materiálu 2-7. Z podrobných výsledků dělení bloků, je vidět, že termín „blok“ neomezujeme na genomický úsek obsahující alespoň dva SNP: blok může být také reprezentován jediným SNP.

pro všechny regiony a všechny úrovně q DPA důsledně identifikovala méně haplotypových bloků a tagů SNP než metoda LD. Například na chromozomu 18q21. 32-33, při q≥0.01, DPA detekovala šest haplotypových bloků, označených 11 SNP, zatímco metoda LD identifikovala 19 bloků a 15 tagů SNP. Haplotypové bloky nazývané DPA jsou tedy větší než bloky nazývané metodou LD. Například na chromozomu 18q21. 32-33, při q≥0, 01, DPA identifikovala bloky mezi 4, 9 a 77, 6 kb dlouhými, ve srovnání s rozsahem 0, 8–26, 4 kb pro metodu LD.

dělení bloků kriticky závisí na frekvencích markerových alel (obr. 1)

pro obě metody záviselo dělení bloků a identifikace tagů SNP na použitém prahu q. Zvýšení q postupným vynecháním vzácnějších SNP z původních datových souborů vedlo ke snížení počtu identifikovaných haplotypových bloků a SNP tagů. Haplotypové bloky trvale klesaly v rozmezí q≥0,01 až q≥0,41. Počet tagů SNP zůstal stabilní v rozmezí q≥0,01 až q≥0,19 a po q=0,2 strmě klesal (obr. 1 a doplňkový materiál, 2-7).

identifikace haplotypových bloků a tagů SNP je citlivá na klíčové parametry (doplňkový materiál 1-7, obr. 2)

Změna klíčových parametrů ovlivnila výsledky obou metod. U všech tří chromozomálních oblastí se počet SNP tagů identifikovaných DPA zvyšoval se zvyšujícími se hladinami α (=β) (obrázek 2A-C a doplňkový materiál, 2-4). Počet identifikovaných haplotypových bloků také závisel na hladinách α; monotónní vztah však nelze rozeznat (doplňkový materiál, 2-4). Metoda LD se ukázala jako poměrně necitlivá na změny prahových hodnot pro hranice spolehlivosti. Pro region na 18q byly získány stejné výsledky jak pro snížené, tak pro zvýšené prahové hodnoty. U dvou oblastí na chromozomu 22 se počet identifikovaných haplotypových bloků a tagů SNP lišil jen málo mezi výchozím, zvýšeným a sníženým prahem (doplňkový materiál, 5-7). Žádná konfigurace parametrů, které jsme testovali, nemohla sladit rozdíly ve výsledcích mezi oběma metodami.

diskuse

algoritmická detekce haplotypových bloků je nástrojem k systematickému a efektivnímu zefektivnění úsilí o genotypizaci (15). Vzhledem k tomu, že se předpokládá, že algoritmy dělení haplotypových bloků mají význam pro mapování asociací v celém genomu, chtěli jsme se zabývat některými praktickými, ale zásadními otázkami,které dosud nebyly dostatečně řešeny. Jak se porovnávají různé algoritmy z hlediska identifikace haplotypových bloků a tagů SNP? Jaký dopad má volba frekvence alely markerů na rozdělení bloků? Jak citlivé jsou výsledky na změny v nastavení parametrů? Porovnali jsme dvě hlavní metody dělení haplotypových bloků ve třech oblastech lidského genomu, které se lišily ve vzorcích LD a obsahu genů. Ve všech třech regionech jsme zjistili, že DPA důsledně identifikovala méně haplotypových bloků a tagů SNP než metoda LD. Kromě toho identifikace bloků a tagů SNP kriticky závisela na frekvenci menších alel. Ani jedna metoda nebyla zcela necitlivá na volby parametrů, ale výsledky nemohly být sladěny jednoduše úpravou parametrů.

bylo navrženo, že studie asociací v celém genomu by mohly být prováděny systematickým způsobem využitím snížené sady markerů, které označují hlavní haplotypy (16). Tento návrh vyplývá z pozorování, že genom je zjevně uspořádán do bloků haplotypů (2,3). Byly navrženy četné metody algoritmické identifikace těchto bloků (2,5-11). Přesto přetrvává mnoho nejistot (17).

dva hlavní algoritmy dělení bloků, které jsme studovali, se chovaly velmi odlišně při identifikaci haplotypových bloků a tagů SNP. To není jen problém kalibrace. Naše výsledky ukazují, že tyto podstatné rozdíly nebylo možné napravit úpravou parametrů. Kromě toho se rozdíly neomezovaly pouze na jednu chromozomální oblast, ale byly patrné v každé ze tří oblastí, které se lišily celkovou mírou rekombinace a obsahem genů.

absolutní rozdíly v počtu tagů SNP pro naše malé studijní oblasti se nemusí zdát velké. Nicméně, na úrovni celého genomu, mohou znamenat podstatnější rozdíly v počtu SNP tagů, které mají být genotypizovány.

identifikace tag SNP má poskytnout představu o úsilí genotypizace potřebné k dostatečnému pokrytí oblasti nebo celého genomu, zatímco identifikace haplotypových bloků nám může poskytnout představu o tom, kolik genomu bylo odebráno. Oba jsou stejně důležité při zaměřování na mapování asociace celého genomu nebo zaměřené jemné mapování oblasti zájmu. V ideálním případě by tedy bylo žádoucí, aby algoritmy dělení bloků souhlasily s těmito klíčovými rysy. Z našeho srovnání lze vidět, že různé metody a frekvence markerových alel poskytují velmi odlišné výsledky.

jak lze tyto rozdíly mezi metodami vysvětlit? Pokud si člověk myslí, že haplotypové bloky jsou pěkně vymezené genomové oblasti s nízkou rozmanitostí přerušené rekombinačními horkými místy, byl by veden k domněnce, že různé blokovací algoritmy by měly detekovat podobný počet bloků a označit SNP. Reálná situace se však zdá být složitější. Lokalizované rozdíly v rekombinaci byly předpokládány jako primární síla za haplotypovou blokovou strukturou genomu (2,5,18). Tato hypotéza byla podpořena studiemi LD s vysokým rozlišením, následovanými odhadem rekombinačních frekvencí u spermií (19,20): oblasti rozpadu LD v úsecích silného LD dokonale odpovídaly rekombinačním horkým místům. Nicméně představa, že taková horká místa jsou nutná k vysvětlení struktury bloku, byla nedávno zpochybněna. Studie Phillips et al. (13) naznačuje, že haplotypové bloky mohou vzniknout jinými faktory než rekombinací, jako je přirozený výběr, úzká místa v populaci, příměs populace, volba rozestupu markerů a frekvence alel. V simulační studii Zhang et al. (21) ukázalo, že haplotypové bloky byly pozorovány i při absenci rekombinačních horkých míst nebo nedávných úzkých míst populace. Kromě toho bylo také prokázáno, že genetický drift generuje blokové vzorce. Tím pádem, autoři varovali před jakoukoli globální použitelností mapy haplotypu, dokud nebyly provedeny studie u více etnických skupin. Stumpf a Goldstein (22) dospěli k podobnému závěru. Ve světle těchto nejistot, pokud jde o základní evoluční procesy, Schwartz et al. (12) dospěl k závěru, že rozdíly mezi metodami lze považovat za přímý důsledek nedokonalé povahy blokové koncepce.

hlavním cílem této studie bylo posoudit dopad frekvencí malých alel (q) na výsledek algoritmů dělení. Z literatury můžeme vidět, že existují velké rozdíly v odhadech počtu tagů SNP potřebných pro mapu haplotypů v celém genomu (2,5,9). Kromě skutečnosti, že všechny tyto odhady jsou odvozeny pomocí různých algoritmů, jeden problém je velmi přehlížen: rozsah q reprezentovaný v příslušných vzorcích. Daly et al. (2) použité SNP s q>0,05, Patil et al. (9) zahrnovaly pouze SNP s q>0,1 a Gabriel et al. (5) aplikoval ještě vyšší práh q>0,2.

pokud je nám známo, dopad q na algoritmy dělení bloků nebyl formálně řešen. Z našich údajů je patrné, že počet identifikovaných bloků a tagů SNP silně závisí na prahových hodnotách pro q: čím nižší je práh, tím vyšší jsou počty tagů SNP. Bylo namítnuto, že vytváření mapy haplotypů může „ignorovat SNP nebo haplotypy s menšími frekvencemi alely 10 nebo 20% nebo méně“, protože vzácné kauzativní polymorfismy se „obvykle vyskytují na jedné nebo několika běžných páteřích haplotypu“ (23). Na základě našich údajů se domníváme, že takový přístup může být riskantní. Běžné haplotypové bloky nemusí automaticky zahrnovat méně běžné varianty. Například LD v haplotypovém bloku nemusí být kompletní, protože i uvnitř bloku se LD může rozpadat s fyzickou vzdáleností (24). I při scénáři úplného LD nemusí vysokofrekvenční tag SNP nutně zachytit vzácné varianty, zejména v menších velikostech vzorků (25,26).

chtěli bychom zdůraznit, že identifikace tagů SNP pro DPA je úzce spojena s vymezením haplotypových bloků. To je nutný důsledek definování tagů SNP na základě haplotypového bloku, ke kterému patří. U metody LD tomu tak není. Ve skutečnosti, Gabriel a kol. (5) neposkytl algoritmus pro definici tagů SNP, ale zaměřil se výhradně na haplotypové bloky. Abychom umožnili srovnání mezi metodami, použili jsme definici tagu SNP z DPA k určení SNP označujících haplotypy v blocích identifikovaných metodou LD. Identifikace tagů SNP však nemusí nutně záviset na předchozí identifikaci haploytpe bloků. V případě dobře definované a fyzicky malé pozorovací jednotky, např. genu, lze SNP značky dobře identifikovat bez předchozího stanovení haplotypových bloků, jak prokázali Johnson et al. (6). Takový algoritmus však nelze přímo aplikovat na velmi dlouhé oblasti, protože všechny haplotypy budou jedinečné. Nedávno, Meng a kol. (27) zavedl přístup k definování tagů SNP nezávisle na haplotypových blocích pomocí algoritmu založeného na posuvném okně. Další studie jsou potřebné k porovnání užitečnosti tag SNP identifikovaných pomocí různých algoritmů pro asociační studie.

domníváme se, že je problematické omezit generování haplotypových map na vysokofrekvenční SNP. Takový přístup může vést k menšímu počtu a větším blokům a nižšímu úsilí o genotypizaci. To však může přijít za cenu uměle řídkých map, které dostatečně charakterizují genomickou strukturu (13,17).

naše studie byla zaměřena na vyhodnocení dopadu metod, parametrů a frekvencí alel na výsledek dělení bloků. Vzhledem k tomu, že jsme pro naše Srovnání zvolili pouze dvě metody, mohou být naše závěry omezené a nepřenosné na jiné algoritmy. Většina existujících metod je však vzájemně propojena. Proto jsme se rozhodli zvážit dvě metody, které se liší v klíčových principech a mají tendenci pokrývat rozsah společných přístupů. Dále jsme vybrali tři chromozomální oblasti, abychom otestovali výkon metod na různých genomových pozadích (tj.

naše data ukazují, že výpočetní identifikace haplotypových bloků zůstává závislá na algoritmu a citlivá na frekvenci alel. V současné době nelze žádný algoritmus považovat za definitivní. Tyto algoritmy byly vyvinuty na základě různých cílů. Hlavním cílem DPA je minimalizovat úsilí o genotypizaci pomocí tag SNP pro asociační studie; haplotypové bloky byly použity jako nástroj k dosažení tohoto cíle. Na druhé straně cíl Gabriel et al. (5) bylo identifikovat vysoké LD oblasti pomocí haplotypových bloků; pro blokový oddíl nebyly použity žádné SNP značek. V závislosti na účelu studie by měly být použity různé algoritmy blokových oddílů. V tomto ohledu může být pro vytvoření obecné mapy haplotypu a tagu SNP nutné použít několik algoritmů paralelně, aby bylo možné držet krok s ambicemi univerzálnosti. V současné fázi není možné říci, že jakýkoli algoritmus bude dodávat haplotypové bloky „pro všechny účely“ nebo tag SNP. Interpretace těchto vlastností musí být v mezích konkrétního použitého algoritmu a účelu dané studie. Mapa haplotypů pro všechny účely a sada značek SNP nemusí existovat. Vzhledem k tomu, že „naše chápání vzorců rekombinace a nerovnováhy v genomu je stále omezené „a že“ pojem diskrétních bloků se pravděpodobně ukáže jako příliš rigidní na to, aby odpovídal složitosti nerovnováhy vazeb “ (28), budoucí studie se budou muset zabývat otázkou, zda bychom se měli zaměřit na přístupy, které popisují globální genomickou organizaci LD (tj. mapy identifikující bloky haplotypů), nebo spíše vyvinout algoritmy, které identifikují SNP tagů nezávisle na konceptu haplotypových bloků.

materiály a metody

chromozomální oblasti a studované vzorky

provedli jsme naše analýzy s údaji odvozenými ze tří chromozomálních oblastí na chromozomech 18q21. 32-33, 22q13. 31-32 a 22q13. 33, každý plně sekvenovaný a charakterizovaný SNP.

oblast na chromozomu 18 se skládá ze 180 kb kontigu hotové sekvence, kterou jsme charakterizovali 33 SNP při střední hustotě ∼5 kb (seznam použitých SNP viz doplňkový materiál, 1). Genotypizace byla provedena u 50 nesouvisejících zakladatelů z Utahské a francouzské Ceph rodokmenové sbírky (www.cephb.fr; pro postup genotypizace viz níže). Podle sestavení prohlížeče genomu Golden Path UCSC z listopadu 2002 (http://genome.ucsc.edu/cgi-bin/hgGateway) se průměrná rychlost rekombinace v této oblasti odhaduje na 1,3-1,9 cM / Mb a obsah genu je nízký (5,6 genů na Mb, podle stopy „známé“ a „RefSeq“ prohlížeče genomu).

pro dvě oblasti na chromozomu 22 jsme získali veřejně dostupná data z Wellcome Trust Sanger Institute (www.sanger.ac.uk/HGP/Chr22/). Údaje zahrnují 91 jedinců z Velké Británie; charakteristiky vzorku a postupy genotypizace jsou popsány jinde (29). Oblast na chromozomu 22q13. 31-32 sestává z 811 kb charakterizovaných 55 SNP (rs1009783-rs132231)při střední hustotě ∼10 kb. Průměrná rychlost rekombinace leží mezi 2, 5 a 2, 8 cM/Mb, obsah genu je nejnižší ze tří studovaných oblastí (1, 2 genů na Mb, podle stopy „známé“ a „RefSeq“ prohlížeče genomu). Oblast 22q13. 33 se skládá z 993 kb charakterizovaných 54 SNP (rs139777-TSC0100622)při střední hustotě ∼9 kb. Tato oblast vykazuje nejvyšší obsah genů ze tří analyzovaných oblastí (34, 2 genů na Mb, podle stopy „známé“ a „RefSeq“ prohlížeče genomu). Průměrná rychlost rekombinace je velmi nízká.

genotypizace (18q21.32-33)

genotypizace byla provedena za použití inkorporace barvivového terminátoru směřující do šablony s detekcí fluorescenční polarizace (FP-TDI) (30). Podrobný protokol je uveden jinde (31).

Minor alela frekvence (q) prahové hodnoty použité

jedním z našich hlavních zájmů bylo posoudit výkon algoritmů dělení bloků pro různé prahové hodnoty q. proto jsme vytvořili sedm podsouborů SNP z příslušných původních datových sad, s následujícími prahovými hodnotami q progresivním vyloučením SNP s hodnotami q menšími než prahová hodnota: q≥0,01 (tj. původní vzorky včetně všech SNP), q≥0,04, q≥0,1, q≥0,19, q≥0,25, q≥34 a q≥0,41.

výpočet inter-SNP LD

Pairwise inter-SNP LD pro tři regiony, vyjádřený standardizovaným koeficientem LD D ‚ (32), byl vypočítán pomocí volby ldmax ve zlatě (www.sph.umich.edu/csg/abecasis/GOLD/) (33). To používá haplotypové frekvence odhadované algoritmem expectation-maximization (EM) a ukázalo se, že dobře fungují v nefasovaných datech (34,35).

dělení bloků

porovnali jsme výkon dvou hlavních metod pro definování haplotypových bloků, dynamického programovacího algoritmu (dpa) (10) a metody založené na D ‚ (5), od nynějška označované jako metoda LD. Metody jsou podrobně popsány v původních dokumentech a stručně shrnuty níže.

DPA

haplotypy jsou odvozeny pomocí algoritmu em pro ligaci oddílů (36). Následně se DPA aplikuje na rozdělení získaných haplotypů na bloky. Běžné haplotypy jsou definovány jako haplotypy, které jsou zastoupeny více než jednou v bloku. V oddíle konečného bloku je podmnožina po sobě jdoucích SNP blokem pouze tehdy, pokud společné haplotypy představují alespoň α procenta („pokrytí“) všech odhadovaných haplotypů v rámci tohoto bloku. Cílem DPA je minimalizovat počet SNP (tj. tag SNP), které rozlišují alespoň β procenta haplotypů v bloku. Pro naše primární srovnání s metodou LD jsme v souladu s původní studií DPA (10) nastavili α=β=0,80. Pro další posouzení vlivu nastavení parametrů jsme také provedli analýzu DPA pro další hodnoty α a β (0,7, 0,75, 0,85, 0,9 a 0,95)

LD metoda

D‘ hodnoty pro všechny páry SNP byly vypočteny a byla odhadnuta rozptyl (37). Použili jsme upravenou verzi dříve popsané metody LD (5), která nahradila odhady rozptylu založené na bootstrapu normální aproximací. Simulace ukázaly, že tato modifikovaná metoda poskytla podobné intervaly spolehlivosti pro D‘ jako metoda bootstrap s mnohem menším výpočetním časem (38). Páry SNP byly považovány za „silné“ LD, pokud jednostranná horní 95% hranice spolehlivosti na D‘ byla větší než 0,98 a dolní hranice byla větší než 0,7. U párů s horní mezí menší než 0,9 se předpokládalo „nízké“ LD. Haplotypový blok byl poté definován jako oblast, ve které méně než 5% párů SNP vykazovalo nízké hladiny LD.

protože metoda LD neobsahuje algoritmus pro definování tagů SNP, použili jsme stejná kritéria jako v DPA (viz výše).

pro posouzení vlivu nastavení parametrů jsme také provedli analýzu s přísnějšími kritérii („silná“ LD definovaná jako horní hranice na D “ >0.99 a dolní mez >0.75) a s méně přísnými kritérii (horní mez >0.96 a dolní mez >0.65). Podrobná kritéria definice bloků viz doplňkový materiál, 1.

doplňkový materiál

doplňkový materiál je k dispozici na HMG Online.

poděkování

podpořeno granty Národního ústavu duševního zdraví Edwarda F. Nadace Mallinckrodt Jr, Chicago Brain Research Institute a Národní aliance pro výzkum schizofrenie a deprese (Young Investigators Awards to T. G.S. A Y. S. C.). K. Z. A F. S. byly podpořeny grantem Národního zdravotního ústavu (NIH P50 Hg 002790). Vděčně uznáváme pomoc Gonçalo Abecasis při získávání genotypů chromozomu 22 od Institutu Wellcome Trust Sanger Institute.

Obrázek 1. Vliv frekvencí alel. Obrázek znázorňuje vztah mezi zvoleným prahem pro frekvenci menší alely (q) A počtem identifikovaných haplotypových bloků (a) a tagů SNP (B). Výsledky jsou prezentovány jak pro metodu LD, tak pro DPA.

Obrázek 1. Vliv frekvencí alel. Obrázek znázorňuje vztah mezi zvoleným prahem pro frekvenci menší alely (q) A počtem identifikovaných haplotypových bloků (a) a tagů SNP (B). Výsledky jsou prezentovány jak pro metodu LD, tak pro DPA.

Obrázek 2. Vliv změn parametrů. Vztah mezi zvolenými parametry a počtem identifikovaných tagů SNP pro metodu LD a DPA při zvolených prahových hodnotách pro frekvenci menší alely (q). (A–C) DPA, parametr α (=β) se pohyboval mezi 0,7 a 0,95. (D–F) LD-metoda, hranice spolehlivosti na D ‚ byly sníženy a zvýšeny; analýza byla provedena na β-úrovni 0,8.

Obrázek 2. Vliv změn parametrů. Vztah mezi zvolenými parametry a počtem identifikovaných tagů SNP pro metodu LD a DPA při zvolených prahových hodnotách pro frekvenci menší alely (q). (A–C) DPA, parametr α (=β) se pohyboval mezi 0,7 a 0,95. (D–F) LD-metoda, hranice spolehlivosti na D ‚ byly sníženy a zvýšeny; analýza byla provedena na β-úrovni 0,8.

1

Risch, N.(

2000

) hledání genů u komplexních onemocnění: poučení ze systémového lupus erythematodes.

J. Clin. Investovat

,

105

,

1503

-1506.

2

Daly, M. J., Rioux, J. D., Schaffner, s. F., Hudson, T. J. and Lander, E. S.(

2001

) haplotypová struktura s vysokým rozlišením v lidském genomu.

Nat. Genete.

,

29

,

229

–232.

3

Taillon-Miller, P., Bauer-Sardina, i., Saccone, n. L., Putzel, J., Laitinen, T., Cao, a., Kere, J., Pilia, G., Rice, J. P. a Kwok, P. Y. (

2000

) vedle sebe oblasti rozsáhlé a minimální nerovnováhy vazeb v lidských Xq25 a Xq28.

Nat. Genete.

,

25

,

324

–328.

4

Zhang, k., Calabrese, P., Nordborg, m. a Sun, F.(

2002

) Haplotypová bloková struktura a její aplikace pro asociační studie: výkonové a studijní návrhy.

dopoledne. J. Hum. Genete.

,

71

,

1386

–1394.

5

Gabriel, S. B., Schaffner, S. F., Nguyen, H., Moore, J.M., Roy, J., Blumenstiel, B., Higgins, J., DeFelice, m., Lochner, a., Faggart, M. et al. (

2002

) struktura haplotypových bloků v lidském genomu.

věda

,

296

,

2225

-2229.

6

Johnson, G. C., Esposito, L., Barratt, B. J., Smith, a.N., Heward, J., Di Genova, G., Ueda, h., Cordell, H. J., Eaves, I. a., Dudbridge, F. et al. (

2001

) Haplotypové značení pro identifikaci běžných genů onemocnění.

Nat. Genete.

,

29

,

233

–237.

7

Koivisto, m., Perola, m., Varilo, T., Hennah, W., Ekelund, J., Lukk, m., Peltonen, L., Ukkonen, E. a Mannila, h.(

2003

) metoda MDL pro hledání haplotypových bloků a pro odhad pevnosti hranic haplotypových bloků.

Pacific Symposium on Biocomputing

, str.

502

–513.

8

Mannila, h., Koivisto, m., Perola, m., Varilo, T., Hennah, W., Ekelund, J., Lukk, m., Peltonen, L. A Ukkonen, e. (

2003

) Minimální délka popisu vyhledávač bloků, metoda identifikace haplotypových bloků a porovnání síly hranic bloků.

dopoledne. J. Hum. Genete.

,

73

,

86

–94.

9

Patil, N., Berno, a. J., Hinds, D. a., Barrett, W. a., Doshi, J. M., Hacker, C. R., Kautzer, C. R., Lee, D. H., Marjoribanks, C., McDonough, D. P. et al. (

2001

) bloky omezené rozmanitosti haplotypů odhalené skenováním lidského chromozomu s vysokým rozlišením 21.

věda

,

294

,

1719

-1723.

10

Zhang, k., Deng, m., Chen, T., Waterman, M. S. A Sun, F.(

2002

) dynamický programovací algoritmus pro dělení haplotypových bloků.

Proc. Natl Acad. Věda. USA

,

99

,

7335

-7339.

11

Čang, K. a Ťin, L.(

2003

) HaploBlockFinder: haplotyp blokové analýzy.

bioinformatika

,

19

,

1300

-1301.

12

Schwartz, v., Halldorsson, B. v., Bafna, v., Clark, a. G. and Istrail, s.(

2003

) robustnost odvození haplotypové blokové struktury.

J. Biol.

,

10

,

13

–19.

13

Phillips, M. S., Lawrence, R., Sachidanandam, R., Morris, A. P., Balding, D. J., Donaldson, m. a., Studebaker, J. F., Ankener, W. m., Alfisi, s. v., Kuo, F. S. et al. (

2003

) chromozomální distribuce haplotypových bloků a role rekombinačních horkých míst.

Nat. Genete.

,

33

,

382

–387.

14

Zhang, W., Collins, a., Maniatis, N., Tapper, W. a Morton, N. E.(

2002

) vlastnosti vazebných nerovnovážných (LD) map.

Proc. Natl Acad. Věda. USA

,

99

,

17004

-17007.

15

Zhang, k., Sun, F., Waterman, M. S. A Chen, T. (

2003

) Haplotypový blok s omezenými zdroji a aplikacemi na lidský chromozom 21 haplotypová data.

dopoledne. J. Hum. Genete.

,

73

,

63

–73.

16

Collins, F. S. A Green, E. D.(

2003

) vize budoucnosti výzkumu genomiky.

Příroda

,

422

,

835

-847.

17

Carlson, C. S., Eberle, m. a., Rieder, M. J., Smith, J. D., Kruglyak, L. A Nickerson, D. a. (

2003

) další SNP a analýzy vazebně-nerovnováhy jsou nezbytné pro studie asociace celého genomu u lidí.

Nat. Genete.

,

33

,

518

–521.

18

Goldstein, D. B.(

2001

) ostrovy nerovnováhy vazeb.

Nat. Genete.

,

29

,

109

–111.

19

Jeffreys, a. J., Kauppi, L. a Neumann, R. (

2001

) intenzivně interpunkční meiotická rekombinace v oblasti třídy II hlavního histokompatibilního komplexu.

Nat. Genete.

,

29

,

217

–222.

20

Jeffreys, a. J., Ritchie, a. a Neumann, R.(

2000

) analýza diverzity haplotypů a meiotického crossoveru s vysokým rozlišením v rekombinačním hotspotu člověka TAP2.

hučení. Molo. Genete.

,

9

,

725

–733.

21

Čang, K., Akey, J. M., Wang, N., Xiong, m., Chakraborty, R. a Jin, L.(

2003

) náhodně distribuované přechody mohou generovat blokové vzorce nerovnováhy vazeb: akt genetického driftu.

hučení. Genet

,

113

,

51

-59.

22

Stumpf, M. P. a Goldstein, D. B.(

2003

) demografie, intenzita rekombinačního hotspotu a bloková struktura nerovnováhy vazeb.

Obr. Biol.

,

13

,

1

–8.

23

Judson, R., Salisbury, B., Schneider, J., Windemuth, A. and Stephens, J. C.(

2002

) kolik SNP vyžaduje mapa haplotypů v celém genomu?

Farmakogenomika

,

3

,

379

-391.

24

Shifman, s., Kuypers, J., Kokoris, m., Yakir, B. a Darvasi, a.(

2003

) vazebné nerovnovážné vzorce lidského genomu napříč populacemi.

hučení. Molo. Genete.

,

12

,

771

–776.

25

Risch, N. A Merikangas, k. (

1996

) budoucnost genetických studií komplexních lidských chorob.

věda

,

273

,

1516

-1517.

26

McGinnis, R., Shifman, s. a Darvasi, a.(

2002

) výkon a účinnost návrhu TDT a case-control pro asociační skenování.

Behav. Genete.

,

32

,

135

–144.

27

Meng, z., Zaykin, D. v., Xu, C. F., Wagner, m. a Ehm, M. G. (

2003

) výběr genetických markerů pro asociační analýzy, pomocí vazebné nerovnováhy a haplotypů.

dopoledne. J. Hum. Genete.

,

73

,

115

–130.

28

Cardon, L. R. and Abecasis, G. R.(

2003

) použití haplotypových bloků k mapování lidských komplexních vlastností loci.

Trendy Genet.

,

19

,

135

–140.

29

Dawson, E., Abecasis, G. R., Bumpstead, S., Chen, Y., Hunt, S., Beare, D. M., Pabial, J., Dibling, T., Tinsley, e., Kirby, s. et al. (

2002

) mapa nerovnováhy vazby první generace lidského chromozomu 22.

Příroda

,

418

,

544

-548.

30

Chen, X., Levine, L. A Kwok, P. Y.(

1999

) fluorescenční polarizace v analýze homogenních nukleových kyselin.

Genom Res.

,

9

,

492

-498.

31

Akula, N., Chen, Y. S., Hennessy, k., Schulze, T. G., Singh, G. and McMahon, F. J. (

2002

) užitečnost a přesnost inkorporace barvivového terminátoru zaměřeného na šablonu s detekcí fluorescenční polarizace pro genotypizaci jednonukleotidových polymorfismů.

biotechnologie

,

32

,

1072

-1076.

32

Lewontin, R. C.(

1964

) interakce výběru a vazby. I. obecné úvahy; heterotické modely.

genetika

,

49

,

49

-67.

33

Abecasis, G. R. and Cookson, W. O. (

2000

) GOLD-grafický přehled nerovnováhy vazeb.

bioinformatika

,

16

,

182

-183.

34

Dempster, a. P., Laird, N. M. and Rubin, D. B.(

1977

) maximální pravděpodobnost z neúplných dat pomocí algoritmu EM.

J. R.Stat. SOC., Sere. B

,

39

,

1

-38.

35

Excoffier, L. a Slatkin, m. (

1995

) Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population.

Mol. Biol. Evol.

,

12

,

921

–927.

36

Qin, Z.S., Niu, T. and Liu, J.S. (

2002

) Partition–ligation expectation-maximization algorithm for haplotype inference with single-nucleotide polymorphisms.

Am. J. Hum. Genet

,

71

,

1242

–1247.

37

Zapata, C., Alvarez, G. and Carollo, C. (

1997

) přibližná odchylka standardizované míry gametické nerovnováhy D‘.

dopoledne. J. Hum. Genete.

,

61

,

771

–774.

38

Kim, S. K., Čang, K. a Sun, F.(

2004

) porovnání různých strategií pro výpočet intervalů spolehlivosti měření nerovnováhy vazeb D‘.

tichomořské sympozium o Biokomputaci

(v tisku).

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.