definition af haplotype-blokke og tag-enkeltnukleotidpolymorfier i det humane genom

abstrakt

nylige undersøgelser antyder, at genomet er organiseret i blokke af haplotyper, og bestræbelser på at skabe et genom-bredt haplotype-kort over enkeltnukleotidpolymorfier (SNP ‘ er) er allerede i gang. Haplotype blokke er defineret algoritmisk og til dato flere algoritmer er blevet foreslået. Imidlertid vides der lidt om deres relative ydeevne i reelle data eller om virkningen af allelfrekvenser og parametervalg på påvisning af haplotype-blokke og markørerne, der mærker dem. Her præsenterer vi en formel sammenligning af to hovedalgoritmer, en koblingsuligevægt (LD)-baseret metode og en dynamisk programmeringsalgoritme (DPA) i tre kromosomale regioner, der adskiller sig i genindhold og rekombinationshastighed. De to metoder gav påfaldende forskellige resultater. DPA identificerede færre og større haplotype-blokke såvel som et mindre sæt tag-SNP ‘ er end ld-metoden. For begge metoder var resultaterne stærkt afhængige af allelfrekvensen. Faldende mindre allelfrekvens førte til en op til 3,7 gange stigning i antallet af haplotype blokke og tag SNP ‘ er. Definition af haplotpe-blokke og tag-SNP ‘ er var også følsom over for parameterændringer, men resultaterne kunne ikke afstemmes blot ved parameterjustering. Disse resultater viser, at to hovedmetoder til påvisning af haplotype-blokke og tag-SNP ‘ er kan producere forskellige resultater i de samme data, og at disse resultater er følsomme over for markørallelfrekvenser og parametervalg. Mere information er nødvendig for at styre valget af metode, markørallelfrekvenser og parametre i udviklingen af et haplotype-kort.

introduktion

kortlægning af helgenombindingsuligevægt (LD) er blevet foreslået som et kraftfuldt værktøj til at detektere følsomhedsgener for komplekse træk (1). Nylige undersøgelser tyder på, at det menneskelige genom er organiseret i blokke af haplotyper (2,3). Man håber, at denne genomiske arkitektur kan lette genom-dækkende ld-kortlægning ved at begrænse antallet af enkeltnukleotidpolymorfier (SNP ‘er), der skal skrives til de SNP’ er, der forklarer eller ‘tagger’ haplotypemønsteret tilstrækkeligt (4).

en række forskellige algoritmer er blevet foreslået til at identificere haplotype blokke og tag SNP ‘ er (2,5–11). Imidlertid vides der lidt om den relative ydeevne af disse forskellige metoder i reelle data. Hvad er forskellene mellem de forskellige algoritmer? Kommer alle metoder til de samme konklusioner, det vil sige, identificerer de de samme eller i det mindste lignende haplotpe-blokke og tag SNP ‘ er? Hvordan løser man uenighed mellem metoder? For nylig, Schvarts et al. (12) vurderede overlapningen af blokgrænser tildelt af forskellige algoritmer. De fandt en ‘generelt dårlig aftale mellem blokgrænser afledt af forskellige’ algoritmer, hvilket var mere udtalt i små prøver. En anden undersøgelse viste, at markørafstand påvirker den forudsagte længde af haplotype-blokke i en evolutionær modelleringsanalyse (13). Det er også vist, at størrelsen af haplotype-blokke er algoritmeafhængig (14). Der mangler stadig undersøgelser, der formelt studerer udførelsen af forskellige algoritmer i de samme datasæt, og ingen undersøgelse har vurderet virkningen af parameterindstillinger eller allelfrekvenser.

her præsenterer vi en formel sammenligning af to hovedmetoder til definition af haplotype-blokke, den LD-baserede metode foreslået af Gabriel et al. (5) og den dynamiske programmeringsalgoritme (DPA) udviklet af Jang et al. (10). I modsætning til tidligere undersøgelser sammenlignede vi antallet af haplotpe-blokke og tag-SNP ‘ er identificeret ved hver metode, da disse variabler er kritiske i tilknytningskortlægning. Vi begrænser ikke vores Analyse til en vilkårligt valgt mindre allelfrekvens (k) tærskel, men udfører analysen for forskellige værdier af K for at belyse virkningen af allelfrekvens på resultaterne. Endelig undersøger vi virkningen af parameterændringer på blokpartitioneringen. For at øge generaliseringen af vores undersøgelse valgte vi tre fuldt sekventerede kromosomale regioner, der adskiller sig i deres gennemsnitlige rekombinationshastigheder og genindhold: 18k21.32-33 (180 kb), genotypet med 33 SNP ‘er hos 50 individer (Ceph-grundlæggere); 22k13.31-32 (811 kb), genotypet med 55 SNP’ er hos 91 individer (data opnået fra velkomment Trust Sanger Institute); og 22k13.33 (Ceph-stiftere); 993 KB), genotypet med 54 SNP ‘ er i de samme 91 individer. Vi fandt ud af, at de to metoder gav forskellige resultater. DPA-metoden identificerede konsekvent færre, større haplotype-blokke samt færre Tag-SNP ‘ er end LD-metoden. For begge metoder var identifikationen af haplotype-blokke og tag-SNP ‘ er meget følsom over for markørallelfrekvens. Begge metoder var følsomme over for parametervalg, men ld-metoden var mindre følsom i denne henseende end DPA-metoden. Parameterjustering alene forbedrede ikke aftalen mellem metoderne væsentligt. Disse resultater viser, at to hovedmetoder til påvisning af haplotype-kort og tag-SNP ‘ er kan producere forskellige resultater i de samme data, og at disse resultater er følsomme over for markørallelfrekvenser og parametervalg.

resultater

forskellige mønstre af LD for hver af de tre regioner (supplerende materiale, Fig. 1)

mønstre af parvis LD varierede mellem de tre undersøgte regioner. På 22k13.33 kan højere og mere udvidede niveauer af LD (middel D’=0,35) ses end i naboregionen på 22k13.31-32 (middel D’=0.27), som er i overensstemmelse med de kendte forskelle i rekombination. Denne forskel i LD gælder også, når man sammenligner delmængderne med højere k-tærskler. Regionen på 18k22 viste udvidede og stærke niveauer af LD (middel D’=0,58). De supplerende data Figur 1 viser den samlede LD-fordeling for de tre undersøgte regioner for de forskellige K-tærskler.

DPA identificerer færre haplotype-blokke og tag-SNP ‘ er end ld-metoden (Fig. 1)

resultaterne af haplotype blok partitionering og identifikation af tag SNP ‘ er ved begge algoritmer er illustreret i Figur 1. Detaljerede resultater, herunder den nøjagtige blokpartitionering og den fysiske længde af haplotypeblokkene, præsenteres i det supplerende materiale, 2-7. Fra de detaljerede blokpartitioneringsresultater kan man se, at vi ikke begrænser udtrykket ‘blok’ til en genomisk strækning, der omfatter mindst to SNP ‘ er: en blok kan også repræsenteres af en enkelt SNP.

for alle regioner og alle niveauer af spørgsmål identificerede DPA konsekvent færre haplotype-blokke og tag-SNP ‘ er end LD-metoden. For eksempel på kromosom 18k21.32-33, ved k-0.01, DPA opdagede seks haplotype-blokke, mærket af 11 SNP ‘er, mens ld-metoden identificerede 19 blokke og 15 Tag SNP’ er. Følgelig er haplotype-blokke kaldet af DPA større end dem, der kaldes af LD-metoden. For eksempel identificerede DPA på kromosom 18k21.32-33 ved KP 0,01 blokke mellem 4,9 og 77,6 kb lange sammenlignet med et interval på 0,8–26,4 kb for LD-metoden.

Blokpartitionering afhænger kritisk af markørallelfrekvenser (Fig. 1)

for begge metoder afhang blokpartitioneringen og identifikationen af tag-SNP ‘ er af den anvendte k-tærskel. Stigende spørgsmål ved gradvist at udelade sjældnere SNP ‘er fra de originale datasæt førte til et fald i antallet af identificerede haplotype-blokke og tag-SNP’ er. Haplotypeblokke faldt støt over intervallet 0,01 til 0,41. Antallet af tag-SNP ‘ er forblev stabilt over området k-0,01 til K-0,19, faldende stejlt efter K=0,2 (Fig. 1 og supplerende materiale, 2-7).

identifikation af haplotype blokke og tag SNP ‘ er er følsom over for nøgleparametre (supplerende materiale 1-7, Fig. 2)

Variation af nøgleparametre påvirkede resultaterne af begge metoder. For alle tre kromosomale regioner steg antallet af tag–SNP ‘ er identificeret af DPA med stigende niveauer af KRP (=KRP) (figur 2A-C og supplerende materiale, 2-4). Antallet af identificerede haplotypeblokke afhang også af niveauerne af Kris; imidlertid kan et monotont forhold ikke skelnes (supplerende materiale, 2-4). LD-metoden viste sig at være ret ufølsom over for ændringer i tærskler for konfidensgrænserne. For regionen på 18K blev de samme resultater opnået både for de sænkede og hævede tærskler. For de to regioner på kromosom 22 varierede antallet af haplotype-blokke og tag-SNP ‘ er lidt mellem henholdsvis standard, hævet og sænket tærskler (supplerende materiale, 5-7). Ingen konfiguration af parametre, Vi testede, kunne forene forskellene i resultater mellem de to metoder.

diskussion

den algoritmiske detektion af haplotype-blokke er et værktøj til at strømline genotypeindsatsen på en systematisk og effektiv måde (15). I betragtning af den betydning, som haplotype-blokpartitioneringsalgoritmer menes at have for genom-dækkende associeringskortlægning, vi ønskede at tage fat på nogle praktiske, men afgørende spørgsmål, der hidtil ikke er blevet behandlet tilstrækkeligt. Hvordan sammenligner forskellige algoritmer med hensyn til identifikation af haplotype-blokke og tag-SNP ‘ er? Hvilken indflydelse har valget af markørallelfrekvens på blokpartitioneringen? Hvor følsomme er resultaterne for ændringer i parameterindstillingerne? Vi sammenlignede to hovedmetoder til haplotype-blokpartitionering i tre regioner af det humane genom, der adskiller sig i deres mønstre af LD og genindhold. For alle tre regioner observerede vi, at DPA konsekvent identificerede færre haplotype-blokke og tag-SNP ‘ er end ld-metoden. Desuden var identifikationen af blokke og tag-SNP ‘ er kritisk afhængig af den mindre allelfrekvens. Ingen af metoderne var fuldstændig ufølsomme over for parametervalg, men resultaterne kunne ikke afstemmes blot ved parameterjustering.

det er blevet foreslået, at genom-dækkende associeringsundersøgelser kunne udføres på en systematisk måde ved at anvende et reduceret sæt markører, der mærker de største haplotyper (16). Dette forslag følger af observationen, at genomet tilsyneladende er organiseret i blokke af haplotyper (2,3). Talrige metoder til at identificere disse blokke algoritmisk er blevet foreslået (2,5-11). Der er stadig mange usikkerheder (17).

de to store blokpartitioneringsalgoritmer, vi studerede, opførte sig meget forskelligt i identifikationen af haplotype-blokke og tag-SNP ‘ er. Dette er ikke kun et problem med kalibrering. Vores resultater viser, at disse væsentlige forskelle ikke kunne afhjælpes ved at justere parametre. Desuden var forskellene ikke kun begrænset til en kromosomal region, men var tydelige i hver af tre regioner, der adskiller sig i deres samlede rekombinationshastigheder og genindhold.

de absolutte forskelle i antallet af tag-SNP ‘ er for vores små studieområder synes måske ikke store. Imidlertid, på et genom-bredt niveau, de kan udgøre mere væsentlige forskelle i antallet af tag-SNP ‘ er, der skal genotypes.

identifikationen af tag SNP ‘ er er beregnet til at give en ide om den genotypeindsats, der er nødvendig for at dække en region eller hele genomet tilstrækkeligt, mens identifikationen af haplotypeblokke kan give os en ide om, hvor meget af genomet der er blevet samplet. Begge er lige så vigtige, når man sigter mod helgenomforeningskortlægning eller fokuseret finkortlægning af en region af interesse. Således ville man ideelt set have blokpartitioneringsalgoritmer til at blive enige i disse vigtige funktioner. Fra vores sammenligning kan man se, at forskellige metoder og markørallelfrekvenser giver meget forskellige resultater.

Hvordan kan disse forskelle på tværs af metoder forklares? Hvis man tænker på haplotype-blokke som pænt afgrænsede genomiske regioner med lav mangfoldighed afbrudt af rekombinationelle hot spots, ville man blive ført til at tro, at forskellige blokeringsalgoritmer skulle registrere lignende antal blokke og tag SNP ‘ er. Den virkelige situation ser imidlertid ud til at være mere kompleks. Lokaliserede forskelle i rekombination er blevet antaget at være den primære kraft bag genomets haplotype-blokstruktur (2,5,18). Denne hypotese blev understøttet af LD-undersøgelser med høj opløsning efterfulgt af estimering af rekombinationsfrekvenser i sædceller (19,20): områder med LD-nedbrydning inden for strækninger med stærk LD svarede perfekt til rekombination hot spots. Imidlertid, forestillingen om, at sådanne hot spots er nødvendige for at forklare blokstrukturen, er for nylig blevet udfordret. Undersøgelsen af Phillips et al. (13) antyder, at haplotypeblokke kan opstå af andre faktorer end rekombination, såsom naturlig selektion, befolkningsflaskehalse, befolkningsblanding, valg af markørafstand og allelfrekvenser. I en simuleringsundersøgelse, Jang et al. (21) viste, at der blev observeret haplotypeblokke, selv i fravær af rekombinationshotspots eller nylige flaskehalse i befolkningen. Desuden blev genetisk drift også vist at generere bloklignende mønstre. Således advarede forfatterne mod enhver global anvendelighed af haplotype-kortet, indtil undersøgelser var blevet udført i flere etniske grupper. Stumpf og Goldstein (22) nåede til en lignende konklusion. I lyset af disse usikkerheder med hensyn til de underliggende evolutionære processer, Schvarts et al. (12) konkludere, at forskelle mellem metoder kan betragtes som en direkte konsekvens af blokbegrebets ufuldkomne karakter.

et stort fokus i denne undersøgelse var at vurdere virkningen af de mindre allelfrekvenser (K) på resultatet af partitioneringsalgoritmerne. Fra litteraturen kan vi se, at der er store uoverensstemmelser i estimaterne af antallet af tag-SNP ‘ er, der kræves til et genom-bredt haplotype-kort (2,5,9). Bortset fra det faktum, at alle disse estimater er afledt gennem forskellige algoritmer, et problem overses meget: i de respektive prøver. Daly et al. (2) brugte SNP ‘ er med>0,05, Patil et al. (9) inkluderede kun SNP ‘ er med>0,1 og Gabriel et al. (5) anvendt en endnu højere tærskel på>0,2.

så vidt vi ved, er virkningen af K på blokpartitioneringsalgoritmer ikke blevet behandlet formelt. Fra vores data kan det ses, at antallet af blokke og tag-SNP ‘er, der er identificeret, afhænger stærkt af tærsklerne for spørgsmål: jo lavere tærskel, jo højere er antallet af tag-SNP’ er. Det er blevet hævdet, at genereringen af et haplotype-kort kan ‘ignorere SNP’ er eller haplotyper med mindre allelfrekvenser på 10 eller 20% eller mindre’, da sjældne årsagspolymorfier’ har tendens til at findes på en eller nogle få almindelige haplotype-rygrad ‘ (23). Baseret på vores data mener vi, at en sådan tilgang kan være risikabel. Almindelige haplotype-blokke omfatter muligvis ikke automatisk mindre almindelige varianter. For eksempel er LD inden for en haplotype-blok muligvis ikke komplet, da selv inden for en blok kan ld henfalde med fysisk afstand (24). Selv under scenariet med komplet LD kan højfrekvente Tag-SNP ‘ er muligvis ikke nødvendigvis fange sjældne varianter, især i mindre stikprøvestørrelser (25,26).

vi vil gerne påpege, at identifikationen af tag SNP ‘ er til DPA er tæt knyttet til afgrænsning af haplotype blokke. Dette er en nødvendig konsekvens af at definere tag SNP ‘ er baseret på den haplotype-blok, som de tilhører. For LD-metoden er dette ikke tilfældet. Faktisk, Gabriel et al. (5) leverede ikke en algoritme til definitionen af tag SNP ‘ er, men fokuserede udelukkende på haplotype-blokke. For at muliggøre en sammenligning mellem metoderne brugte vi tag-SNP-definitionen fra DPA til at bestemme SNP ‘ erne, der taggede haplotyperne i de blokke, der blev identificeret ved LD-metoden. Imidlertid, identifikationen af tag SNP ‘ er er ikke nødvendigvis betinget af en forudgående identifikation af haplotpe-blokke. I tilfælde af en veldefineret og fysisk lille observationsenhed, f.eks. et gen, kan tag SNP ‘ er meget vel identificeres uden en forudgående bestemmelse af haplotypeblokke, som demonstreret af Johnson et al. (6). En sådan algoritme kan imidlertid ikke anvendes direkte på meget lange regioner, da alle haplotyper vil være unikke. For nylig, Meng et al. (27) indført en tilgang til at definere tag SNP ‘ er uafhængigt af haplotype-blokke ved hjælp af en glidende vinduesbaseret algoritme. Yderligere undersøgelser er nødvendige for at sammenligne nytten af tag SNP ‘ er identificeret ved hjælp af forskellige algoritmer til associeringsundersøgelser.

vi mener, at det er problematisk at begrænse genereringen af haplotype-kort til højfrekvente SNP ‘ er. En sådan tilgang kan føre til færre og større blokke og lavere genotypebestemmelser. Dette kan dog komme på bekostning af kunstigt sparsomme kort, der ikke karakteriserer den genomiske struktur tilstrækkeligt (13,17).

vores undersøgelse havde til formål at evaluere virkningen af metoder, parametre og allelfrekvenser på resultatet af blokpartitioneringen. Da vi kun valgte to metoder til vores sammenligning, kan vores konklusioner være begrænsede og ikke overføres til andre algoritmer. Imidlertid er de fleste af de eksisterende metoder relateret til hinanden. Således besluttede vi at overveje to metoder, der adskiller sig i nøgleprincipper og har tendens til at spænde over rækkevidden af fælles tilgange. Desuden valgte vi tre kromosomale regioner til at teste præstationen af metoderne på forskellige genomiske baggrunde (dvs.rekombinationshastighed, genindhold).

vores data viser, at beregningsidentifikationen af haplotype-blokke forbliver algoritmeafhængig og følsom over for allelfrekvens. På nuværende tidspunkt kan ingen algoritme betragtes som endelig. Disse algoritmer blev udviklet på baggrund af forskellige mål. Hovedformålet med DPA er at minimere genotypeindsatsen ved hjælp af tag SNP ‘ er til associeringsundersøgelser; haplotype blokke blev brugt som et redskab til at nå dette mål. På den anden side målet med Gabriel et al. (5) var at identificere høje ld-regioner ved hjælp af haplotype-blokke; ingen tag-SNP ‘ er blev brugt til blokpartition. Afhængigt af formålet med en undersøgelse skal forskellige blokpartitionsalgoritmer anvendes. I denne henseende kan oprettelsen af et generelt haplotype-og tag-SNP-kort muligvis bruge flere algoritmer parallelt for at holde trit med dets ambitioner om universalitet. På nuværende tidspunkt er det ikke muligt at sige, at nogen algoritme vil levere ‘alle formål’ haplotype blokke eller tag SNP ‘ er. Fortolkningen af sådanne træk skal være inden for rammerne af den anvendte specifikke algoritme og formålet med en given undersøgelse. Et’ all-purpose ‘ haplotype blok kort og tag SNP sæt findes muligvis ikke. I betragtning af at ‘vores forståelse af mønstre for rekombination og uligevægt i genomet stadig er begrænset’, og at ‘forestillingen om diskrete blokke sandsynligvis vil vise sig at være for stiv til at tage højde for kompleksiteten af koblingsuligevægt’ (28), skal fremtidige undersøgelser tage fat på spørgsmålet om, hvorvidt vi skal fokusere på tilgange, der beskriver den globale genomiske organisation af LD (dvs.kort, der identificerer blokke af haplotyper) eller snarere udvikle algoritmer, der identificerer Tag SNP ‘ er uafhængigt af haplotype-blokbegrebet.

materialer og metoder

kromosomale regioner og prøver undersøgt

vi udførte vores analyser med data afledt af tre kromosomale regioner på kromosomer 18k21.32-33, 22k13.31-32 og 22k13.33, hver fuldt sekventeret og karakteriseret med SNP ‘ er.

regionen på kromosom 18 består af en 180 kb contig af færdig sekvens, som vi karakteriserede med 33 SNP ‘er ved en mediantæthed på 5 kb (for en liste over de anvendte SNP’ er, Se supplerende materiale, 1). Genotypebestemmelse blev udført i 50 uafhængige grundlægger individer fra Utah og fransk Ceph stamtavle samling (www.cephb.fr; for genotypeprocedure, se nedenfor). I henhold til Nov 2002–opbygningen af Golden Path UCSC-Genomsøgeren (http://genome.ucsc.edu/cgi-bin/hgGateway) estimeres den gennemsnitlige rekombinationshastighed i denne region til 1,3-1,9 cM/Mb, og genindholdet er lavt (5,6 gener pr.

for de to regioner på kromosom 22 opnåede vi offentligt tilgængelige data fra velkomment tillid Sanger Institute (www.sanger.ac.uk/HGP/Chr22/). Dataene omfatter 91 personer fra Storbritannien; prøveegenskaber og genotypeprocedurer er beskrevet andetsteds (29). Regionen på kromosom 22k13.31-32 består af 811 kb karakteriseret med 55 SNP ‘ er (rs1009783–rs132231) ved en gennemsnitlig massefylde på 10 kb. Den gennemsnitlige rekombinationshastighed ligger mellem 2,5 og 2,8 cM/Mb, genindholdet er det laveste af de tre undersøgte regioner (1,2 gener pr. Regionen 22k13.33 består af 993 kb karakteriseret med 54 SNP ‘ er (rs139777–TSC0100622) ved en median massefylde på 9 kb. Denne region viser det højeste genindhold i de tre analyserede regioner (34,2 gener pr. Den gennemsnitlige rekombinationshastighed er meget lav.

genotypebestemmelse (18k21. 32-33)

genotypebestemmelse blev udført under anvendelse af skabelon-rettet farvestof-terminator inkorporering med fluorescens-polarisationsdetektion (FP-TDI) (30). En detaljeret protokol præsenteres andetsteds (31).

Mindre allel frekvens (q) tærskler, der anvendes

En af vores primære interesse var at vurdere effektiviteten af den blok, partitionering algoritmer til forskellige tærskler for q. Derfor har vi skabt syv sub-sæt af SNPs fra den respektive oprindelige datasæt, med følgende q-tærskler ved gradvist at udelukke SNPs med q-værdier, der er mindre end tærskelværdien: q≥0.01 (dvs den oprindelige prøver, herunder alle Snp), q≥0.04, q≥0.1, q≥0.19, q≥0.25, q≥34 og q≥0.41.

beregning af Inter-SNP LD

parvis inter-SNP LD for de tre regioner, som udtrykt ved den standardiserede ld-koefficient D ‘ (32), blev beregnet ved hjælp af ldmaks-indstillingen i guld (www.sph.umich.edu/csg/abecasis/GOLD/) (33). Dette bruger haplotypefrekvenser estimeret af en forventningsmaksimeringsalgoritme (EM) og har vist sig at fungere godt i ikke-udfasede data (34,35).

Blokpartitionering

vi sammenlignede ydeevnen for to hovedmetoder til at definere haplotype-blokke, den dynamiske programmeringsalgoritme (DPA) (10) og en metode baseret på D’ (5), fremover benævnt ld-metoden. Metoderne er beskrevet detaljeret i de originale papirer og kort opsummeret nedenfor.

DPA

haplotyper udledes gennem en partition-ligation EM algoritme (36). Derefter påføres DPA ‘ en for at opdele de opnåede haplotyper i blokke. Almindelige haplotyper defineres som de haplotyper, der er repræsenteret mere end en gang i en blok. I den sidste blokpartition er en delmængde af på hinanden følgende SNP’er kun en blok, hvis de almindelige haplotyper tegner sig for mindst kr.procent (‘dækning’) af alle estimerede haplotyper inden for denne blok. DPA sigter mod at minimere antallet af SNP ‘er (dvs.tag-SNP’ er), der skelner mindst med en procent af haplotyperne i en blok. Til vores primære sammenligning med LD-metoden, i overensstemmelse med den oprindelige undersøgelse af DPA (10), sætter vi LR=LR=0,80. For yderligere at vurdere indflydelsen af parameterindstillinger udførte vi også DPA-analysen for andre RP-og RP-værdier (0,7, 0,75, 0,85, 0,9 og 0,95)

ld-metode

d’ – værdier for alle par SNP ‘ er blev beregnet, og variansen blev estimeret (37). Vi brugte en modificeret version af den tidligere beskrevne ld-metode (5), der erstattede de bootstrap-baserede variansestimater med en normal tilnærmelse. Simuleringer viste, at denne modificerede metode gav lignende konfidensintervaller for D’ som bootstrap-metoden med meget mindre beregningstid (38). Par af SNP ‘ er blev anset for at være i ‘stærk’ LD, hvis den ensidige øvre 95% konfidensbundet på D’ var større end 0,98, og den nedre grænse var større end 0,7. ‘Lav’ LD blev antaget for par med en øvre grænse mindre end 0,9. En haplotype-blok blev derefter defineret som en region, hvor mindre end 5% af SNP-par viste lave niveauer af LD.

da ld-metoden ikke indeholder en algoritme til at definere Tag SNP ‘ er, brugte vi de samme kriterier som i DPA (se ovenfor).

for at vurdere indflydelsen af parameterindstillinger udførte vi også analysen med strengere kriterier (‘stærk’ LD defineret som øvre grænse på D’ >0,99 og nedre grænse >0,75) og med mindre strenge kriterier (øvre grænse >0,96 og nedre grænse >0,65). For detaljerede blokdefinitionskriterier, se supplerende materiale, 1.

supplerende materiale

supplerende materiale er tilgængeligt på HMG online.

anerkendelser

støttet af tilskud fra National Institute of Mental Health, Edvard F. Mallinckrodt Jr Foundation, Chicago Brain Research Institute, og den nationale Alliance for forskning i depression og depression (Young Investigators priser til T. G. S. og Y. S. C.). K. S. og F. S. blev støttet af et tilskud fra National Institutes of Health (NIH P50 HG 002790). Vi anerkender taknemmeligt hjælp fra Gonkorralo Abecasis med at opnå kromosomet 22 genotyper fra velkomment tillid Sanger Institute.

Figur 1. Virkningen af allelfrekvenser. Figuren illustrerer forholdet mellem den valgte tærskel for den mindre allel (k) frekvens og antallet af identificerede haplotypeblokke (A) og tag SNP ‘ er (B). Resultaterne præsenteres for både LD-metoden og DPA.

Figur 1. Virkningen af allelfrekvenser. Figuren illustrerer forholdet mellem den valgte tærskel for den mindre allel (k) frekvens og antallet af identificerede haplotypeblokke (A) og tag SNP ‘ er (B). Resultaterne præsenteres for både LD-metoden og DPA.

figur 2. Effekt af parameterændringer. Forholdet mellem de valgte parametre og antallet af identificerede Tag-SNP ‘ er for LD-metoden og DPA ved de valgte tærskler for den mindre allel (k) frekvens. (A–C) DPA, parameter larr (=larr) blev varieret mellem 0,7 og 0,95. (D–f) ld-metode, konfidensgrænserne for D’ blev sænket og hævet; analysen blev udført på et kurr-niveau på 0,8.

figur 2. Effekt af parameterændringer. Forholdet mellem de valgte parametre og antallet af identificerede Tag-SNP ‘ er for LD-metoden og DPA ved de valgte tærskler for den mindre allel (k) frekvens. (A–C) DPA, parameter larr (=larr) blev varieret mellem 0,7 og 0,95. (D–f) ld-metode, konfidensgrænserne for D’ blev sænket og hævet; analysen blev udført på et kurr-niveau på 0,8.

1

Risch, N. (

2000

) søgning efter gener i komplekse sygdomme: lektioner fra systemisk lupus erythematosus.

J. Clin. Invest

,

105

,

1503

-1506.

2

D. E., Schaffner, S. F., Hudson, T. J. og Lander, E. S. (

2001

) høj opløsning haplotype struktur i det menneskelige genom.

Nat. Genet.

,

29

,

229

–232.

3

Taillon-Miller, P., Bauer-Sardina, I., Saccone, N. L., Putsel, J., Laitinen, T., Cao, A., Kere, J., Pilia, G., Rice, J. P. og kvok, P. Y. (

2000

) sidestillede regioner med omfattende og minimal uligevægt i menneskelig 25 og 28.

Nat. Genet.

,

25

,

324

–328.

4

K., Calabrese, P., Nordborg, M. og Sun, F. (

2002

) Haplotype blok struktur og dens anvendelser til association undersøgelser: magt og undersøgelse design.

er. J. Hum. Genet.

,

71

,

1386

–1394.

5

Gabriel, S. B., Schaffner, S. F., Nguyen, H., Moore, J.M., Roy, J., Blumenstiel, B., Higgins, J., DeFelice, M., Lochner, A., Faggart, M. et al. (

2002

) strukturen af haplotype blokke i det menneskelige genom.

videnskab

,

296

,

2225

-2229.

6

det er en af de bedste måder at gøre det på, når du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, hvad du har brug for. (

2001

) Haplotype tagging til identifikation af almindelige sygdomsgener.

Nat. Genet.

,

29

,

233

–237.

7

Koivisto, M., Perola, M., Varilo, T., Hennah, J., Lukk, M., Peltonen, L., Ukkonen, E. Og Mannila, H. (

2003

) en mdl metode til at finde haplotype blokke og til at estimere styrken af haplotype blok grænser.

Pacific Symposium om Biocomputing

, s.

502

–513.

8

Mannila, H., Koivisto, M., Perola, M., Varilo, T., Hennah, J., Lukk, M., Peltonen, L. Og Ukkonen, E. (

2003

) minimum Beskrivelse Længde blok finder, en metode til at identificere haplotype blokke og sammenligne styrken af blok grænser.

er. J. Hum. Genet.

,

73

,

86

–94.

9

det er en af de mest populære og mest populære måder at gøre det på. (

2001

) blokke med begrænset haplotype-mangfoldighed afsløret ved scanning med høj opløsning af humant kromosom 21.

videnskab

,

294

,

1719

-1723.

10

Chen, T., Vandmand, M. S. og Sun, F. (

2002

) en dynamisk programmering algoritme til haplotype blok partitionering.

Proc. Natl Acad. Sci. USA

,

99

,

7335

-7339.

11

Jin, L. (

2003

) HaploBlockFinder: haplotype blok analyser.

Bioinformatik

,

19

,

1300

-1301.

12

B. V., Bafna, V., Clark, A. G. og Istrail, S. (

2003

) robusthed af inferens af haplotype blokstruktur.

J. Computer. Biol.

,

10

,

13

–19.

13

det er en af de bedste måder at gøre dette på, når du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, om du er i stand til at finde ud af, hvad du har brug for. (

2003

) kromosom-bred fordeling af haplotype blokke og rollen som rekombination hot spots.

Nat. Genet.

,

33

,

382

–387.

14

A., Maniatis, N., Tapper, N. og Morton, N. E. (

2002

) egenskaber for koblingsuligevægt (LD) kort.

Proc. Natl Acad. Sci. USA

,

99

,

17004

-17007.

15

K., Sun, F., Vandmand, M. S. og Chen, T. (

2003

) haplotype blok partition med begrænsede ressourcer og applikationer til humant kromosom 21 haplotype data.

er. J. Hum. Genet.

,

73

,

63

–73.

16

Collins, F. S. og Green, E. D. (

2003

) en vision for fremtiden for genomforskning.

Natur

,

422

,

835

-847.

17

Carlson, C. S., Eberle, M. A., Rieder, M. J., Smith, J. D., Kruglyak, L. Og Nickerson, D. A. (

2003

) yderligere SNP ‘ er og koblingsuligevægtanalyser er nødvendige for helgenomforeningsundersøgelser hos mennesker.

Nat. Genet.

,

33

,

518

–521.

18

Goldstein, D. B. (

2001

) øer af kobling uligevægt.

Nat. Genet.

,

29

,

109

–111.

19

Jeffreys, A. J., Kauppi, L. Og Neumann, R. (

2001

) intenst punkterer meiotisk rekombination i klasse II-regionen i det største histokompatibilitetskompleks.

Nat. Genet.

,

29

,

217

–222.

20

Jeffreys, A. J., Ritchie, A. Og Neumann, R. (

2000

) højopløsningsanalyse af haplotype-mangfoldighed og meiotisk crossover i det humane TAP2-rekombinationshotspot.

Hum. Mol. Genet.

,

9

,

725

–733.

21

K., J. M., J. M., N. Chakraborty, R. og Jin, L. (

2003

) tilfældigt fordelte crossovers kan generere bloklignende mønstre af koblingsuligevægt: en handling af genetisk drift.

Hum. Genet

,

113

,

51

-59.

22

Stumpf, M. P. og Goldstein, D. B. (

2003

) demografi, rekombination hotspot intensitet, og blokstrukturen af kobling uligevægt.

Curr. Biol.

,

13

,

1

–8.

23

Judson, R. S. A. og Stephens, J. C. (

2002

) hvor mange SNP ‘ er kræver et genom-dækkende haplotype-kort?

farmakogenomik

,

3

,

379

-391.

24

Shifman, S., Kuypers, J., Kokoris, M., Yakir, B. Og Darvasi, A. (

2003

) Koblingsuligevægtsmønstre for det menneskelige genom på tværs af populationer.

Hum. Mol. Genet.

,

12

,

771

–776.

25

Risch, N. Og Merikangas, K. (

1996

) fremtiden for genetiske undersøgelser af komplekse menneskelige sygdomme.

videnskab

,

273

,

1516

-1517.

26

McGinnis, R., Shifman, S. og Darvasi, A. (

2002

) kraft og effektivitet af TDT og case-control design til association scanninger.

Behav. Genet.

,

32

,

135

–144.

27

D. V., C. F., M. G. og Ehm, M. G. (

2003

) udvælgelse af genetiske markører til associeringsanalyser ved hjælp af koblingsuligevægt og haplotyper.

er. J. Hum. Genet.

,

73

,

115

–130.

28

Cardon, L. R. Og Abecasis, G. R. (

2003

) brug af haplotype-blokke til at kortlægge menneskelige komplekse træk loci.

Tendenser Genet.

,

19

,

135

–140.

29

J., Bumpstead, S., Chen, Y., Hunt, S., Beare, D. M., Pabial, J., Dibling, T., Tinsley, E., Kirby, S. et al. (

2002

) et første generations uligevægtskort over humant kromosom 22.

Natur

,

418

,

544

-548.

30

Chen, Levine, L., P. Y. (

1999

) Fluorescenspolarisering i homogen nukleinsyreanalyse.

Genom Res.

,

9

,

492

-498.

31

Akula, N., Chen, Y. S., Hennessy, K., Schulse, T. G., Singh, G. og McMahon, F. J. (

2002

) anvendelighed og nøjagtighed af skabelon-rettet farvestofterminator inkorporering med fluorescens-polarisationsdetektion til genotypebestemmelse af enkelt nukleotidpolymorfier.

bioteknologi

,

32

,

1072

-1076.

32

Jørgensen, R. C. (

1964

) samspillet mellem udvælgelse og kobling. I. generelle overvejelser; heterotiske modeller.

genetik

,

49

,

49

-67.

33

Abecasis, G. R. Og Cookson. (

2000

) guld-grafisk oversigt over kobling uligevægt.

Bioinformatik

,

16

,

182

-183.

34

Dempster, A. P., Laird, N. M. Og Rubin, D. B. (

1977

) maksimal sandsynlighed fra ufuldstændige data via EM-algoritmen.

J. R. Stat. Soc., Ser. B

,

39

,

1

-38.

35

L. Og Slatkin, M. (

1995

) Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population.

Mol. Biol. Evol.

,

12

,

921

–927.

36

Qin, Z.S., Niu, T. and Liu, J.S. (

2002

) Partition–ligation expectation-maximization algorithm for haplotype inference with single-nucleotide polymorphisms.

Am. J. Hum. Genet

,

71

,

1242

–1247.

37

Zapata, C., Alvarez, G. and Carollo, C. (

1997

) omtrentlig varians af det standardiserede mål for gametisk uligevægt D’.

er. J. Hum. Genet.

,

61

,

771

–774.

38

Kim, S. K., Jang, K. og Sun, F. (

2004

) en sammenligning af forskellige strategier til beregning af konfidensintervaller for koblingsuligevægtmål d’.

Pacific Symposium om Biocomputing

(i presse).

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.