Definition von Haplotypblöcken und Tag-Einzelnukleotidpolymorphismen im menschlichen Genom

Zusammenfassung

Jüngste Studien legen nahe, dass das Genom in Blöcke von Haplotypen organisiert ist, und die Bemühungen, eine genomweite Haplotypkarte von Einzelnukleotidpolymorphismen (SNPs) zu erstellen, sind bereits im Gange. Haplotypblöcke werden algorithmisch definiert und bisher wurden mehrere Algorithmen vorgeschlagen. Über ihre relative Leistung in realen Daten oder über die Auswirkungen von Allelfrequenzen und Parameterauswahl auf die Erkennung von Haplotypblöcken und den Markern, die sie markieren, ist jedoch wenig bekannt. Hier präsentieren wir einen formalen Vergleich zweier Hauptalgorithmen, einer auf Linkage Disequilibrium (LD) basierenden Methode und eines dynamischen Programmieralgorithmus (DPA), in drei chromosomalen Regionen, die sich in Gengehalt und Rekombinationsrate unterscheiden. Die beiden Methoden lieferten auffallend unterschiedliche Ergebnisse. DPA identifizierte weniger und größere Haplotypblöcke sowie einen kleineren Satz von Tag-SNPs als die LD-Methode. Bei beiden Methoden waren die Ergebnisse stark von der Allelhäufigkeit abhängig. Die Verringerung der Minor-Allelfrequenz führte zu einer bis zu 3,7-fachen Erhöhung der Anzahl der Haplotypblöcke und Tag-SNPs. Die Definition von Haploytpe-Blöcken und Tag-SNPs war ebenfalls empfindlich gegenüber Parameteränderungen, aber die Ergebnisse konnten nicht einfach durch Parameteranpassung in Einklang gebracht werden. Diese Ergebnisse zeigen, dass zwei Hauptmethoden zum Nachweis von Haplotypblöcken und Tag-SNPs unterschiedliche Ergebnisse in denselben Daten liefern können und dass diese Ergebnisse empfindlich auf Marker-Allelfrequenzen und Parameterauswahl reagieren. Weitere Informationen sind erforderlich, um die Wahl der Methode, der Marker-Allelfrequenzen und der Parameter bei der Entwicklung einer Haplotypkarte zu erleichtern.

EINLEITUNG

Die LD-Kartierung (Whole-Genome Linkage Disequilibrium) wurde als leistungsfähiges Werkzeug zum Nachweis von Suszeptibilitätsgenen für komplexe Merkmale vorgeschlagen (1). Neuere Studien legen nahe, dass das menschliche Genom in Blöcke von Haplotypen organisiert ist (2,3). Es ist zu hoffen, dass diese genomische Architektur die genomweite LD-Kartierung erleichtern kann, indem die Anzahl der zu typisierenden Einzelnukleotidpolymorphismen (SNPs) auf diejenigen SNPs begrenzt wird, die das Haplotypmuster ausreichend erklären oder markieren (4).

Es wurden verschiedene Algorithmen vorgeschlagen, um Haplotypblöcke und Tag–SNPs (2,5-11) zu identifizieren. Über die relative Leistung dieser verschiedenen Methoden in realen Daten ist jedoch wenig bekannt. Was sind die Unterschiede zwischen den verschiedenen Algorithmen? Kommen alle Methoden zu denselben Schlussfolgerungen, dh identifizieren sie dieselben oder zumindest ähnliche Haploytpe-Blöcke und markieren SNPs? Wie löst man Meinungsverschiedenheiten zwischen Methoden? Kürzlich haben Schwartz et al. (12) bewertete die Überlappung von Blockgrenzen, die durch verschiedene Algorithmen zugewiesen wurden. Sie fanden eine ‚im Allgemeinen schlechte Übereinstimmung zwischen Blockgrenzen, die von verschiedenen Algorithmen abgeleitet wurden‘, die in kleinen Stichproben ausgeprägter war. Eine andere Studie zeigte, dass der Markerabstand die vorhergesagte Länge von Haplotypblöcken in einer evolutionären Modellierungsanalyse beeinflusst (13). Es hat sich auch gezeigt, dass die Größe von Haplotypblöcken algorithmusabhängig ist (14). Dennoch mangelt es an Studien, die die Leistung verschiedener Algorithmen in denselben Datensätzen formal untersuchen, und keine Studie hat die Auswirkungen von Parametereinstellungen oder Allelfrequenzen bewertet.

Hier präsentieren wir einen formalen Vergleich zweier Hauptmethoden zur Definition von Haplotypblöcken, der von Gabriel et al. (5) und der von Zhang et al. (10). Im Gegensatz zu früheren Studien verglichen wir die Anzahl der Haploytpe-Blöcke und Tag-SNPs, die von jeder Methode identifiziert wurden, da diese Variablen für die Assoziationszuordnung kritisch sind. Wir beschränken unsere Analyse nicht auf einen willkürlich gewählten Schwellenwert für die Nebenallelfrequenz (q), sondern führen die Analyse für verschiedene Werte von q durch, um den Einfluss der Allelfrequenz auf die Ergebnisse aufzuklären. Abschließend untersuchen wir die Auswirkungen von Parameteränderungen auf die Blockpartitionierung. Um die Verallgemeinerbarkeit unserer Studie zu erhöhen, wählten wir drei vollständig sequenzierte Chromosomenregionen, die sich in ihren durchschnittlichen Rekombinationsraten und ihrem Gengehalt unterschieden: 18q21.32-33 (180 kb), genotypisiert mit 33 SNPs bei 50 Personen (CEPH-Gründer); 22q13.31-32 (811 kb), genotypisiert mit 55 SNPs bei 91 Personen (Daten vom Wellcome Trust Sanger Institute); und 22q13 .33 (993 kb), genotypisiert mit 54 SNPs in den gleichen 91 Individuen. Wir fanden heraus, dass die beiden Methoden zu unterschiedlichen Ergebnissen führten. Die DPA-Methode identifizierte konsistent weniger, größere Haplotypblöcke sowie weniger Tag-SNPs als die LD-Methode. Bei beiden Methoden war die Identifizierung von Haplotypblöcken und Tag-SNPs sehr empfindlich gegenüber der Häufigkeit von Markerallelen. Beide Methoden reagierten empfindlich auf Parameterauswahl, aber die LD-Methode war in dieser Hinsicht weniger empfindlich als die DPA-Methode. Die Parameteranpassung allein verbesserte die Übereinstimmung zwischen den Methoden nicht wesentlich. Diese Ergebnisse zeigen, dass zwei Hauptmethoden zum Nachweis von Haplotypkarten und Tag-SNPs unterschiedliche Ergebnisse in denselben Daten liefern können und dass diese Ergebnisse empfindlich auf Marker-Allelfrequenzen und Parameterauswahl reagieren.

ERGEBNISSE

Unterschiedliche Muster von LD für jede der drei Regionen (Ergänzendes Material, Abb. 1)

Muster der paarweisen LD variierten zwischen den drei untersuchten Regionen. Auf 22q13.33 sind höhere und ausgedehntere LD-Werte (Mittelwert D’= 0.35) zu sehen als in der Nachbarregion auf 22q13.31-32 (Mittelwert D’=0.27), was den bekannten Unterschieden in der Rekombination entspricht. Dieser Unterschied in LD gilt auch beim Vergleich der Teilmengen mit höheren q-Schwellenwerten. Die Region auf 18q22 zeigte ausgedehnte und starke LD-Werte (Mittelwert D ‚= 0.58). Die ergänzende Daten Abbildung 1 zeigt die gesamte LD-Verteilung für die drei untersuchten Regionen, für die unterschiedlichen q-Schwellenwerte.

DPA identifiziert weniger Haplotypblöcke und Tag-SNPs als die LD-Methode (Abb. 1)

Die Ergebnisse der Haplotyp-Blockpartitionierung und Identifizierung von Tag-SNPs durch beide Algorithmen sind in Abbildung 1 dargestellt. Detaillierte Ergebnisse, einschließlich der genauen Blockpartitionierung und der physikalischen Länge der Haplotypblöcke, sind im Supplementary Material, 2-7, dargestellt. Aus den detaillierten Ergebnissen der Blockpartitionierung geht hervor, dass wir den Begriff ‚Block‘ nicht auf eine genomische Strecke beschränken, die mindestens zwei SNPs umfasst: Ein Block kann auch durch einen einzelnen SNP dargestellt werden.

Für alle Regionen und alle Ebenen von q identifizierte DPA konsistent weniger Haplotypblöcke und Tag-SNPs als die LD-Methode. Zum Beispiel auf Chromosom 18q21.32-33 bei q≥0.01 detektierte DPA sechs Haplotypblöcke, die mit 11 SNPs markiert waren, während die LD-Methode 19 Blöcke und 15 Tag-SNPs identifizierte. Dementsprechend sind die von DPA aufgerufenen Haplotypblöcke größer als die von der LD-Methode aufgerufenen. Zum Beispiel identifizierte DPA auf Chromosom 18q21.32-33 bei q≥0,01 Blöcke zwischen 4,9 und 77,6 kb lang, verglichen mit einem Bereich von 0,8–26,4 kb für die LD-Methode.

Die Blockpartitionierung hängt entscheidend von den Markerallelfrequenzen ab (Abb. 1)

Für beide Methoden hing die Blockpartitionierung und die Identifizierung von Tag-SNPs von der angewendeten q-Schwelle ab. Die Erhöhung der q durch allmähliches Weglassen seltenerer SNPs aus den ursprünglichen Datensätzen führte zu einer Verringerung der Anzahl identifizierter Haplotypblöcke und Tag-SNPs. Die Haplotypblöcke nahmen im Bereich von q≥0,01 bis q≥0,41 stetig ab. Die Anzahl der Tag-SNPs blieb über den Bereich q≥0,01 bis q≥0,19 stabil und nahm nach q=0,2 steil ab (Abb. 1 und ergänzendes Material, 2-7).

Die Identifizierung von Haplotypblöcken und Tag-SNPs ist sensitiv gegenüber Schlüsselparametern (Ergänzungsmaterial 1-7, Abb. 2)

Die Variation der Schlüsselparameter beeinflusste die Ergebnisse beider Methoden. Für alle drei chromosomalen Regionen erhöhte sich die Anzahl der durch DPA identifizierten Tag-SNPs mit zunehmenden α-Spiegeln (= β) (Abbildung 2A–C und ergänzendes Material, 2-4). Die Anzahl der identifizierten Haplotypblöcke hing auch von den α-Spiegeln ab; Eine monotone Beziehung ist jedoch nicht erkennbar (Ergänzendes Material, 2-4). Die LD-Methode erwies sich als ziemlich unempfindlich gegenüber Änderungen der Schwellenwerte für die Konfidenzgrenzen. Für die Region auf 18q wurden die gleichen Ergebnisse sowohl für die gesenkten als auch für die angehobenen Schwellenwerte erzielt. Für die beiden Regionen auf Chromosom 22 variierte die Anzahl der identifizierten Haplotypblöcke und Tag-SNPs wenig zwischen dem Standardwert, dem erhöhten und dem abgesenkten Schwellenwert (Ergänzendes Material, 5-7). Keine Konfiguration der von uns getesteten Parameter konnte die Unterschiede in den Ergebnissen zwischen den beiden Methoden in Einklang bringen.

DISKUSSION

Die algorithmische Erkennung von Haplotypblöcken ist ein Instrument zur systematischen und effizienten Rationalisierung der Genotypisierungsbemühungen (15). Angesichts der Bedeutung, die Haplotyp-Blockpartitionierungsalgorithmen für die genomweite Assoziationskartierung haben, wollten wir einige praktische, aber entscheidende Fragen ansprechen, die bisher nicht ausreichend beantwortet wurden. Wie vergleichen sich verschiedene Algorithmen in Bezug auf die Identifizierung von Haplotypblöcken und Tag-SNPs? Welchen Einfluss hat die Wahl der Marker-Allelfrequenz auf die Blockpartitionierung? Wie empfindlich reagieren die Ergebnisse auf Änderungen der Parametereinstellungen? Wir verglichen zwei Hauptmethoden für die Haplotypblockpartitionierung in drei Regionen des menschlichen Genoms, die sich in ihren Mustern von LD und Gengehalt unterschieden. Für alle drei Regionen beobachteten wir, dass die DPA konsistent weniger Haplotypblöcke und Tag-SNPs identifizierte als die LD-Methode. Darüber hinaus hing die Identifizierung von Blöcken und Tag-SNPs entscheidend von der Häufigkeit der kleinen Allele ab. Keine der beiden Methoden war völlig unempfindlich gegen Parameterauswahl, aber die Ergebnisse konnten nicht einfach durch Parametereinstellung in Einklang gebracht werden.

Es wurde vorgeschlagen, genomweite Assoziationsstudien systematisch durchzuführen, indem ein reduzierter Satz von Markern verwendet wird, die die wichtigsten Haplotypen markieren (16). Dieser Vorschlag folgt aus der Beobachtung, dass das Genom anscheinend in Blöcke von Haplotypen organisiert ist (2,3). Es wurden zahlreiche Methoden vorgeschlagen, um diese Blöcke algorithmisch zu identifizieren (2,5–11). Dennoch bestehen viele Unsicherheiten (17).

Die beiden wichtigsten Blockpartitionierungsalgorithmen, die wir untersuchten, verhielten sich bei der Identifizierung von Haplotypblöcken und Tag-SNPs sehr unterschiedlich. Dies ist nicht nur ein Problem der Kalibrierung. Unsere Ergebnisse zeigen, dass diese erheblichen Unterschiede nicht durch Anpassung von Parametern behoben werden konnten. Darüber hinaus waren die Unterschiede nicht nur auf eine chromosomale Region beschränkt, sondern zeigten sich in jeder der drei Regionen, die sich in ihren Gesamtrekombinationsraten und ihrem Gengehalt unterschieden.

Die absoluten Unterschiede in der Anzahl der Tag-SNPs für unsere kleinen Studienregionen scheinen nicht groß zu sein. Auf genomweiter Ebene können sie jedoch zu wesentlicheren Unterschieden in der Anzahl der zu genotypisierenden Tag-SNPs führen.

Die Identifizierung von Tag-SNPs soll eine Vorstellung von dem Genotypisierungsaufwand geben, der erforderlich ist, um eine Region oder das gesamte Genom ausreichend abzudecken, während die Identifizierung von Haplotypblöcken uns eine Vorstellung davon geben kann, wie viel des Genoms abgetastet wurde. Beide sind gleichermaßen wichtig, wenn es um die Kartierung der gesamten Genomassoziation oder die gezielte Feinkartierung einer Region von Interesse geht. Daher möchte man idealerweise, dass Blockpartitionierungsalgorithmen in diesen entscheidenden Merkmalen übereinstimmen. Aus unserem Vergleich kann man sehen, dass verschiedene Methoden und Marker-Allelfrequenzen sehr unterschiedliche Ergebnisse liefern.

Wie lassen sich diese Methodenunterschiede erklären? Wenn man sich Haplotypblöcke als schön abgegrenzte genomische Regionen mit geringer Diversität vorstellt, die durch rekombinative Hotspots unterbrochen werden, würde man zu der Annahme gelangen, dass verschiedene Blockierungsalgorithmen eine ähnliche Anzahl von Blöcken erkennen und SNPs markieren sollten. Die reale Situation scheint jedoch komplexer zu sein. Es wurde angenommen, dass lokalisierte Unterschiede in der Rekombination die primäre Kraft hinter der Haplotyp-Blockstruktur des Genoms sind (2,5,18). Diese Hypothese wurde durch hochauflösende LD-Studien gestützt, gefolgt von einer Schätzung der Rekombinationshäufigkeiten in Spermien (19,20): Bereiche mit LD-Abbau innerhalb von Strecken mit starker LD entsprachen perfekt rekombinativen Hotspots. Die Vorstellung, dass solche Hot Spots erforderlich sind, um die Blockstruktur zu erklären, wurde jedoch kürzlich in Frage gestellt. Die Studie von Phillips et al. (13) legt nahe, dass Haplotypblöcke durch andere Faktoren als die Rekombination entstehen können, wie natürliche Selektion, Populationsengpässe, Populationsbeimischung, Auswahl des Markerabstands und Allelfrequenzen. In einer Simulationsstudie haben Zhang et al. (21) zeigten, dass Haplotypblöcke auch ohne Rekombinations-Hot Spots oder jüngste Populationsengpässe beobachtet wurden. Darüber hinaus wurde gezeigt, dass genetische Drift blockartige Muster erzeugt. Daher warnten die Autoren vor einer globalen Anwendbarkeit der Haplotypkarte, bis Studien in mehreren ethnischen Gruppen durchgeführt wurden. Stumpf und Goldstein (22) kamen zu einem ähnlichen Ergebnis. Angesichts dieser Unsicherheiten hinsichtlich der zugrunde liegenden evolutionären Prozesse, Schwartz et al. (12) folgern Sie, dass Unterschiede zwischen den Methoden als direkte Folge der Unvollkommenheit des Blockkonzepts angesehen werden können.

Ein Hauptaugenmerk der vorliegenden Studie lag auf der Bewertung der Auswirkungen der geringen Allelfrequenzen (q) auf das Ergebnis der Partitionierungsalgorithmen. Aus der Literatur können wir sehen, dass es große Diskrepanzen in den Schätzungen der Anzahl von Tag-SNPs gibt, die für eine genomweite Haplotyp-Karte erforderlich sind (2,5,9). Abgesehen von der Tatsache, dass alle diese Schätzungen durch verschiedene Algorithmen abgeleitet werden, wird ein Problem sehr übersehen: der Bereich von q in den jeweiligen Proben dargestellt. In: Daly et al. (2) verwendete SNPs mit q > 0,05, Patil et al. (9) nur SNPs mit q > 0,1 und Gabriel et al. (5) einen noch höheren Schwellenwert von q > 0,2 angewendet.

Unseres Wissens wurden die Auswirkungen von q auf Blockpartitionierungsalgorithmen nicht formal angesprochen. Aus unseren Daten geht hervor, dass die Anzahl der identifizierten Blöcke und Tag-SNPs stark von den Schwellenwerten für q abhängt: Je niedriger der Schwellenwert, desto höher die Anzahl der Tag-SNPs. Es wurde argumentiert, dass die Erzeugung einer Haplotyp-Karte SNPs oder Haplotypen mit geringen Allelfrequenzen von 10 oder 20% oder weniger ignorieren kann, da seltene ursächliche Polymorphismen dazu neigen, auf einem oder wenigen gemeinsamen Haplotyp-Backbones gefunden zu werden (23). Basierend auf unseren Daten glauben wir, dass ein solcher Ansatz riskant sein könnte. Häufige Haplotypblöcke umfassen möglicherweise nicht automatisch weniger häufige Varianten. Beispielsweise kann die LD innerhalb eines Haplotyp-Blocks nicht vollständig sein, da selbst innerhalb eines Blocks LD mit physikalischer Entfernung (24) abklingen kann. Selbst unter dem Szenario einer vollständigen LD erfassen Hochfrequenz-Tag-SNPs möglicherweise nicht unbedingt seltene Varianten, insbesondere in kleineren Stichprobengrößen (25,26).

Wir möchten darauf hinweisen, dass die Identifizierung von Tag-SNPs für die DPA eng mit der Abgrenzung von Haplotypblöcken verbunden ist. Dies ist eine notwendige Konsequenz der Definition von Tag-SNPs basierend auf dem Haplotypblock, zu dem sie gehören. Bei der LD-Methode ist dies nicht der Fall. In der Tat, Gabriel et al. (5) lieferte keinen Algorithmus für die Definition von Tag-SNPs, sondern konzentrierte sich ausschließlich auf Haplotypblöcke. Um einen Vergleich zwischen den Methoden zu ermöglichen, haben wir die Tag-SNP-Definition aus der DPA verwendet, um die SNPs zu bestimmen, die die Haplotypen in den von der LD-Methode identifizierten Blöcken markieren. Die Identifizierung von Tag-SNPs ist jedoch nicht notwendigerweise von einer vorherigen Identifizierung von Haploytpe-Blöcken abhängig. Im Falle einer genau definierten und physikalisch kleinen Beobachtungseinheit, z.B. eines Gens, können Tag-SNPs durchaus ohne vorherige Bestimmung von Haplotypblöcken identifiziert werden, wie Johnson et al. (6). Ein solcher Algorithmus kann jedoch nicht direkt auf sehr lange Regionen angewendet werden, da alle Haplotypen eindeutig sind. Kürzlich haben Meng et al. (27) Einführung eines Ansatzes zur Definition von Tag-SNPs unabhängig von Haplotypblöcken unter Verwendung eines gleitfensterbasierten Algorithmus. Weitere Studien sind erforderlich, um die Nützlichkeit von Tag-SNPs zu vergleichen, die mithilfe verschiedener Algorithmen für Assoziationsstudien identifiziert wurden.

Wir halten es für problematisch, die Erzeugung von Haplotypkarten auf hochfrequente SNPs zu beschränken. Ein solcher Ansatz kann zu weniger und größeren Blöcken und einem geringeren Genotypisierungsaufwand führen. Dies kann jedoch auf Kosten künstlich spärlicher Karten gehen, die die genomische Struktur nicht angemessen charakterisieren (13,17).

Unsere Studie zielte darauf ab, den Einfluss von Methoden, Parametern und Allelfrequenzen auf das Ergebnis der Blockpartitionierung zu bewerten. Da wir für unseren Vergleich nur zwei Methoden gewählt haben, sind unsere Schlussfolgerungen möglicherweise begrenzt und nicht auf andere Algorithmen übertragbar. Die meisten der vorhandenen Methoden sind jedoch miteinander verwandt. Daher haben wir uns entschieden, zwei Methoden zu betrachten, die sich in Schlüsselprinzipien unterscheiden und dazu neigen, die Bandbreite der gängigen Ansätze zu überspannen. Darüber hinaus haben wir drei chromosomale Regionen ausgewählt, um die Leistung der Methoden auf verschiedenen genomischen Hintergründen (d. h. Rekombinationsrate, Gengehalt) zu testen.

Unsere Daten zeigen, dass die rechnerische Identifizierung von Haplotypblöcken algorithmusabhängig und empfindlich gegenüber der Allelfrequenz bleibt. Derzeit kann kein Algorithmus als endgültig angesehen werden. Diese Algorithmen wurden auf der Grundlage unterschiedlicher Ziele entwickelt. Das Hauptziel von DPA ist es, den Genotypisierungsaufwand mithilfe von Tag-SNPs für Assoziationsstudien zu minimieren; haplotypblöcke wurden als Werkzeug verwendet, um dieses Ziel zu erreichen. Auf der anderen Seite ist das Ziel von Gabriel et al. (5) sollte hohe LD-Regionen mit Haplotypblöcken identifizieren; Für die Blockpartition wurden keine Tag-SNPs verwendet. Abhängig vom Zweck einer Studie sollten verschiedene Blockpartitionsalgorithmen angewendet werden. In dieser Hinsicht kann die Schaffung einer allgemeinen Haplotyp und Tag SNP Karte müssen mehrere Algorithmen parallel verwenden, um mit seinen Ambitionen der Universalität zu halten. Zum gegenwärtigen Zeitpunkt ist es nicht möglich zu sagen, dass ein Algorithmus Haplotypblöcke oder Tag-SNPs für alle Zwecke liefert. Die Interpretation solcher Merkmale muss innerhalb der Grenzen des spezifischen Algorithmus und des Zwecks einer bestimmten Studie liegen. Ein Haplotyp-Blockzuordnungs- und Tag-SNP-Satz für alle Zwecke ist möglicherweise nicht vorhanden. Angesichts der Tatsache, dass ‚unser Verständnis der Muster von Rekombination und Ungleichgewicht im Genom noch begrenzt ist‘ und dass ‚der Begriff diskreter Blöcke sich wahrscheinlich als zu starr erweisen wird, um die Komplexität des Verknüpfungsungleichgewichts zu berücksichtigen‘ (28), werden zukünftige Studien sich mit der Frage befassen müssen, ob wir uns auf Ansätze konzentrieren sollten, die die globale genomische Organisation von LD beschreiben (d. H. Karten, die Blöcke von Haplotypen identifizieren) oder vielmehr Algorithmen entwickeln, die Tag-SNPs unabhängig vom Haplotyp-Blockkonzept identifizieren.

MATERIALIEN UND METHODEN

Untersuchte Chromosomenregionen und Proben

Wir führten unsere Analysen mit Daten aus drei Chromosomenregionen auf den Chromosomen 18q21.32-33, 22q13.31-32 und 22q13.33 durch, die jeweils vollständig sequenziert und mit SNPs charakterisiert wurden.

Die Region auf Chromosom 18 besteht aus einer 180 kb großen zusammenhängenden Sequenz, die wir mit 33 SNPs bei einer mittleren Dichte von ∼5 kb charakterisierten (eine Liste der verwendeten SNPs finden Sie in Supplementary Material, 1). Die Genotypisierung wurde an 50 nicht verwandten Gründerpersonen aus der Utah und French CEPH Pedigree Collection durchgeführt.www.cephb.fr ; für Genotypisierungsverfahren, siehe unten). Laut dem Build des Golden Path UCSC-Genombrowsers vom November 2002 (http://genome.ucsc.edu/cgi-bin/hgGateway) wird die durchschnittliche Rekombinationsrate in dieser Region auf 1,3–1,9 cm / Mb geschätzt und der Gengehalt ist niedrig (5,6 Gene pro Mb, gemäß der ‚bekannten‘ und ‚RefSeq‘ Spur des Genombrowsers).

Für die beiden Regionen auf Chromosom 22 erhielten wir öffentlich verfügbare Daten vom Wellcome Trust Sanger Institute (www.sanger.ac.uk/HGP/Chr22/). Die Daten umfassen 91 Personen aus dem Vereinigten Königreich; Probenmerkmale und Genotypisierungsverfahren sind an anderer Stelle beschrieben (29). Die Region auf Chromosom 22q13.31-32 besteht aus 811 kb, die mit 55 SNPs (rs1009783–rs132231) bei einer mittleren Dichte von ∼ 10 kb charakterisiert sind. Die durchschnittliche Rekombinationsrate liegt zwischen 2, 5 und 2, 8 cm / Mb, der Gengehalt ist der niedrigste der drei untersuchten Regionen (1, 2 Gene pro Mb, gemäß den Tracks ‚known‘ und ‚RefSeq‘ des Genome Browser). Die Region 22q13.33 besteht aus 993 kb, die mit 54 SNPs (rs139777–TSC0100622) bei einer mittleren Dichte von ∼9 kb charakterisiert sind. Diese Region zeigt den höchsten Gengehalt der drei analysierten Regionen (34, 2 Gene pro MB, gemäß der ‚known‘ – und ‚RefSeq‘ -Spur des Genombrowsers). Die durchschnittliche Rekombinationsrate ist sehr gering.

Genotypisierung (18q21.32-33)

Die Genotypisierung wurde mittels Template-gerichteter Farbstoff-Terminator-Inkorporation mit Fluoreszenz-Polarisations-Detektion (FP-TDI) durchgeführt (30). Ein detailliertes Protokoll wird an anderer Stelle vorgestellt (31).

Verwendete Schwellenwerte für kleinere Allelfrequenzen (q)

Eines unserer Hauptinteressen war es, die Leistung der Blockpartitionierungsalgorithmen für verschiedene Schwellenwerte von q zu bewerten. Daher erstellten wir sieben Untergruppen von SNPs aus den jeweiligen Originaldatensätzen mit den folgenden q-Schwellenwerten, indem wir SNPs mit q-Werten unter dem Schwellenwert schrittweise ausschlossen: q≥0,01 (d. h. die Originalproben einschließlich aller SNPs), q≥0,04, q≥0,1, q≥ 0,19, q≥0,25, q≥34 und q≥0,41.

Berechnung der Inter-SNP-LD

Die paarweise Inter-SNP-LD für die drei Regionen, ausgedrückt durch den standardisierten LD-Koeffizienten D'(32), wurde unter Verwendung der ldmax-Option in GOLD berechnet (www.sph.umich.edu/csg/abecasis/GOLD /) (33). Dies verwendet Haplotypfrequenzen, die durch einen Erwartungsmaximierungsalgorithmus (EM) geschätzt werden, und hat sich in unphasigen Daten als gut erwiesen (34,35).

Blockpartitionierung

Wir haben die Leistung von zwei Hauptmethoden zur Definition von Haplotypblöcken verglichen, dem Dynamic Programming Algorithm (DPA) (10) und einer auf D'(5) basierenden Methode, die fortan als LD-Methode bezeichnet wird. Die Methoden sind in den Originalarbeiten ausführlich beschrieben und im Folgenden kurz zusammengefasst.

DPA

Haplotypen werden durch einen Partitionsligierungs-EM-Algorithmus abgeleitet (36). Anschließend wird die DPA angewendet, um die erhaltenen Haplotypen in Blöcke zu unterteilen. Gemeinsame Haplotypen sind definiert als solche Haplotypen, die mehr als einmal in einem Block dargestellt werden. In der letzten Blockpartition ist eine Teilmenge aufeinanderfolgender SNPs nur dann ein Block, wenn die gemeinsamen Haplotypen mindestens α Prozent (‚Abdeckung‘) aller geschätzten Haplotypen innerhalb dieses Blocks ausmachen. Die DPA zielt darauf ab, die Anzahl der SNPs (d. H. Tag-SNPs) zu minimieren, die mindestens β Prozent der Haplotypen in einem Block unterscheiden. Für unseren primären Vergleich mit der LD-Methode setzen wir in Übereinstimmung mit der ursprünglichen Studie der DPA (10) α = β = 0,80. Um den Einfluss der Parametereinstellungen weiter zu bewerten, führten wir auch die DPA-Analyse für andere α- und β-Werte (0,7, 0,75, 0,85, 0,9 und 0,95) durch

LD-Methode

D‘-Werte für alle SNP-Paare wurden berechnet und die Varianz geschätzt (37). Wir verwendeten eine modifizierte Version der zuvor beschriebenen LD-Methode (5), die die Bootstrap-basierten Varianzschätzungen durch eine normale Approximation ersetzte. Simulationen zeigten, dass diese modifizierte Methode ähnliche Konfidenzintervalle für D‘ wie die Bootstrap-Methode mit viel weniger Rechenzeit ergab (38). SNP-Paare wurden als ’starke‘ LD angesehen, wenn die einseitige obere 95% -Konfidenzgrenze für D‘ größer als 0,98 und die untere Grenze größer als 0,7 war. ‚Low‘ LD wurde für Paare mit einer Obergrenze von weniger als 0,9 angenommen. Ein Haplotypblock wurde dann als eine Region definiert, in der weniger als 5% der SNP-Paare niedrige LD-Werte aufwiesen.

Da die LD-Methode keinen Algorithmus zur Definition von Tag-SNPs enthält, haben wir dieselben Kriterien wie in der DPA verwendet (siehe oben).

Um den Einfluss von Parametereinstellungen zu beurteilen, führten wir die Analyse auch mit strengeren Kriterien durch (’strong‘ LD definiert als Obergrenze für D‘ > 0,99 und Untergrenze >0,75) und mit weniger strengen Kriterien (Obergrenze > 0,96 und Untergrenze > 0,65). Für detaillierte Blockdefinitionskriterien, siehe Ergänzendes Material, 1.

ERGÄNZUNGSMATERIAL

Ergänzungsmaterial ist bei HMG Online verfügbar.

DANKSAGUNGEN

Unterstützt durch Zuschüsse des National Institute of Mental Health, der Edward F. Mallinckrodt Jr Foundation, das Chicago Brain Research Institute und die National Alliance for Research on Schizophrenia and Depression (Young Investigators Awards an TGS und YSC). K.Z. und F.S. wurden durch ein Stipendium der National Institutes of Health (NIH P50 HG 002790) unterstützt. Wir danken Gonçalo Abecasis für seine Hilfe bei der Beschaffung der Chromosom-22-Genotypen vom Wellcome Trust Sanger Institute.

Abbildung 1. Auswirkungen von Allelfrequenzen. Die Abbildung veranschaulicht die Beziehung zwischen dem gewählten Schwellenwert für die Häufigkeit des Nebenallels (q) und der Anzahl der identifizierten Haplotypblöcke (A) bzw. Die Ergebnisse werden sowohl für die LD-Methode als auch für die DPA dargestellt.

Abbildung 1. Auswirkungen von Allelfrequenzen. Die Abbildung veranschaulicht die Beziehung zwischen dem gewählten Schwellenwert für die Häufigkeit des Nebenallels (q) und der Anzahl der identifizierten Haplotypblöcke (A) bzw. Die Ergebnisse werden sowohl für die LD-Methode als auch für die DPA dargestellt.

Abbildung 2. Auswirkungen von Parameteränderungen. Die Beziehung zwischen den gewählten Parametern und der Anzahl der identifizierten Tag-SNPs für die LD-Methode und der DPA bei den gewählten Schwellenwerten für die Häufigkeit des Minor-Allels (q). (A–C) DPA wurde der Parameter α (=β) zwischen 0,7 und 0,95 variiert. (D–F) LD-Methode wurden die Konfidenzgrenzen für D‘ gesenkt und angehoben; die Analyse wurde auf einem β-Niveau von 0,8 durchgeführt.

Abbildung 2. Auswirkungen von Parameteränderungen. Die Beziehung zwischen den gewählten Parametern und der Anzahl der identifizierten Tag-SNPs für die LD-Methode und der DPA bei den gewählten Schwellenwerten für die Häufigkeit des Minor-Allels (q). (A–C) DPA wurde der Parameter α (=β) zwischen 0,7 und 0,95 variiert. (D–F) LD-Methode wurden die Konfidenzgrenzen für D‘ gesenkt und angehoben; die Analyse wurde auf einem β-Niveau von 0,8 durchgeführt.

1

Risch, N. (

2000

) Auf der Suche nach Genen bei komplexen Krankheiten: Lehren aus dem systemischen Lupus erythematodes.

J. Clin. Investieren

,

105

,

1503

-1506.

2

Daly, M.J., Rioux, J.D., Schaffner, S.F., Hudson, T.J. und Lander, E.S. (

2001

) Hochauflösende Haplotypstruktur im menschlichen Genom.

Nat. Genet.

,

29

,

229

–232.

3

Taillon-Miller, P., Bauer-Sardina, I., Saccone, N.L., Putzel, J., Laitinen, T., Cao, A., Kere, J., Pilia, G., Reis, J.P. und Kwok, P.Y. (

2000

) Nebeneinander liegende Regionen mit ausgedehntem und minimalem Verknüpfungsungleichgewicht in menschlichem Xq25 und Xq28.

Nat. Genet.

,

25

,

324

–328.

4

Zhang, K., Calabrese, P., Nordborg, M. und Sun, F. (

2002

) Haplotyp-Blockstruktur und ihre Anwendungen auf Assoziationsstudien: Power- und Studiendesigns.

Uhr. J. Brummen. Genet.

,

71

,

1386

–1394.

5

Es sind keine frei zugänglichen ergänzenden Materialien verfügbar Zitation Gabriel, S.B., Schaffner, S.F.M., Roy, J., Blumenstiel, B., Higgins, J., DeFelice, M., Lochner, A., Faggart, M. et al. (

2002

) Die Struktur von Haplotypblöcken im menschlichen Genom.

Wissenschaft

,

296

,

2225

-2229.

6

Esposito, L., Johnson, G.C., Barratt, B.J., Schmied, A.N., Heward, J., Di Genova, G., Ueda, H., Cordell, H.J., Traufe, I.A., Dudbridge, F. et al. (

2001

) Haplotyp-Tagging zur Identifizierung häufiger Krankheitsgene.

Nat. Genet.

,

29

,

233

–237.

7

Koivisto, M., Perola, M., Varilo, T., Hennah, W., Ekelund, J., Lukk, M., Peltonen, L., Ukkonen, E. und Mannila, H. (

2003

) Eine MDL-Methode zum Auffinden von Haplotypblöcken und zum Schätzen der Stärke von Haplotypblockgrenzen.

Pacific Symposium on Biocomputing

, pp.

502

–513.

8

Mannila, H., Koivisto, M., Perola, M., Varilo, T., Hennah, W., Ekelund, J., Lukk, M., Peltonen, L. und Ukkonen, E. (

2003

) Minimum Beschreibung Länge Block Finder, eine Methode, Haplotyp Blöcke zu identifizieren und die Stärke der Blockgrenzen zu vergleichen.

Uhr. J. Brummen. Genet.

,

73

,

86

–94.

9

In diesem Fall wird der Benutzer aufgefordert, sich an die von ihm angegebene Adresse zu wenden. (

2001

) Blöcke begrenzter Haplotyp-Diversität, die durch hochauflösendes Scannen des menschlichen Chromosoms 21 aufgedeckt wurden.

Wissenschaft

,

294

,

1719

-1723.

10

Zhang, K., Deng, M., Chen, T., Waterman, MS und Sun, F. (

2002

) Ein dynamischer Programmieralgorithmus für die Haplotyp-Blockpartitionierung.

Prok. In: Natl Acad. Sci. USA

,

99

,

7335

-7339.

11

Zhang, K. und Jin, L. (

2003

) HaploBlockFinder: Haplotyp-Blockanalysen.

Bioinformatik

,

19

,

1300

-1301.

12

Schwartz, R., Halldorsson, B.V., Bafna, V., Clark, A.G. und Istrail, S. (

2003

) Robustheit der Inferenz der Haplotyp-Blockstruktur.

J. Comput. Biol.

,

10

,

13

–19.

13

In der Regel werden die Ergebnisse der Studie von einem Arzt oder einer Ärztin untersucht. (

2003

) Chromosomenweite Verteilung von Haplotypblöcken und die Rolle von Rekombinations-Hot Spots.

Nat. Genet.

,

33

,

382

–387.

14

Zhang, W., Collins, A., Maniatis, N., Tapper, W. und Morton, N.E. (

2002

) Eigenschaften von Linkage Disequilibrium (LD) Karten.

Prok. In: Natl Acad. Sci. USA

,

99

,

17004

-17007.

15

Zhang, K., Sun, F., Waterman, M.S. und Chen, T. (

2003

) Haplotyp-Blockpartition mit begrenzten Ressourcen und Anwendungen für Haplotypdaten des menschlichen Chromosoms 21.

Uhr. J. Brummen. Genet.

,

73

,

63

–73.

16

Collins, F.S. und Green, E.D. (

2003

) Eine Vision für die Zukunft der Genomforschung.

Natur

,

422

,

835

-847.

17

Carlson, C.S., Eberle, M.A., Rieder, M.J., Smith, J.D., Kruglyak, L. und Nickerson, D.A. (

2003

) Zusätzliche SNPs und Linkage-Disequilibrium-Analysen sind für Whole-Genome-Assoziationsstudien am Menschen notwendig.

Nat. Genet.

,

33

,

518

–521.

18

Goldstein, D.B. (

2001

) Inseln des sozialen Ungleichgewichts.

Nat. Genet.

,

29

,

109

–111.

19

Jeffreys, A.J., Kauppi, L. und Neumann, R. (

2001

) Intensiv punktuelle meiotische Rekombination in der Klasse-II-Region des Haupthistokompatibilitätskomplexes.

Nat. Genet.

,

29

,

217

–222.

20

Jeffreys, A.J., Ritchie, A. und Neumann, R. (

2000

) Hochauflösende Analyse der Haplotyp-Diversität und des meiotischen Crossover im humanen TAP2-Rekombinations-Hotspot.

Summen. Mol. Genet.

,

9

,

725

–733.

21

Zhang, K., Akey, J.M., Wang, N., Xiong, M., Chakraborty, R. und Jin, L. (

2003

) Zufällig verteilte Überkreuzungen können blockartige Muster des Verknüpfungsungleichgewichts erzeugen: ein Akt der genetischen Drift.

Summen. Genet

,

113

,

51

-59.

22

Stumpf, M.P. und Goldstein, D.B. (

2003

) Demographie, Rekombinations-Hotspot-Intensität und die Blockstruktur des Verknüpfungsungleichgewichts.

Curr. Biol.

,

13

,

1

–8.

23

Judson, R., Schneider, J., Windemuth, A. und Stephens, J.C. (

2002

) Wie viele SNPs benötigt eine genomweite Haplotypkarte?

Pharmakogenomik

,

3

,

379

-391.

24

Shifman, S., Kuypers, J., Kokoris, M., Yakir, B. und Darvasi, A. (

2003

) Verknüpfungsungleichgewichtsmuster des menschlichen Genoms über Populationen hinweg.

Summen. Mol. Genet.

,

12

,

771

–776.

25

Risch, N. und Merikangas, K. (

1996

) Die Zukunft der genetischen Studien komplexer menschlicher Krankheiten.

Wissenschaft

,

273

,

1516

-1517.

26

McGinnis, R., Shifman, S. und Darvasi, A. (

2002

) Leistung und Effizienz des TDT- und Case-Control-Designs für Assoziationsscans.

Verhalten. Genet.

,

32

,

135

–144.

27

Meng, Z., Zaykin, D.V., Wagner, M. und Ehm, M.G. (

2003

) Auswahl genetischer Marker für Assoziationsanalysen unter Verwendung von Verknüpfungsungleichgewicht und Haplotypen.

Uhr. J. Brummen. Genet.

,

73

,

115

–130.

28

Cardon, L.R. und Abecasis, G.R. (

2003

) Verwendung von Haplotypblöcken zur Abbildung komplexer menschlicher Merkmalsloci.

In:Genet.

,

19

,

135

–140.

29

Dawson, E., Abecasis, G.R., Bumpstead, S., Chen, Y., Jagd, S., Beare, DM, Pabial, J., Dibling, T., Tinsley, E., Kirby, S. et al. (

2002

) Eine Verknüpfungsungleichgewichtskarte der ersten Generation des menschlichen Chromosoms 22.

Natur

,

418

,

544

-548.

30

Chen, X., Levine, L. und Kwok, P.Y. (

1999

) Fluoreszenzpolarisation in der homogenen Nukleinsäureanalyse.

Genome Res.

,

9

,

492

-498.

31

Akula, N., Chen, Y.S., Hennessy, K., Schulze, T.G., Singh, G. und McMahon, F.J. (

2002

) Nützlichkeit und Genauigkeit der Template-gerichteten Farbstoff-Terminator-Inkorporation mit Fluoreszenz-Polarisations-Detektion für die Genotypisierung von Einzelnukleotid-Polymorphismen.

Biotechnik

,

32

,

1072

-1076.

32

Lewontin, R.C. (

1964

) Das Zusammenspiel von Selektion und Verknüpfung. I. allgemeine Überlegungen; heterotische Modelle.

Genetik

,

49

,

49

-67.

33

Abecasis, G.R. und Cookson, W.O. (

2000

) GOLD-grafische Übersicht über das Ungleichgewicht der Verknüpfung.

Bioinformatik

,

16

,

182

-183.

34

Dempster, A.P., Laird, N.M. und Rubin, D.B. (

1977

) Maximale Wahrscheinlichkeit aus unvollständigen Daten über den EM-Algorithmus.

J. R. Stat. Soc., Ser. B

,

39

,

1

-38.

35

Excoffier, L. und Slatkin, M. (

1995

) Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population.

Mol. Biol. Evol.

,

12

,

921

–927.

36

Qin, Z.S., Niu, T. and Liu, J.S. (

2002

) Partition–ligation expectation-maximization algorithm for haplotype inference with single-nucleotide polymorphisms.

Am. J. Hum. Genet

,

71

,

1242

–1247.

37

Zapata, C., Alvarez, G. and Carollo, C. (

1997

) Ungefähre Varianz des standardisierten Maßes für das gametische Ungleichgewicht D‘.

Uhr. J. Brummen. Genet.

,

61

,

771

–774.

38

Kim, S.K., Zhang, K. und Sun, F. (

2004

) Ein Vergleich verschiedener Strategien zur Berechnung von Konfidenzintervallen des Verknüpfungsungleichgewichtsmaßes D‘.

Pacific Symposium on Biocomputing

(im Druck).

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.