Definiowanie bloków haplotypu i oznaczanie polimorfizmów pojedynczych nukleotydów w ludzkim genomie

Streszczenie

ostatnie badania sugerują, że genom jest zorganizowany w bloki haplotypów, a wysiłki w celu stworzenia mapy haplotypów dla całego genomu polimorfizmów pojedynczych nukleotydów (SNPs) są już w toku. Bloki haplotypów są definiowane algorytmicznie i do tej pory zaproponowano kilka algorytmów. Jednak niewiele wiadomo o ich względnej wydajności w rzeczywistych danych lub o wpływie częstotliwości alleli i wyborów parametrów na wykrywanie bloków haplotypu i znaczników, które je znaczą. Poniżej przedstawiamy formalne porównanie dwóch głównych algorytmów, metody opartej na disequilibrium (LD) i algorytmu programowania dynamicznego (dpa), w trzech regionach chromosomalnych różniących się zawartością genów i szybkością rekombinacji. Te dwie metody przyniosły uderzająco różne wyniki. DPA zidentyfikowało mniej i większe bloki haplotypów, a także mniejszy zestaw znaczników SNP niż metoda LD. Dla obu metod wyniki były silnie zależne od częstości alleli. Zmniejszenie częstości występowania drobnych alleli doprowadziło do 3,7-krotnego wzrostu liczby bloków haplotypu i SNP tagów. Definicja bloków haploytpe i znaczników SNP była również wrażliwa na zmiany parametrów, ale wyników nie można było pogodzić po prostu poprzez dostosowanie parametrów. Wyniki te pokazują, że dwie główne metody wykrywania bloków haplotypu i znaczników SNP mogą dawać różne wyniki w tych samych danych i że wyniki te są wrażliwe na częstotliwości alleli markerów i wybory parametrów. Potrzebne są więcej informacji, aby kierować wyborem metody, częstotliwościami alleli markera i parametrami w opracowywaniu mapy haplotypu.

wprowadzenie

mapowanie disequilibrium (LD) połączenia całego genomu zostało zaproponowane jako potężne narzędzie do wykrywania genów podatności na złożone cechy (1). Najnowsze badania sugerują, że ludzki genom jest zorganizowany w bloki haplotypów (2,3). Oczekuje się, że ta architektura genomowa może ułatwić mapowanie całego genomu poprzez ograniczenie liczby polimorfizmów pojedynczych nukleotydów (SNP), które należy wpisać do tych SNP, które wystarczająco wyjaśniają lub „znaczą” wzór haplotypu (4).

zaproponowano wiele różnych algorytmów do identyfikacji bloków haplotypu i znaczników SNP (2,5-11). Jednak niewiele wiadomo o względnej wydajności tych różnych metod w rzeczywistych danych. Jakie są różnice między kilkoma algorytmami? Czy wszystkie metody dochodzą do tych samych wniosków, czyli czy identyfikują te same lub przynajmniej podobne bloki haploytpe i znaczniki SNP? Jak rozwiązać spór między metodami? Ostatnio Schwartz et al. (12) oceniono nakładanie się granic bloków przypisanych przez różne algorytmy. Odkryli „ogólnie słabą zgodność między granicami bloków pochodzącymi z różnych” algorytmów, co było bardziej wyraźne w małych próbkach. Inne badanie wykazało, że odstępy markerów wpływają na przewidywaną długość bloków haplotypu w analizie modelowania ewolucyjnego (13). Wykazano również, że wielkość bloków haplotypu jest zależna od algorytmu (14). Nadal brakuje badań, które formalnie badają wydajność różnych algorytmów w tych samych zestawach danych, a żadne badanie nie oceniło wpływu ustawień parametrów lub częstotliwości alleli.

tutaj prezentujemy formalne porównanie dwóch głównych metod definiowania bloków haplotypu, metody opartej na LD zaproponowanej przez Gabriela i wsp. (5) i dynamiczny algorytm programowania (dpa) opracowany przez Zhang et al. (10). W przeciwieństwie do poprzednich badań, porównaliśmy liczbę bloków haploytpe i znaczników SNP zidentyfikowanych przez każdą metodę, ponieważ zmienne te są krytyczne w mapowaniu asocjacji. Nie ograniczamy naszej analizy do jednego arbitralnie wybranego progu mniejszej częstotliwości alleli (q), ale wykonujemy analizę dla różnych wartości q w celu wyjaśnienia wpływu częstotliwości alleli na wyniki. Na koniec badamy wpływ zmian parametrów na partycjonowanie bloków. W celu zwiększenia generalizabiliy naszych badań, wybraliśmy trzy w pełni zsekwencjonowane regiony chromosomowe, które różniły się średnią szybkością rekombinacji i zawartością genów: 18q21.32-33 (180 kb), genotypowo z 33 SNPs u 50 osób (CEPH founders); 22q13.31-32 (811 kb), genotypowo z 55 SNPs u 91 osób (dane uzyskane z Wellcome Trust Sanger Institute); oraz 22q13.33 (180 kb). 993 Kb), z 54 SNP u tych samych 91 osobników. Odkryliśmy, że te dwie metody przyniosły różne wyniki. Metoda dpa konsekwentnie identyfikowała mniej, większych bloków haplotypu, a także mniej znaczników SNP niż metoda LD. W przypadku obu metod identyfikacja bloków haplotypu i znaczników SNP była bardzo wrażliwa na częstość alleli markerowych. Obie metody były wrażliwe na wybór parametrów, ale metoda LD była pod tym względem mniej wrażliwa niż metoda DPA. Sama korekta parametrów nie poprawiła znacząco porozumienia między metodami. Wyniki te pokazują, że dwie główne metody wykrywania map haplotypów i znaczników SNP mogą dawać różne wyniki w tych samych danych i że wyniki te są wrażliwe na częstotliwości alleli markerów i wybory parametrów.

wyniki

różne wzory LD dla każdego z trzech regionów (materiał uzupełniający, rys. 1)

wzory par LD różniły się między trzema badanymi regionami. Na 22q13.33 widać wyższe i bardziej rozszerzone poziomy LD (średnia D’=0,35) niż w sąsiednim regionie na 22q13.31-32 (średnia D’=0.27), co zgadza się ze znanymi różnicami w rekombinacji. Ta różnica w LD utrzymuje się również przy porównywaniu podzbiorów o wyższych progach Q. Region na 18q22 wykazał rozszerzony i silny poziom LD (średnia D’=0,58). Dodatkowe dane Rysunek 1 pokazuje ogólny rozkład LD dla trzech badanych regionów, dla różnych progów Q.

DPA identyfikuje mniej bloków haplotypu i znaczników SNP niż metoda LD (rys. 1)

wyniki podziału bloków haplotypu i identyfikacji SNP znaczników przez oba algorytmy są zilustrowane na rysunku 1. Szczegółowe wyniki, w tym dokładny podział bloków i długość fizyczna bloków haplotypu, przedstawiono w materiale uzupełniającym, 2-7. Ze szczegółowych wyników podziału bloków wynika, że nie ograniczamy terminu „blok” do odcinka genomowego zawierającego co najmniej dwa SNP: blok może być również reprezentowany przez pojedynczy SNP.

dla wszystkich regionów i wszystkich poziomów q, DPA konsekwentnie zidentyfikował mniej bloków haplotypu i znaczników SNP niż metoda LD. Na przykład na chromosomie 18q21.32-33, przy q≥0.01, dpa wykrył sześć bloków haplotypu, oznaczonych 11 SNP, podczas gdy metoda LD zidentyfikowała 19 bloków i 15 SNP tagów. W związku z tym bloki haplotypów nazywane przez dpa są większe niż te wywoływane przez metodę LD. Na przykład na chromosomie 18q21.32-33, przy q≥0,01, dpa zidentyfikowało bloki o długości od 4,9 do 77,6 kb, w porównaniu z zakresem 0,8–26,4 kb dla metody LD.

podział bloku zależy od częstotliwości alleli markera (rys. 1)

dla obu metod podział bloków i identyfikacja znaczników SNP zależały od zastosowanego progu Q. Zwiększenie q poprzez stopniowe pomijanie rzadszych SNP z oryginalnych zestawów danych doprowadziło do zmniejszenia liczby zidentyfikowanych bloków haplotypu i SNP znaczników. Bloki haplotypu zmniejszały się stopniowo w zakresie q≥0,01 do q≥0,41. Liczba znaczników SNP pozostała stabilna w zakresie q≥0,01 do q≥0,19, zmniejszając się gwałtownie po q=0,2 (rys. 1 i materiał uzupełniający, 2-7).

Identyfikacja bloków haplotypu i znaczników SNP jest wrażliwa na kluczowe parametry (materiał uzupełniający 1-7, rys. 2)

Zmiana kluczowych parametrów wpłynęła na wyniki obu metod. Dla wszystkich trzech regionów chromosomalnych liczba znaczników SNP zidentyfikowanych przez DPA wzrastała wraz ze wzrostem poziomu α (=β) (Fig. 2A-C i materiał uzupełniający, 2-4). Liczba zidentyfikowanych bloków haplotypowych zależała również od poziomu α; nie można jednak dostrzec związku monotonicznego (materiał uzupełniający, 2-4). Metoda LD okazała się dość niewrażliwa na zmiany progów dla granic ufności. Dla regionu na 18q takie same wyniki uzyskano zarówno dla obniżonych, jak i podwyższonych progów. Dla dwóch regionów na chromosomie 22, liczba bloków haplotypu i znaczników SNP zidentyfikowanych niewiele różniła się między domyślnym, podniesionym i obniżonym progiem, odpowiednio (materiał uzupełniający, 5-7). Żadna konfiguracja parametrów, które testowaliśmy, nie mogła pogodzić różnic w wynikach między tymi dwiema metodami.

dyskusja

algorytmiczne wykrywanie bloków haplotypu jest narzędziem do systematycznego i skutecznego usprawniania wysiłków w zakresie genotypowania (15). Biorąc pod uwagę znaczenie algorytmów partycjonowania bloków haplotypu dla mapowania skojarzeń w całym genomie, chcieliśmy rozwiązać kilka praktycznych, ale kluczowych pytań, które do tej pory nie zostały rozwiązane w wystarczającym stopniu. Jak różne algorytmy porównują się pod względem identyfikacji bloków haplotypu i znaczników SNP? Jaki wpływ ma wybór częstotliwości alleli markera na podział bloku? Jak wrażliwe są wyniki na zmiany ustawień parametrów? Porównaliśmy dwie główne metody podziału bloków haplotypu w trzech regionach ludzkiego genomu, które różniły się wzorcami LD i zawartością genów. We wszystkich trzech regionach zaobserwowaliśmy, że DPA konsekwentnie identyfikuje mniej bloków haplotypu i znaczników SNP niż metoda LD. Co więcej, identyfikacja bloków i znaczników SNP zależała krytycznie od mniejszej częstości alleli. Żadna z metod nie była całkowicie niewrażliwa na wybór parametrów, ale wyników nie można było pogodzić po prostu przez dostosowanie parametrów.

zaproponowano, aby badania asocjacji w całym genomie można było przeprowadzać w sposób systematyczny, wykorzystując zredukowany zestaw markerów oznaczających główne haplotypy (16). Propozycja ta wynika z obserwacji, że genom jest najwyraźniej zorganizowany w bloki haplotypów (2,3). Zaproponowano wiele metod algorytmicznej identyfikacji tych bloków (2,5–11). Nadal istnieje wiele niepewności (17).

dwa główne algorytmy partycjonowania bloków, które badaliśmy, zachowywały się bardzo inaczej w identyfikacji haplotypów bloków i znaczników SNP. Nie jest to jedynie problem kalibracji. Nasze wyniki pokazują, że tych istotnych różnic nie można było naprawić poprzez dostosowanie parametrów. Co więcej, różnice nie ograniczały się tylko do jednego regionu chromosomalnego, ale były widoczne w każdym z trzech regionów, które różniły się ogólną szybkością rekombinacji i zawartością genów.

bezwzględne różnice w liczbie tagów SNP dla naszych małych regionów badawczych mogą nie wydawać się duże. Jednak na poziomie całego genomu mogą one powodować bardziej znaczące różnice w liczbie znaczników SNP do genotypowania.

identyfikacja znaczników SNP ma dać wyobrażenie o wysiłku genotypowania potrzebnego do pokrycia regionu lub całego genomu w wystarczającym stopniu, podczas gdy identyfikacja bloków haplotypu może dać nam wyobrażenie, ile genomu zostało pobranych. Oba są równie ważne przy dążeniu do mapowania całego skojarzenia genomu lub skupionego dokładnego mapowania regionu zainteresowania. Dlatego najlepiej byłoby, gdyby algorytmy partycjonowania bloków zgadzały się z tymi kluczowymi cechami. Z naszego porównania wynika, że różne metody i częstotliwości alleli markerów dają bardzo różne wyniki.

jak można wyjaśnić te różnice między metodami? Jeśli ktoś myśli o blokach haplotypu jako ładnie wytyczonych regionach genomowych o małej różnorodności przerywanych przez rekombinacyjne punkty zapalne, można by sądzić, że różne algorytmy blokujące powinny wykrywać podobną liczbę bloków i oznaczać SNP. Jednak rzeczywista sytuacja wydaje się być bardziej złożona. Lokalizowane różnice w rekombinacji zostały postawione jako główna siła stojąca za haplotypową strukturą blokową genomu (2,5,18). Hipoteza ta została poparta badaniami wysokiej rozdzielczości LD, a następnie oszacowaniem częstotliwości rekombinacji w plemnikach( 19,20): obszary rozpadu LD w ciągu odcinków silnych LD doskonale odpowiadały rekombinacyjnym punktom gorącym. Jednak ostatnio zakwestionowano pogląd, że takie gorące punkty są wymagane do wyjaśnienia struktury bloków. Badanie przeprowadzone przez Phillips et al. (13) sugeruje, że bloki haplotypu mogą powstawać przez czynniki inne niż rekombinacja, takie jak dobór naturalny, wąskie gardła populacji, domieszka populacji, wybór odstępów markerów i częstotliwości alleli. W badaniu symulacyjnym, Zhang et al. (21) wykazały, że bloki haplotypu obserwowano nawet w przypadku braku gorących punktów rekombinacji lub niedawnych wąskich gardeł populacji. Ponadto wykazano, że dryf genetyczny generuje wzory podobne do bloków. Autorzy przestrzegali więc przed globalnym stosowaniem mapy haplotypów do czasu przeprowadzenia badań na wielu grupach etnicznych. Stumpf i Goldstein (22) doszli do podobnego wniosku. W świetle tych niepewności co do podstawowych procesów ewolucyjnych, Schwartz et al. (12) wnioskować, że różnice między metodami mogą być uznane za bezpośrednią konsekwencję niedoskonałego charakteru pojęcia bloku.

głównym celem niniejszego badania była ocena wpływu mniejszych częstotliwości alleli (q) na wynik algorytmów podziału. Z literatury wynika, że istnieją duże rozbieżności w szacunkach liczby znaczników SNP wymaganych dla mapy haplotypu całego genomu (2,5,9). Oprócz faktu, że wszystkie te szacunki są wyprowadzane za pomocą różnych algorytmów, jeden problem jest bardzo pomijany: zakres q reprezentowany w odpowiednich próbkach. Daly i in. (2) używane SNP z q> 0,05, Patil i in. (9) uwzględniono tylko SNP z q>0,1 oraz Gabriel i wsp. (5) zastosował jeszcze wyższy próg q>0,2.

zgodnie z naszą wiedzą, wpływ q na algorytmy partycjonowania bloków nie został formalnie rozwiązany. Z naszych danych wynika, że liczba zidentyfikowanych bloków i znaczników SNP silnie zależy od progów dla q: im niższy próg, tym wyższa liczba znaczników SNP. Argumentowano, że generowanie mapy haplotypów może „ignorować SNP lub haplotypy o mniejszej częstości alleli wynoszącej 10 lub 20% lub mniej”, ponieważ rzadkie polimorfizmy przyczynowe „zwykle występują na jednym lub kilku wspólnych kościach pleców haplotypu” (23). Na podstawie naszych danych uważamy, że takie podejście może być ryzykowne. Wspólne bloki haplotypów nie mogą automatycznie obejmować mniej powszechnych wariantów. Na przykład, LD w bloku haplotypu może nie być kompletny, ponieważ nawet w bloku LD może rozpadać się z fizyczną odległością (24). Nawet w scenariuszu pełnego LD SNP znaczników wysokiej częstotliwości może niekoniecznie wychwytywać rzadkie warianty, w szczególności w mniejszych próbkach (25,26).

zwracamy uwagę, że identyfikacja znaczników SNP dla DPA jest ściśle związana z wytyczaniem bloków haplotypu. Jest to niezbędna konsekwencja definiowania znaczników SNP w oparciu o blok haplotypu, do którego należą. W przypadku metody LD tak nie jest. W rzeczywistości, Gabriel et al. (5) nie dostarczył algorytmu do definicji znaczników SNP, ale skupił się wyłącznie na blokach haplotypu. Aby umożliwić porównanie metod, użyliśmy definicji znacznika SNP z dpa do określenia znaczników SNP oznaczających haplotypy w blokach identyfikowanych metodą LD. Jednak identyfikacja znaczników SNP niekoniecznie jest uzależniona od uprzedniej identyfikacji bloków haploytpe. W przypadku dobrze zdefiniowanej i fizycznie małej jednostki obserwacji, np. genu, znaczniki SNP mogą być dobrze zidentyfikowane bez uprzedniego określenia bloków haplotypu, co wykazano przez Johnsona i wsp. (6). Algorytm taki nie może być jednak bezpośrednio zastosowany do bardzo długich regionów, ponieważ wszystkie haplotypy będą unikalne. Ostatnio Meng et al. (27) wprowadził podejście do definiowania znaczników SNP niezależnie od bloków haplotypu za pomocą algorytmu opartego na przesuwnych oknach. Potrzebne są dalsze badania w celu porównania przydatności znaczników SNP zidentyfikowanych przy użyciu różnych algorytmów do badań asocjacyjnych.

uważamy, że problematyczne jest ograniczenie tworzenia map haplotypów do SNP o wysokiej częstotliwości. Takie podejście może prowadzić do zmniejszenia liczby i większych bloków oraz zmniejszenia wysiłków w zakresie genotypowania. Może to jednak nastąpić kosztem sztucznie rzadkich map, które nie charakteryzują odpowiednio struktury genomowej (13,17).

nasze badania miały na celu ocenę wpływu metod, parametrów i częstotliwości alleli na wynik podziału bloku. Biorąc pod uwagę, że wybraliśmy tylko dwie metody naszego porównania, nasze wnioski mogą być ograniczone i nie można ich przenieść do innych algorytmów. Jednak większość istniejących metod jest ze sobą powiązanych. Dlatego zdecydowaliśmy się rozważyć dwie metody, które różnią się kluczowymi zasadami i mają tendencję do obejmowania zakresu wspólnych podejść. Ponadto, wybraliśmy trzy regiony chromosomowe, aby przetestować skuteczność metod na różnych genomowych tłach (tj. szybkość rekombinacji, zawartość genów).

nasze dane pokazują, że obliczeniowa identyfikacja bloków haplotypu pozostaje zależna od algorytmu i wrażliwa na częstotliwość alleli. Obecnie żaden algorytm nie może być uznany za ostateczny. Algorytmy te zostały opracowane na podstawie różnych celów. Głównym celem DPA jest zminimalizowanie wysiłku genotypowania przy użyciu znaczników SNP do badań asocjacyjnych; jako narzędzie do osiągnięcia tego celu wykorzystano bloki haplotypowe. Z drugiej strony, celem Gabriel et al. (5) było zidentyfikowanie regionów o wysokiej LD za pomocą bloków haplotype; nie użyto znaczników SNP dla partycji blokowej. W zależności od celu badania należy zastosować różne algorytmy podziału bloków. W związku z tym stworzenie ogólnej mapy haplotypu i znacznika SNP może wymagać równoległego użycia kilku algorytmów, aby nadążyć za ambicjami uniwersalności. Na obecnym etapie nie jest możliwe stwierdzenie, że jakikolwiek algorytm dostarczy „uniwersalne” bloki haplotypów lub znaczniki SNP. Interpretacja takich cech musi mieścić się w granicach zastosowanego algorytmu i celu danego badania. „All-purposes” haplotype block map and tag SNP set may not exist. Biorąc pod uwagę, że „nasze zrozumienie wzorców rekombinacji i braku równowagi w genomie jest nadal ograniczone „i że” pojęcie dyskretnych bloków prawdopodobnie okaże się zbyt sztywne, aby uwzględnić złożoność braku równowagi w powiązaniu ” (28), przyszłe badania będą musiały odpowiedzieć na pytanie, czy powinniśmy skupić się na podejściach opisujących globalną organizację genomową LD (tj. mapach identyfikujących bloki haplotypów), czy raczej opracować algorytmy identyfikujące znaczniki SNP niezależnie od koncepcji bloku haplotypu.

materiały i metody

regiony chromosomowe i badane próbki

wykonaliśmy nasze analizy z danymi pochodzącymi z trzech regionów chromosomowych na chromosomach 18q21.32-33, 22q13.31-32 i 22q13.33, każdy w pełni zsekwencjonowany i scharakteryzowany za pomocą SNPs.

region na chromosomie 18 składa się z 180 kb ciągłości zakończonej sekwencji, którą scharakteryzowaliśmy z 33 SNP przy średniej gęstości ∼5 kb (lista użytych SNP, patrz materiał uzupełniający, 1). Genotypowania dokonano u 50 niezwiązanych ze sobą osobników z Utah i francuskiej kolekcji CEPH (www.cephb.fr; procedura genotypowania, patrz poniżej). Według kompilacji z listopada 2002 r. Golden Path UCSC Genome browser (http://genome.ucsc.edu/cgi-bin/hgGateway), średnia szybkość rekombinacji w tym regionie jest szacowana na 1,3-1,9 cM/Mb, a zawartość genów jest niska (5,6 genów na Mb, zgodnie z ścieżką „known” i „RefSeq” przeglądarki genomu).

dla dwóch regionów na chromosomie 22 uzyskaliśmy publicznie dostępne dane z Wellcome Trust Sanger Institute (www.sanger.ac.uk/HGP/Chr22/). Dane obejmują 91 osób z Wielkiej Brytanii; przykładowe cechy charakterystyczne i procedury genotypowania są opisane w innym miejscu (29). Region na chromosomie 22q13.31-32 składa się z 811 kb charakteryzujących się 55 SNPs (rs1009783–rs132231) przy średniej gęstości ∼10 kb. Średnia szybkość rekombinacji wynosi od 2,5 do 2,8 cM/Mb, Zawartość genów jest najniższa z trzech badanych regionów (1,2 genów na Mb, zgodnie z ścieżką „known” i „RefSeq” przeglądarki genomu). Region 22q13.33 składa się z 993 kb charakteryzujących się 54 SNPs (rs139777–TSC0100622) przy średniej gęstości ∼9 kb. Region ten pokazuje najwyższą zawartość genów z trzech analizowanych regionów (34,2 genów na Mb, zgodnie z ścieżką „known” i „RefSeq” przeglądarki genomu). Średnia szybkość rekombinacji jest bardzo niska.

genotypowanie (18q21.32-33)

genotypowanie przeprowadzono przy użyciu wbudowania terminatora barwnika skierowanego szablonem z detekcją polaryzacji fluorescencji (FP-TDI) (30). Szczegółowy protokół przedstawiono w innym miejscu (31).

stosowane progi małej częstotliwości alleli (q)

jednym z naszych głównych zainteresowań była ocena wydajności algorytmów partycjonowania bloków dla różnych progów q. w ten sposób stworzyliśmy siedem podzbiorów SNP z odpowiednich oryginalnych zestawów danych, z następującymi progami q poprzez stopniowe wyłączanie SNP o wartościach Q mniejszych niż próg: q≥0,01 (tj. oryginalne próbki zawierające wszystkie SNP), q≥0,04, q≥0,1, q≥0,05 0, 19, Q≥0, 25, Q≥34 i q≥0, 41.

Obliczanie Inter-SNP LD

pary inter-SNP LD dla trzech regionów, wyrażone przez znormalizowany współczynnik LD D ’ (32), obliczono przy użyciu opcji LDMAX w złocie (www.sph.umich.edu/csg/abecasis/GOLD/) (33). Wykorzystuje To częstotliwości haplotypu oszacowane przez algorytm maksymalizacji oczekiwań (em) i wykazano, że działają dobrze w bezfazowych danych (34,35).

partycjonowanie bloków

porównaliśmy wydajność dwóch głównych metod do definiowania bloków haplotypu, algorytmu programowania dynamicznego (dpa) (10) i metody opartej na D’ (5), zwanej odtąd metodą LD. Metody zostały szczegółowo opisane w oryginalnych opracowaniach i krótko podsumowane poniżej.

dpa

haplotypy są wnioskowane za pomocą algorytmu ligacji partycji EM (36). Następnie stosuje się DPA do podziału uzyskanych haplotypów na bloki. Powszechne haplotypy definiuje się jako te haplotypy, które są reprezentowane więcej niż jeden raz w bloku. W ostatecznej partycji bloku podzbiór kolejnych SNP jest blokiem tylko wtedy, gdy wspólne haplotypy stanowią co najmniej α procent („pokrycie”) wszystkich szacowanych haplotypów w obrębie tego bloku. Dpa ma na celu zminimalizowanie liczby SNP (tj. znaczników SNP), które rozróżniają co najmniej β procent haplotypów w bloku. Dla naszego podstawowego porównania z metodą LD, zgodnie z oryginalnym badaniem DPA (10), ustawiliśmy α=β=0,80. W celu dalszej oceny wpływu ustawień parametrów, wykonaliśmy również analizę dpa dla innych wartości α i β (0,7, 0,75, 0,85, 0,9 i 0,95)

metoda LD

wartości D’ dla wszystkich par SNPs zostały obliczone i oszacowano wariancję (37). Użyliśmy zmodyfikowanej wersji wcześniej opisanej metody LD (5), która zastąpiła estymacje wariancji oparte na bootstrap zwykłym przybliżeniem. Symulacje wykazały, że ta zmodyfikowana metoda dawała podobne przedziały ufności dla D’ jak metoda bootstrap o znacznie krótszym czasie obliczeniowym (38). Pary SNP uznano za „silne” LD, jeśli jednostronna górna granica 95% zaufania dla D’ była większa niż 0,98, a dolna granica była większa niż 0,7. „Low” LD przyjęto dla par o górnej granicy mniejszej niż 0,9. Blok haplotypu zdefiniowano następnie jako region, w którym mniej niż 5% par SNP wykazywało niski poziom LD.

ponieważ metoda LD nie zawiera algorytmu do definiowania znaczników SNP, użyliśmy tych samych kryteriów jak w DPA (patrz wyżej).

aby ocenić wpływ ustawień parametrów, wykonaliśmy również analizę z bardziej rygorystycznymi kryteriami („silny” LD zdefiniowany jako górna granica na D ’>0,99 i dolna granica >0,75) i mniej rygorystycznymi kryteriami (górna granica >0,96 i dolna granica > 0,65). Szczegółowe kryteria definicji bloków znajdują się w materiałach uzupełniających, 1.

materiał uzupełniający

materiał uzupełniający jest dostępny w HMG Online.

podziękowania

Mallinckrodt Jr Foundation, Chicago Brain Research Institute oraz National Alliance for Research on schizofrenia and Depression (Young Investigators Awards to T. G. S. and Y. S. C.). K. Z. i F. S. zostały wsparte Grantem Narodowego Instytutu Zdrowia (NIH P50 Hg 002790). Z wdzięcznością potwierdzamy pomoc Gonçalo Abecasis w uzyskaniu genotypów chromosomu 22 od Wellcome Trust Sanger Institute.

Rysunek 1. Wpływ częstotliwości alleli. Rysunek ilustruje zależność między wybranym progiem częstości występowania allelu drobnego (q) A liczbą odpowiednio zidentyfikowanych bloków haplotypu (a) i znaczników SNP (B). Wyniki przedstawiono zarówno dla metody LD, jak i DPA.

Rysunek 1. Wpływ częstotliwości alleli. Rysunek ilustruje zależność między wybranym progiem częstości występowania allelu drobnego (q) A liczbą odpowiednio zidentyfikowanych bloków haplotypu (a) i znaczników SNP (B). Wyniki przedstawiono zarówno dla metody LD, jak i DPA.

Rysunek 2. Wpływ zmian parametrów. Zależność między wybranymi parametrami a liczbą zidentyfikowanych SNP znaczników dla metody LD i DPA przy wybranych progach dla częstotliwości alleli drobnych (q). (A–C) dpa, parametr α (=β) wahał się między 0,7 A 0,95. (D-F) metoda LD, granice ufności dla D ’ zostały obniżone i podniesione; analizę przeprowadzono na poziomie β 0,8.

Rysunek 2. Wpływ zmian parametrów. Zależność między wybranymi parametrami a liczbą zidentyfikowanych SNP znaczników dla metody LD i DPA przy wybranych progach dla częstotliwości alleli drobnych (q). (A–C) dpa, parametr α (=β) wahał się między 0,7 A 0,95. (D-F) metoda LD, granice ufności dla D ’ zostały obniżone i podniesione; analizę przeprowadzono na poziomie β 0,8.

1

Risch, N. (

2000

) poszukiwanie genów w złożonych chorobach: lekcje z tocznia rumieniowatego układowego.

J. Klin Inwestować

,

105

,

1503

-1506.

2

Daly, M. J., Rioux, J. D., Schaffner, S. F., Hudson, T. J. and Lander, E. S. (

2001

) struktura haplotypu o wysokiej rozdzielczości w ludzkim genomie.

Nat. Genet.

,

29

,

229

–232.

3

Taillon-Miller, P., Bauer-Sardina, I., Saccone, n. L., Putzel, J., Laitinen, T., Cao, A., Kere, J., Pilia, G., Rice, J. P. and Kwok, P. Y. (

2000

) zestawiono regiony rozległego i minimalnego braku równowagi w ludzkim Xq25 i xq28.

Nat. Genet.

,

25

,

324

–328.

4

Zhang, K., Calabrese, P., Nordborg, M. and Sun, F. (

2002

) Haplotype block structure and its applications to association studies: power and study designs.

Am. J. Hum. Genet.

,

71

,

1386

–1394.

5

Gabriel, S. B., Schaffner, S. F., Nguyen, H., Moore, J.M., Roy, J., Blumenstiel, B., Higgins, J., DeFelice, M., Lochner, A., Faggart, M. et al. (

2002

) struktura bloków haplotypowych w ludzkim genomie.

Nauka

,

296

,

2225

-2229.

6

Johnson, G. C., Esposito, L., Barratt, B. J., Smith, A. N., Heward, J., Di Genova, G., Ueda, H., Cordell, H. J., Eaves, I. A., Dudbridge, F. et al. (

2001

) znakowanie haplotypów w celu identyfikacji wspólnych genów chorobowych.

Nat. Genet.

,

29

,

233

–237.

7

Koivisto, M., Perola, M., Varilo, T., Hennah, W., Ekelund, J., Lukk, M., Peltonen, L., Ukkonen, E. and Mannila, H. (

2003

) metoda MDL do znajdowania bloków haplotypu i szacowania wytrzymałości granic bloków haplotypu.

Pacific Symposium on Biocomputing

, pp.

502

–513.

8

Mannila, H., Koivisto, M., Perola, M., Varilo, T., Hennah, W., Ekelund, J., Lukk, M., Peltonen, L. i Ukkonen, E. (

2003

) Minimalna Długość opisu block finder, metoda identyfikacji bloków haplotypu i porównywania siły granic bloków.

Am. J. Hum. Genet.

,

73

,

86

–94.

9

Patil, N., Berno, A. J., Hinds, D. A., Barrett, W. A., Doshi, J. M., Hacker, C. R., Kautzer, C. R., Lee, D. H., Marjoribanks, C., McDonough, D. P. et al. (

2001

) bloki ograniczonej różnorodności haplotypów ujawnione przez skanowanie ludzkiego chromosomu 21 o wysokiej rozdzielczości.

Nauka

,

294

,

1719

-1723.

10

Zhang, K., Deng, M., Chen, T., Waterman, M. S. i Sun, F. (

2002

) dynamiczny algorytm programowania partycjonowania bloków haplotypu.

Proc. Natl Acad. Sci. USA

,

99

,

7335

-7339.

11

Zhang, K. I Jin, L. (

2003

) HaploBlockFinder: haplotype block analyses.

Bioinformatyka

,

19

,

1300

-1301.

12

Schwartz, R., Halldorsson, B. V., Bafna, V., Clark, A. G. and Istrail, S. (

2003

) solidność wnioskowania o haplotypowej strukturze blokowej.

J. Komput. Biol.

,

10

,

13

–19.

13

1000000000000000000000000000000000000000 (

2003

) rozmieszczenie bloków haplotypowych na całym chromosomie i rola gorących punktów rekombinacji.

Nat. Genet.

,

33

,

382

–387.

14

Zhang, W., Collins, A., Maniatis, N., Tapper, W. and Morton, N. E. (

2002

) właściwości map braku równowagi wiązania (LD).

Proc. Natl Acad. Sci. USA

,

99

,

17004

-17007.

15

Zhang, K., Sun, F., Waterman, M. S. I Chen, T. (

2003

) Haplotype block partition with limited resources and applications to human chromosome 21 haplotype data.

Am. J. Hum. Genet.

,

73

,

63

–73.

16

Collins, F. S. I Green, E. D. (

2003

) wizja przyszłości badań nad genomiką.

Przyroda

,

422

,

835

-847.

17

Carlson, C. S., Eberle, M. A., Rieder, M. J., Smith, J. D., Kruglyak, L. and Nickerson, D. A. (

2003

) dodatkowe analizy SNP i wiązania-nierównowaga są niezbędne do badań skojarzenia całego genomu u ludzi.

Nat. Genet.

,

33

,

518

–521.

18

Goldstein, D. B. (

2001

) Islands Of linkage disequilibrium.

Nat. Genet.

,

29

,

109

–111.

19

Jeffreys, A. J., Kauppi, L. and Neumann, R. (

2001

) intensywnie przerywana rekombinacja mejotyczna w regionie II klasy głównego kompleksu zgodności histologicznej.

Nat. Genet.

,

29

,

217

–222.

20

Jeffreys, A. J., Ritchie, A. and Neumann, R. (

2000

) Wysokorozdzielcza analiza różnorodności haplotypów i mejotycznej zwrotnicy w hotspocie rekombinacji TAP2 człowieka.

Hum. Mol. Genet.

,

9

,

725

–733.

21

Zhang, K., Akey, J. M., Wang, N., Xiong, M., Chakraborty, R. i Jin, L. (

2003

) losowo rozmieszczone zwrotnice mogą generować blokowe wzorce braku równowagi: akt dryfu genetycznego.

Hum. Genet

,

113

,

51

-59.

22

Stumpf, M. P. and Goldstein, D. B. (

2003

) Demografia, rekombinacja intensywności hotspot, i struktura blokowa disequilibrium wiązania.

Curr. Biol.

,

13

,

1

–8.

23

Judson R., Salisbury, B., Schneider, J., Windemuth, A. and Stephens, J. C. (

2002

) ile SNP wymaga Mapa haplotypu dla całego genomu?

Farmakogenomika

,

3

,

379

-391.

24

Shifman, S., Kuypers, J., Kokoris, M., Yakir, B. and Darvasi, A. (

2003

) łączenie wzorców nierównowagi ludzkiego genomu w populacjach.

Hum. Mol. Genet.

,

12

,

771

–776.

25

Risch, N. i Merikangas, K. (

1996

) przyszłość badań genetycznych złożonych chorób człowieka.

Nauka

,

273

,

1516

-1517.

26

McGinnis, R., Shifman, S. and Darvasi, A. (

2002

) moc i wydajność TDT i case-control design dla skanów asocjacyjnych.

Genet.

,

32

,

135

–144.

27

Meng, Z., Zaykin, D. V., Xu, C. F., Wagner, M. and Ehm, M. G. (

2003

) dobór markerów genetycznych do analizy asocjacji, z wykorzystaniem nierównowagi wiązania i haplotypów.

Am. J. Hum. Genet.

,

73

,

115

–130.

28

Cardon, L. R. i Abecasis, G. R. (

2003

) używanie bloków haplotypu do mapowania ludzkich złożonych cech loci.

Trendy Genet.

,

19

,

135

–140.

29

Dawson, E., Abecasis, G. R., Bumpstead, S., Chen, Y., Hunt, S., Beare, D. M., Pabial, J., Dibling, T., Tinsley, E., Kirby, S. et al. (

2002

) Mapa nierównowagi wiązania pierwszej generacji ludzkiego chromosomu 22.

Przyroda

,

418

,

544

-548.

30

Chen, X., Levine, L. i Kwok, P. Y. (

1999

) Polaryzacja fluorescencyjna w jednorodnej analizie kwasu nukleinowego.

Genome Res.

,

9

,

492

-498.

31

Akula, N., Chen, Y. S., Hennessy, K., Schulze, T. G., Singh, G. and McMahon, F. J. (

2002

) użyteczność i dokładność wbudowania barwnika-terminatora ukierunkowanego szablonowo z detekcją polaryzacji fluorescencyjnej do genotypowania polimorfizmów pojedynczych nukleotydów.

Biotechniki

,

32

,

1072

-1076.

32

Lewontin R. C. (

1964

) interakcja wyboru i powiązania. I. rozważania ogólne; modele heterotyczne.

genetyka

,

49

,

49

-67.

33

Abecasis, G. R. and Cookson, W. O. (

2000

) GOLD-graficzny przegląd braku równowagi połączenia.

Bioinformatyka

,

16

,

182

-183.

34

Dempster, A. P., Laird, N. M. and Rubin, D. B. (

1977

) maksymalne prawdopodobieństwo z niekompletnych danych za pomocą algorytmu em.

J. R. Stat. Soc., Ser. B

,

39

,

1

-38.

35

Excoffier, L. and Slatkin, M. (

1995

) Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population.

Mol. Biol. Evol.

,

12

,

921

–927.

36

Qin, Z.S., Niu, T. and Liu, J.S. (

2002

) Partition–ligation expectation-maximization algorithm for haplotype inference with single-nucleotide polymorphisms.

Am. J. Hum. Genet

,

71

,

1242

–1247.

37

Zapata, C., Alvarez, G. and Carollo, C. (

1997

) przybliżona wariancja znormalizowanej miary gametic disequilibrium D’.

Am. J. Hum. Genet.

,

61

,

771

–774.

38

Kim, S. K., Zhang, K. i Sun, F. (

2004

) porównanie różnych strategii obliczania przedziałów ufności miary braku równowagi d’.

Pacific Symposium on Biocomputing

(w prasie).

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.