Définition des blocs d’haplotypes et des polymorphismes mononucléotidiques dans le génome humain

Résumé

Des études récentes suggèrent que le génome est organisé en blocs d’haplotypes, et des efforts pour créer une carte haplotypique à l’échelle du génome des polymorphismes mononucléotidiques (SNP) sont déjà en cours. Les blocs d’haplotype sont définis algorithmiquement et à ce jour plusieurs algorithmes ont été proposés. Cependant, on sait peu de choses sur leurs performances relatives en données réelles ou sur l’impact des fréquences d’allèles et des choix de paramètres sur la détection des blocs d’haplotypes et des marqueurs qui les marquent. Nous présentons ici une comparaison formelle de deux algorithmes majeurs, une méthode basée sur le déséquilibre de liaison (LD) et un algorithme de programmation dynamique (DPA), dans trois régions chromosomiques différant par le contenu des gènes et le taux de recombinaison. Les deux méthodes ont produit des résultats remarquablement différents. Le DPA a identifié des blocs d’haplotype moins nombreux et plus grands, ainsi qu’un plus petit ensemble de SNP d’étiquettes que la méthode LD. Pour les deux méthodes, les résultats dépendaient fortement de la fréquence de l’allèle. La diminution de la fréquence des allèles mineurs a entraîné une augmentation jusqu’à 3,7 fois du nombre de blocs d’haplotypes et de SNP d’étiquettes. La définition des blocs haploytpe et des SNP d’étiquettes était également sensible aux modifications des paramètres, mais les résultats ne pouvaient pas être rapprochés simplement par un ajustement des paramètres. Ces résultats montrent que deux méthodes majeures de détection de blocs d’haplotype et de SNP d’étiquette peuvent produire des résultats différents dans les mêmes données et que ces résultats sont sensibles aux fréquences des allèles marqueurs et aux choix de paramètres. Plus d’informations sont nécessaires pour guider le choix de la méthode, des fréquences des allèles marqueurs et des paramètres dans le développement d’une carte d’haplotype.

INTRODUCTION

La cartographie du déséquilibre de liaison du génome entier (LD) a été proposée comme un outil puissant pour détecter les gènes de susceptibilité à des traits complexes (1). Des études récentes suggèrent que le génome humain est organisé en blocs d’haplotypes (2,3). On espère que cette architecture génomique facilitera la cartographie de la DL à l’échelle du génome en limitant le nombre de polymorphismes mononucléotidiques (SNP) à taper aux SNP qui expliquent ou  » taguent  » suffisamment le motif de l’haplotype (4).

Une variété d’algorithmes différents a été proposée pour identifier les blocs d’haplotype et marquer les SNP (2,5-11). Cependant, on sait peu de choses sur les performances relatives de ces différentes méthodes en données réelles. Quelles sont les différences entre les différents algorithmes ? Toutes les méthodes arrivent-elles aux mêmes conclusions, c’est-à-dire identifient-elles les mêmes ou du moins des blocs haplloytpe similaires et étiquettent-elles des SNP? Comment résoudre le désaccord entre les méthodes? Récemment, Schwartz et coll. (12) a évalué le chevauchement des limites de blocs attribuées par différents algorithmes. Ils ont trouvé un « accord généralement médiocre entre les limites de blocs dérivées de différents » algorithmes, ce qui était plus prononcé dans les petits échantillons. Une autre étude a montré que l’espacement des marqueurs affecte la longueur prévue des blocs d’haplotype dans une analyse de modélisation évolutive (13). Il a également été montré que la taille des blocs d’haplotype dépend de l’algorithme (14). Pourtant, il y a un manque d’études qui étudient formellement les performances de différents algorithmes dans les mêmes ensembles de données, et aucune étude n’a évalué l’impact des paramètres ou des fréquences des allèles.

Nous présentons ici une comparaison formelle de deux méthodes majeures de définition des blocs haplotypiques, la méthode basée sur la LD proposée par Gabriel et al. (5) et l’algorithme de programmation dynamique (DPA) développé par Zhang et al. (10). Contrairement aux études précédentes, nous avons comparé le nombre de blocs haploytpe et de SNP de balises identifiés par chaque méthode, car ces variables sont essentielles dans la cartographie d’association. Nous ne limitons pas notre analyse à un seuil de fréquence d’allèle mineure (q) choisi arbitrairement, mais effectuons l’analyse pour différentes valeurs de q afin d’élucider l’impact de la fréquence d’allèle sur les résultats. Enfin, nous examinons l’impact des changements de paramètres sur le partitionnement des blocs. Afin d’augmenter la généralisation de notre étude, nous avons choisi trois régions chromosomiques entièrement séquencées qui différaient par leurs taux de recombinaison moyens et leur contenu en gènes: 18q21.32-33 (180 kb), génotypées avec 33 SNP chez 50 individus (fondateurs de CEPH); 22q13.31-32 (811 kb), génotypées avec 55 SNP chez 91 individus (données obtenues du Wellcome Trust Sanger Institute); et 22q13.33 (993 kb), génotypé avec 54 SNP chez les mêmes 91 individus. Nous avons constaté que les deux méthodes produisaient des résultats différents. La méthode DPA a systématiquement identifié moins de blocs d’haplotype plus grands, ainsi que moins de SNP d’étiquettes que la méthode LD. Pour les deux méthodes, l’identification des blocs d’haplotype et des SNP d’étiquette était très sensible à la fréquence des allèles marqueurs. Les deux méthodes étaient sensibles aux choix de paramètres, mais la méthode LD était moins sensible à cet égard que la méthode DPA. L’ajustement des paramètres à lui seul n’a pas considérablement amélioré l’accord entre les méthodes. Ces résultats montrent que deux méthodes majeures de détection de cartes d’haplotypes et de SNP d’étiquettes peuvent produire des résultats différents dans les mêmes données et que ces résultats sont sensibles aux fréquences des allèles marqueurs et aux choix de paramètres.

RÉSULTATS

Motifs distincts de LD pour chacune des trois régions (Matériel supplémentaire, Fig. 1)

Les modèles de LD par paire variaient entre les trois régions étudiées. Au 22q13.33, des niveaux plus élevés et plus étendus de LD (moyenne D ‘ = 0,35) peuvent être observés que dans la région voisine au 22q13.31-32 (moyenne D ‘ = 0.27), ce qui concorde avec les différences connues de recombinaison. Cette différence de LD est également valable lors de la comparaison des sous-ensembles avec des seuils q plus élevés. La région au 18q22 a montré des niveaux étendus et forts de LD (moyenne D ‘ = 0,58). La figure 1 des données supplémentaires montre la distribution globale de la DL pour les trois régions étudiées, pour les différents seuils de q.

DPA identifie moins de blocs d’haplotype et de SNP d’étiquette que la méthode LD (Fig. 1)

Les résultats du partitionnement des blocs d’haplotypes et de l’identification des SNP d’étiquettes par les deux algorithmes sont illustrés à la figure 1. Les résultats détaillés, y compris le partitionnement exact des blocs et la longueur physique des blocs d’haplotype, sont présentés dans le Matériel supplémentaire, 2-7. D’après les résultats détaillés du partitionnement des blocs, on peut voir que l’on ne limite pas le terme  » bloc  » à un tronçon génomique comprenant au moins deux SNP : un bloc peut également être représenté par un seul SNP.

Pour toutes les régions et tous les niveaux de q, le DPA a systématiquement identifié moins de blocs d’haplotype et de SNP d’étiquettes que la méthode LD. Par exemple, sur le chromosome 18q21.32-33, à q≥0.01, DPA a détecté six blocs d’haplotype, marqués par 11 SNP, tandis que la méthode LD a identifié 19 blocs et 15 SNP d’étiquette. En conséquence, les blocs d’haplotype appelés par DPA sont plus grands que ceux appelés par la méthode LD. Par exemple, sur le chromosome 18q21.32-33, à q≥0,01, le DPA a identifié des blocs de 4,9 à 77,6 kb de long, comparativement à une plage de 0,8 à 26,4 kb pour la méthode LD.

Le partitionnement des blocs dépend de manière critique des fréquences des allèles marqueurs (Fig. 1)

Pour les deux méthodes, le partitionnement des blocs et l’identification des SNP de balise dépendaient du seuil q appliqué. L’augmentation de q en omettant progressivement les SNP plus rares des ensembles de données originaux a entraîné une diminution du nombre de blocs d’haplotypes identifiés et de SNP d’étiquettes. Les blocs d’haplotype ont diminué de façon constante dans la plage de q≥0,01 à q≥0,41. Le nombre de SNP d’étiquettes est resté stable sur la plage q≥0,01 à q≥0,19, diminuant fortement après q = 0,2 (Fig. 1 et Matériel supplémentaire, 2-7).

L’identification des blocs d’haplotype et des SNP d’étiquette est sensible aux paramètres clés (Matériel supplémentaire 1-7, Fig. 2)

La variation des paramètres clés a affecté les résultats des deux méthodes. Pour les trois régions chromosomiques, le nombre de SNP identifiés par DPA augmentait avec l’augmentation des niveaux de α (= β) (Figure 2A-C et Matériel supplémentaire, 2-4). Le nombre de blocs d’haplotype identifiés dépend également des niveaux de α ; cependant, une relation monotone ne peut être discernée (Matériel supplémentaire, 2-4). La méthode LD s’est avérée assez insensible aux changements de seuils pour les limites de confiance. Pour la région du 18e trimestre, les mêmes résultats ont été obtenus à la fois pour les seuils abaissés et relevés. Pour les deux régions du chromosome 22, le nombre de blocs d’haplotypes et de SNP identifiés variait peu entre les seuils par défaut, les seuils élevés et les seuils abaissés, respectivement (Matériel supplémentaire, 5-7). Aucune configuration des paramètres que nous avons testés n’a pu concilier les différences de résultats entre les deux méthodes.

DISCUSSION

La détection algorithmique des blocs d’haplotypes est un outil permettant de rationaliser les efforts de génotypage de manière systématique et efficace (15). Compte tenu de l’importance que les algorithmes de partitionnement de blocs d’haplotypes sont censés avoir pour la cartographie d’association à l’échelle du génome, nous voulions aborder certaines questions pratiques mais cruciales qui jusqu’à présent n’ont pas été suffisamment abordées. Comment les différents algorithmes se comparent-ils en termes d’identification des blocs d’haplotypes et des SNP d’étiquettes ? Quel impact le choix de la fréquence de l’allèle marqueur a-t-il sur le partitionnement du bloc ? Dans quelle mesure les résultats sont-ils sensibles aux modifications des paramètres? Nous avons comparé deux principales méthodes de partitionnement des blocs d’haplotypes dans trois régions du génome humain qui différaient par leurs modèles de LD et leur contenu en gènes. Pour les trois régions, nous avons observé que l’APD identifiait systématiquement moins de blocs d’haplotypes et de SNP d’étiquettes que la méthode LD. De plus, l’identification des blocs et des SNP d’étiquettes dépendait de manière critique de la fréquence des allèles mineurs. Aucune des deux méthodes n’était complètement insensible aux choix de paramètres, mais les résultats ne pouvaient pas être réconciliés simplement par un ajustement des paramètres.

Il a été proposé que des études d’association à l’échelle du génome puissent être effectuées de manière systématique en utilisant un ensemble réduit de marqueurs qui marquent les principaux haplotypes (16). Cette proposition découle de l’observation que le génome est apparemment organisé en blocs d’haplotypes (2,3). De nombreuses méthodes d’identification algorithmique de ces blocs ont été proposées (2,5-11). Pourtant, de nombreuses incertitudes persistent (17).

Les deux principaux algorithmes de partitionnement de blocs que nous avons étudiés se comportaient très différemment dans l’identification des blocs d’haplotype et des SNP de balises. Ce n’est pas simplement un problème d’étalonnage. Nos résultats montrent que ces différences substantielles n’ont pas pu être corrigées en ajustant les paramètres. De plus, les différences n’étaient pas seulement limitées à une région chromosomique, mais étaient évidentes dans chacune des trois régions qui différaient par leurs taux de recombinaison globaux et leur contenu génétique.

Les différences absolues dans le nombre de SNP d’étiquettes pour nos petites régions d’étude peuvent ne pas sembler importantes. Cependant, à l’échelle du génome, elles peuvent représenter des différences plus importantes dans le nombre de SNP d’étiquettes à génotyper.

L’identification des SNP tag est destinée à donner une idée de l’effort de génotypage nécessaire pour couvrir suffisamment une région ou l’ensemble du génome, tandis que l’identification des blocs d’haplotypes peut nous donner une idée de la quantité de génome échantillonnée. Les deux sont tout aussi importants lorsque l’on vise une cartographie d’association du génome entier ou une cartographie fine ciblée d’une région d’intérêt. Ainsi, on voudrait idéalement que les algorithmes de partitionnement de blocs soient d’accord avec ces fonctionnalités cruciales. De notre comparaison, on peut voir que différentes méthodes et fréquences d’allèles marqueurs donnent des résultats très différents.

Comment expliquer ces différences entre les méthodes ? Si l’on considère les blocs d’haplotypes comme des régions génomiques bien délimitées avec une faible diversité interrompue par des points chauds recombinationnels, on serait amené à croire que différents algorithmes de blocage devraient détecter un nombre similaire de blocs et étiqueter des SNP. Cependant, la situation réelle semble être plus complexe. Des différences localisées dans la recombinaison ont été supposées être la force principale derrière la structure de bloc d’haplotype du génome (2,5,18). Cette hypothèse a été étayée par des études de LD à haute résolution, suivies d’une estimation des fréquences de recombinaison dans les spermatozoïdes (19,20): les zones de dégradation de la LD dans les tronçons de forte LD correspondaient parfaitement aux points chauds de recombinaison. Cependant, la notion selon laquelle de tels points chauds sont nécessaires pour expliquer la structure du bloc a récemment été contestée. L’étude de Phillips et coll. (13) suggère que les blocs d’haplotype peuvent provenir de facteurs autres que la recombinaison, tels que la sélection naturelle, les goulots d’étranglement de la population, le mélange de la population, les choix d’espacement des marqueurs et les fréquences des allèles. Dans une étude de simulation, Zhang et al. (21) ont montré que des blocs d’haplotype étaient observés même en l’absence de points chauds de recombinaison ou de goulets d’étranglement récents de la population. De plus, il a également été démontré que la dérive génétique générait des modèles ressemblant à des blocs. Ainsi, les auteurs ont mis en garde contre toute applicabilité globale de la carte des haplotypes jusqu’à ce que des études aient été effectuées dans plusieurs groupes ethniques. Stumpf et Goldstein (22) sont parvenus à une conclusion similaire. À la lumière de ces incertitudes quant aux processus évolutifs sous-jacents, Schwartz et al. (12) conclure que les différences entre les méthodes peuvent être considérées comme une conséquence directe de la nature imparfaite du concept de bloc.

L’un des principaux objectifs de la présente étude était d’évaluer l’impact des fréquences des allèles mineurs (q) sur le résultat des algorithmes de partitionnement. D’après la littérature, nous pouvons voir qu’il existe de grandes divergences dans les estimations du nombre de SNP d’étiquettes nécessaires pour une carte d’haplotype à l’échelle du génome (2,5,9). Outre le fait que toutes ces estimations sont dérivées par différents algorithmes, un problème est très négligé: la plage de q représentée dans les échantillons respectifs. Daly et coll. (2) SNP utilisés avec q > 0,05, Patil et al. (9) n’incluait que les SNP avec q > 0,1, et Gabriel et al. (5) a appliqué un seuil encore plus élevé de q > 0,2.

À notre connaissance, l’impact de q sur les algorithmes de partitionnement de blocs n’a pas été abordé formellement. D’après nos données, on peut voir que le nombre de blocs et de SNP d’étiquettes identifiés dépend fortement des seuils de q: plus le seuil est bas, plus le nombre de SNP d’étiquettes est élevé. Il a été avancé que la génération d’une carte d’haplotypes peut « ignorer les SNP ou les haplotypes avec des fréquences d’allèles mineures de 10 ou 20% ou moins », car les polymorphismes causaux rares auront « tendance à se trouver sur une ou quelques dorsales d’haplotypes communes » (23). Sur la base de nos données, nous pensons qu’une telle approche pourrait être risquée. Les blocs d’haplotypes communs peuvent ne pas englober automatiquement des variantes moins courantes. Par exemple, le LD dans un bloc d’haplotype peut ne pas être complet, car même à l’intérieur d’un bloc LD peut se désintégrer avec la distance physique (24). Même dans le scénario d’une DL complète, les SNP d’étiquettes à haute fréquence pourraient ne pas nécessairement capturer des variantes rares, en particulier dans des échantillons de plus petite taille (25,26).

Nous tenons à souligner que l’identification des SNP d’étiquette pour le DPA est étroitement liée à la délimitation des blocs d’haplotype. C’est une conséquence nécessaire de la définition des SNP de balise en fonction du bloc d’haplotype auquel ils appartiennent. Pour la méthode LD, ce n’est pas le cas. En fait, Gabriel et coll. (5) n’a pas fourni d’algorithme pour la définition des SNP d’étiquettes, mais s’est concentré exclusivement sur les blocs d’haplotypes. Pour permettre une comparaison entre les méthodes, nous avons utilisé la définition SNP de la balise de la DPA pour déterminer les SNP marquant les haplotypes dans les blocs identifiés par la méthode LD. Cependant, l’identification des SNP d’étiquettes n’est pas nécessairement subordonnée à une identification préalable des blocs haploytpe. Dans le cas d’une unité d’observation bien définie et physiquement petite, par exemple un gène, les SNP tag peuvent très bien être identifiés sans détermination préalable des blocs d’haplotype, comme le démontrent Johnson et al. (6). Cependant, un tel algorithme ne peut pas être directement appliqué à des régions très longues car tous les haplotypes seront uniques. Récemment, Meng et al. (27) ont introduit une approche pour définir des SNP d’étiquette indépendamment des blocs d’haplotype en utilisant un algorithme basé sur des fenêtres coulissantes. D’autres études sont nécessaires pour comparer l’utilité des SNP d’étiquettes identifiés à l’aide de différents algorithmes pour les études d’association.

Nous pensons qu’il est problématique de limiter la génération de cartes haplotypiques aux SNP haute fréquence. Une telle approche peut conduire à des blocs moins nombreux et plus grands et à des efforts de génotypage plus faibles. Cependant, cela peut se faire au prix de cartes artificiellement clairsemées qui ne caractérisent pas adéquatement la structure génomique (13,17).

Notre étude visait à évaluer l’impact des méthodes, des paramètres et des fréquences des allèles sur le résultat du partitionnement des blocs. Étant donné que nous n’avons choisi que deux méthodes pour notre comparaison, nos conclusions peuvent être limitées et ne pas être transférables à d’autres algorithmes. Cependant, la plupart des méthodes existantes sont liées les unes aux autres. Nous avons donc décidé de considérer deux méthodes qui diffèrent par leurs principes clés et qui tendent à couvrir l’éventail des approches communes. De plus, nous avons choisi trois régions chromosomiques pour tester les performances des méthodes sur différents milieux génomiques (taux de recombinaison, contenu génétique).

Nos données montrent que l’identification informatique des blocs d’haplotype reste dépendante de l’algorithme et sensible à la fréquence des allèles. À l’heure actuelle, aucun algorithme ne peut être considéré comme définitif. Ces algorithmes ont été développés sur la base de différents objectifs. L’objectif principal du DPA est de minimiser l’effort de génotypage en utilisant des SNP d’étiquettes pour les études d’association; des blocs d’haplotypes ont été utilisés comme outil pour atteindre cet objectif. D’autre part, l’objectif de Gabriel et al. (5) était d’identifier les régions LD élevées à l’aide de blocs d’haplotype; aucun SNP d’étiquette n’a été utilisé pour la partition de blocs. Selon le but d’une étude, différents algorithmes de partition de blocs doivent être appliqués. À cet égard, la création d’une carte SNP d’haplotype et d’étiquette générale peut nécessiter l’utilisation de plusieurs algorithmes en parallèle afin de suivre ses ambitions d’universalité. Au stade actuel, il n’est pas possible de dire qu’un algorithme fournira des blocs d’haplotype « polyvalents » ou des SNP de balises. L’interprétation de telles caractéristiques doit être dans les limites de l’algorithme spécifique utilisé et du but d’une étude donnée. Une carte de bloc d’haplotype « tout usage » et un ensemble de SNP de balises peuvent ne pas exister. Étant donné que « notre compréhension des schémas de recombinaison et de déséquilibre dans le génome est encore limitée » et que « la notion de blocs discrets s’avérera probablement trop rigide pour tenir compte de la complexité du déséquilibre de liaison » (28), les études futures devront se demander si nous devrions nous concentrer sur des approches décrivant l’organisation génomique globale de la LD (c’est-à-dire des cartes identifiant des blocs d’haplotypes) ou plutôt développer des algorithmes qui identifient les SNP d’étiquettes indépendamment du concept de bloc d’haplotypes.

MATÉRIAUX ET MÉTHODES

Régions chromosomiques et échantillons étudiés

Nous avons effectué nos analyses avec des données dérivées de trois régions chromosomiques sur les chromosomes 18q21.32-33, 22q13.31-32 et 22q13.33, chacune entièrement séquencée et caractérisée par des SNP.

La région du chromosome 18 est constituée d’une séquence finie de 180 kb que nous avons caractérisée avec 33 SNP à une densité médiane de ∼5 kb (pour une liste des SNP utilisés, voir Matériel supplémentaire, 1). Le génotypage a été effectué chez 50 individus fondateurs non apparentés de la collection de pedigree de l’Utah et du CEPH français (www.cephb.fr ; pour la procédure de génotypage, voir ci-dessous). Selon la version de novembre 2002 du navigateur génomique Golden Path UCSC (http://genome.ucsc.edu/cgi-bin/hgGateway), le taux de recombinaison moyen dans cette région est estimé à 1,3-1,9 cM / Mb et la teneur en gènes est faible (5,6 gènes par Mb, selon la piste « connue » et « RefSeq » du navigateur génomique).

Pour les deux régions du chromosome 22, nous avons obtenu des données accessibles au public du Wellcome Trust Sanger Institute (www.sanger.ac.uk/HGP/Chr22 /). Les données comprennent 91 individus du Royaume-Uni; les caractéristiques de l’échantillon et les procédures de génotypage sont décrites ailleurs (29). La région sur le chromosome 22q13.31-32 comprend 811 kb caractérisés par 55 SNPs (rs1009783-rs132231) à une densité médiane de ∼10 kb. Le taux moyen de recombinaison se situe entre 2,5 et 2,8 cM/Mb, la teneur en gènes est la plus faible des trois régions étudiées (1,2 gènes par Mb, selon la piste ‘connue’ et ‘RefSeq’ du genome browser). La région 22q13.33 se compose de 993 kb caractérisées par 54 SNPs (rs139777-TSC0100622) à une densité médiane de ∼9 kb. Cette région présente le contenu génétique le plus élevé des trois régions analysées (34,2 gènes par Mo, selon la piste ‘connue’ et ‘RefSeq’ du navigateur génomique). Le taux moyen de recombinaison est très faible.

Génotypage (18q21.32-33)

Le génotypage a été effectué à l’aide d’une incorporation de terminateur de colorant dirigée par un modèle avec détection de polarisation par fluorescence (FP-TDI) (30). Un protocole détaillé est présenté ailleurs (31).

Seuils de fréquence des allèles mineurs (q) utilisés

Un de nos principaux intérêts était d’évaluer les performances des algorithmes de partitionnement de blocs pour différents seuils de q. Nous avons ainsi créé sept sous-ensembles de SNP à partir des ensembles de données d’origine respectifs, avec les seuils q suivants en excluant progressivement les SNP avec des valeurs q inférieures au seuil: q≥0,01 (c’est-à-dire les échantillons d’origine incluant tous les SNP), q≥0,04, q≥0,1, q≥ 0,19, q≥0,25, q≥34 et q≥0,41.

Le calcul de LD inter-SNP

LD inter-SNP par paire pour les trois régions, tel qu’exprimé par le coefficient LD normalisé D’ (32), a été calculé en utilisant l’option ldmax en OR (www.sph.umich.edu/csg/abecasis/GOLD /) (33). Cela utilise des fréquences d’haplotype estimées par un algorithme de maximisation des attentes (EM), et il a été démontré qu’elles fonctionnent bien dans des données non phasées (34,35).

Partitionnement de blocs

Nous avons comparé les performances de deux méthodes majeures pour définir des blocs d’haplotype, l’algorithme de programmation dynamique (DPA) (10) et une méthode basée sur D'(5), désormais appelée méthode LD. Les méthodes sont décrites en détail dans les documents originaux et brièvement résumées ci-dessous.

DPA

Les haplotypes sont déduits par un algorithme EM de ligature de partition (36). Par la suite, le DPA est appliqué pour partitionner les haplotypes obtenus en blocs. Les haplotypes communs sont définis comme les haplotypes représentés plus d’une fois dans un bloc. Dans la partition de bloc final, un sous-ensemble de SNP consécutifs est un bloc uniquement si les haplotypes communs représentent au moins α pour cent (« couverture ») de tous les haplotypes estimés dans ce bloc. Le DPA vise à minimiser le nombre de SNP (c’est-à-dire de SNP d’étiquettes) qui distinguent au moins β pour cent des haplotypes dans un bloc. Pour notre comparaison primaire avec la méthode LD, conformément à l’étude originale du DPA (10), nous avons fixé α = β = 0,80. Pour évaluer davantage l’influence des réglages des paramètres, nous avons également effectué l’analyse DPA pour d’autres valeurs α et β (0,7, 0,75, 0,85, 0,9 et 0,95)

Méthode LD

Les valeurs D ‘ pour toutes les paires de SNP ont été calculées et la variance a été estimée (37). Nous avons utilisé une version modifiée de la méthode LD (5) décrite précédemment qui a remplacé les estimations de variance basées sur le bootstrap par une approximation normale. Des simulations ont montré que cette méthode modifiée donnait des intervalles de confiance similaires pour D’ à la méthode bootstrap avec beaucoup moins de temps de calcul (38). Les paires de SNP ont été considérées comme étant dans une DL « forte » si la limite de confiance supérieure unilatérale à 95% sur D ‘ était supérieure à 0,98 et la limite inférieure était supérieure à 0,7. La DL  » faible  » a été supposée pour les paires dont la limite supérieure est inférieure à 0,9. Un bloc d’haplotype a ensuite été défini comme une région sur laquelle moins de 5% des paires de SNP présentaient de faibles niveaux de LD.

Étant donné que la méthode LD n’inclut pas d’algorithme pour définir les SNP de balise, nous avons utilisé les mêmes critères que dans le DPA (voir ci-dessus).

Pour évaluer l’influence des réglages des paramètres, nous avons également effectué l’analyse avec des critères plus stricts (LD « fort » défini comme borne supérieure sur D ‘ > 0,99 et borne inférieure > 0,75) et avec des critères moins stricts (borne supérieure > 0,96 et borne inférieure > 0,65). Pour des critères détaillés de définition des blocs, voir les documents supplémentaires, 1.

MATÉRIEL SUPPLÉMENTAIRE

Le matériel supplémentaire est disponible sur HMG Online.

REMERCIEMENTS

Soutenu par des subventions de l’Institut national de la Santé mentale, le Edward F. La Fondation Mallinckrodt Jr, l’Institut de Recherche sur le cerveau de Chicago et l’Alliance Nationale pour la Recherche sur la schizophrénie et la Dépression (Prix des jeunes chercheurs à T.G.S. et Y.S.C.). K.Z. et F.S. ont bénéficié d’une subvention des National Institutes of Health (NIH P50 HG 002790). Nous remercions Gonçalo Abecasis pour son aide dans l’obtention des génotypes du chromosome 22 auprès de l’Institut Wellcome Trust Sanger.

Figure 1. Impact des fréquences des allèles. La figure illustre la relation entre le seuil choisi pour la fréquence de l’allèle mineur (q) et le nombre de blocs d’haplotype identifiés (A) et de SNP d’étiquette (B), respectivement. Les résultats sont présentés pour la méthode LD et l’APD.

Figure 1. Impact des fréquences des allèles. La figure illustre la relation entre le seuil choisi pour la fréquence de l’allèle mineur (q) et le nombre de blocs d’haplotype identifiés (A) et de SNP d’étiquette (B), respectivement. Les résultats sont présentés pour la méthode LD et l’APD.

Figure 2. Impact des changements de paramètres. La relation entre les paramètres choisis et le nombre de SNP d’étiquette identifiés pour la méthode LD et le DPA aux seuils choisis pour la fréquence de l’allèle mineur (q). (A–C) DPA, le paramètre α (= β) a varié entre 0,7 et 0,95. (D–F) Méthode LD, les limites de confiance sur D ‘ ont été abaissées et relevées ; l’analyse a été réalisée à un niveau β de 0,8.

Figure 2. Impact des changements de paramètres. La relation entre les paramètres choisis et le nombre de SNP d’étiquette identifiés pour la méthode LD et le DPA aux seuils choisis pour la fréquence de l’allèle mineur (q). (A–C) DPA, le paramètre α (= β) a varié entre 0,7 et 0,95. (D–F) Méthode LD, les limites de confiance sur D ‘ ont été abaissées et relevées ; l’analyse a été réalisée à un niveau β de 0,8.

1

Risch, N. (

2000

) Recherche de gènes dans des maladies complexes: leçons du lupus érythémateux disséminé.

J. Clin. Investir

,

105

,

1503

-1506.

2

L’étude de l’impact sur la santé et la santé de la population a permis de déterminer si l’impact sur la santé et la santé de la population était important. (

2001

) Structure haplotypique à haute résolution dans le génome humain.

Nat. Genet.

,

29

,

229

–232.

3

Taillon-Miller, P., Bauer-Sardina, I., Saccone, N.L., Putzel, J., Laitinen, T., Cao, A., Kere, J., Pilia, G., Rice, J.P. et Kwok, P.Y. (

2000

) Régions juxtaposées de déséquilibre de liaison étendu et minimal chez Xq25 et Xq28 humains.

Nat. Genet.

,

25

,

324

–328.

4

Zhang, K., Calabrese, P., Nordborg, M. et Sun, F. (

2002

) Structure de bloc d’haplotype et ses applications aux études d’association : conceptions de puissance et d’étude.

Matin. J. Hum. Genet.

,

71

,

1386

–1394.

5

Gabriel, S.B., Schaffner, S.F., Nguyen, H., Moore, J.M., Roy, J., Blumenstiel, B., Higgins, J., DeFelice, M., Lochner, A., Faggart, M. et coll. (

2002

) La structure des blocs d’haplotype dans le génome humain.

Science

,

296

,

2225

-2229.

6

Il s’agit de l’un des principaux organismes de recherche et de développement du Canada. (

2001

) Marquage par haplotype pour l’identification des gènes communs de la maladie.

Nat. Genet.

,

29

,

233

–237.

7

Koivisto, M., Perola, M., Varilo, T., Hennah, W., Ekelund, J., Lukk, M., Peltonen, L., Ukkonen, E. et Mannila, H. (

2003

) Une méthode MDL pour trouver des blocs d’haplotype et pour estimer la force des limites des blocs d’haplotype.

Pacific Symposium on Biocomputing

, pp.

502

–513.

8

Mannila, H., Koivisto, M., Perola, M., Varilo, T., Hennah, W., Ekelund, J., Lukk, M., Peltonen, L. et Ukkonen, E. (

2003

) Description minimale localisateur de blocs de longueur, une méthode pour identifier les blocs d’haplotype et comparer la force des limites de blocs.

Matin. J. Hum. Genet.

,

73

,

86

–94.

9

Patil, N., Berno, A.J., Hinds, D.A., Barrett, W.A., Doshi, J.M., Hacker, C.R., Kautzer, C.R., Lee, D.H., Marjoribanks, C., McDonough, D.P. et al. (

2001

) Blocs de diversité haplotypique limitée révélés par balayage à haute résolution du chromosome 21 humain.

Science

,

294

,

1719

-1723.

10

Zhang, K., Deng, M., Chen, T., Waterman, M.S. et Sun, F. (

2002

) Un algorithme de programmation dynamique pour le partitionnement de blocs haplotypes.

Proc. Natl Acad. Sci. États-Unis

,

99

,

7335

-7339.

11

Zhang, K. et Jin, L. (

2003

) HaploBlockFinder : analyses de blocs d’haplotypes.

Bio-informatique

,

19

,

1300

-1301.

12

Schwartz, R., Halldorsson, B.V., Bafna, V., Clark, A.G. et IstAil, S. (

2003

) Robustesse de l’inférence de la structure du bloc haplotype.

J. Comput. Biol.

,

10

,

13

–19.

13

Les auteurs de l’étude ont indiqué que les auteurs de l’étude, les auteurs de l’étude, les auteurs de l’étude, les auteurs de l’étude, les auteurs de l’étude, les auteurs de l’étude, les auteurs de l’étude, les auteurs de l’étude, les auteurs de l’étude, les auteurs de l’étude, etc. (

2003

) Distribution à l’échelle chromosomique des blocs d’haplotypes et rôle des points chauds de recombinaison.

Nat. Genet.

,

33

,

382

–387.

14

Zhang, W., Collins, A., Maniatis, N., Tapper, W. et Morton, N. E. (

2002

) Propriétés des cartes de déséquilibre de liaison (LD).

Proc. Natl Acad. Sci. États-Unis

,

99

,

17004

-17007.

15

Zhang, K., Sun, F., Waterman, M.S. et Chen, T. (

2003

) Partition de bloc d’haplotype avec des ressources et des applications limitées aux données d’haplotype du chromosome 21 humain.

Matin. J. Hum. Genet.

,

73

,

63

–73.

16

Collins, F.S. et Green, E.D. (

2003

) Une vision de l’avenir de la recherche en génomique.

Nature

,

422

,

835

-847.

17

Carlson, C.S., Eberle, M.A., Rieder, M.J., Smith, J.D., Kruglyak, L. et Nickerson, D.A. (

2003

) Des SNP supplémentaires et des analyses de couplage-déséquilibre sont nécessaires pour les études d’association du génome entier chez l’homme.

Nat. Genet.

,

33

,

518

–521.

18

Goldstein, D.B. (

2001

) Îlots de déséquilibre de liaison.

Nat. Genet.

,

29

,

109

–111.

19

Jeffreys, A.J., Kauppi, L. et Neumann, R. (

2001

) Ponctuez intensément la recombinaison méiotique dans la région de classe II du complexe majeur d’histocompatibilité.

Nat. Genet.

,

29

,

217

–222.

20

Jeffreys, A.J., Ritchie, A. et Neumann, R. (

2000

) Analyse à haute résolution de la diversité des haplotypes et du croisement méiotique dans le hotspot de recombinaison TAP2 humain.

Bourdonnement. Mol. Genet.

,

9

,

725

–733.

21

Zhang, K., Akey, J.M., Wang, N., Xiong, M., Chakraborty, R. et Jin, L. (

2003

) Les croisements distribués aléatoirement peuvent générer des modèles de déséquilibre de liaison en forme de bloc: un acte de dérive génétique.

Bourdonnement. Genet

,

113

,

51

-59.

22

Stumpf, M.P. et Goldstein, D.B. (

2003

) La démographie, l’intensité du point chaud de recombinaison et la structure en blocs du déséquilibre de liaison.

Curr. Biol.

,

13

,

1

–8.

23

Judson, D., Salisbury, B., Schneider, J., Windemuth, A. et Stephens, J.C. (

2002

) Combien de SNP une carte d’haplotype à l’échelle du génome nécessite-t-elle?

Pharmacogénomique

,

3

,

379

-391.

24

Shifman, S., Kuypers, J., Kokoris, M., Yakir, B. et Darvasi, A. (

2003

) Modèles de déséquilibre de liaison du génome humain entre les populations.

Bourdonnement. Mol. Genet.

,

12

,

771

–776.

25

Risch, N. et Merikangas, K. (

1996

) L’avenir des études génétiques de maladies humaines complexes.

Science

,

273

,

1516

-1517.

26

McGinnis, R., Shifman, S. et Darvasi, A. (

2002

) Puissance et efficacité de la conception TDT et case-control pour les analyses d’association.

Se comporter. Genet.

,

32

,

135

–144.

27

Le nom de l’espèce a été donné en référence au lieu de sa découverte. (

2003

) Sélection de marqueurs génétiques pour les analyses d’association, en utilisant un déséquilibre de liaison et des haplotypes.

Matin. J. Hum. Genet.

,

73

,

115

–130.

28

Cardon, L.R. et Abecasis, G.R. (

2003

) Utilisation de blocs d’haplotypes pour cartographier les locus de traits complexes humains.

Tendances Genet.

,

19

,

135

–140.

29

Dawson, E., Abecasis, G.R., Bumpstead, S., Chen, Y., Hunt, S., Beare, D.M., Pabial, J., Dibling, T., Tinsley, E., Kirby, S. et coll. (

2002

) Une carte de déséquilibre de liaison de première génération du chromosome 22 humain.

Nature

,

418

,

544

-548.

30

Chen, X., Levine, L. et Kwok, P.Y. (

1999

) Polarisation de fluorescence dans l’analyse des acides nucléiques homogènes.

Génome Rés.

,

9

,

492

-498.

31

Akula, N., Chen, Y.S., Hennessy, K., Schulze, T.G., Singh, G. et McMahon, F.J. (

2002

) Utilité et précision de l’incorporation de terminateurs de colorant dirigée par un modèle avec détection de polarisation par fluorescence pour le génotypage de polymorphismes nucléotidiques simples.

Biotechniques

,

32

,

1072

-1076.

32

Lewontin, R.C. (

1964

) L’interaction de la sélection et de la liaison. I. considérations générales; modèles hétérotiques.

Génétique

,

49

,

49

-67.

33

Abecasis, G.R. et Cookson, O.O. (

2000

) GOLD – aperçu graphique du déséquilibre des liaisons.

Bio-informatique

,

16

,

182

-183.

34

Dempster, A.P., Laird, N.M. et Rubin, D.B. (

1977

) Maximum de vraisemblance à partir de données incomplètes via l’algorithme EM.

J. R. Stat. Soc., Ser. D

,

39

,

1

-38.

35

Les deux parties sont les suivantes : (

1995

) Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population.

Mol. Biol. Evol.

,

12

,

921

–927.

36

Qin, Z.S., Niu, T. and Liu, J.S. (

2002

) Partition–ligation expectation-maximization algorithm for haplotype inference with single-nucleotide polymorphisms.

Am. J. Hum. Genet

,

71

,

1242

–1247.

37

Zapata, C., Alvarez, G. and Carollo, C. (

1997

) Variance approximative de la mesure normalisée du déséquilibre gamétique D’.

Matin. J. Hum. Genet.

,

61

,

771

–774.

38

Kim, S.K., Zhang, K. et Sun, F. (

2004

) Une comparaison des différentes stratégies de calcul des intervalles de confiance de la mesure de déséquilibre de liaison D’.

Pacific Symposium on Biocomputing

(sous presse).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.