Modélisation in silico des éléments de réponse hormonale

Formation non supervisée pour le modèle HRE

En tant que mise en œuvre d’un algorithme d’apprentissage non supervisé pour la modélisation HRE, une approche de matrice de poids de position adaptée est développée dans cette étude.

• L’algorithme de Matrice de Poids de position

Nous commençons par un modèle statistique de matrice de poids de position (PWM) qui a été décrit pour la première fois par Quandt et al. . Nous avons adapté le concept pour la reconnaissance des modèles d’ERH. Pour justifier si une séquence donnée est un PRÉ, nous comparons cette séquence avec un ensemble de séquences validées expérimentalement. Le score de similarité de la comparaison est proportionnel à la somme de tous les résultats des comparaisons de positions. Pour comparer une séquence à une matrice, nous développons les processus suivants:

  1. A)

    Calcul de la conservation relative pour chaque position i dans la matrice:

où P(i, b) est la fréquence relative de la lettre b en position i.

Cette conservation relative est proportionnelle au contenu de l’information pour chaque position, qui, à son tour, concerne indirectement l’énergie de liaison des nucléotides aux acides aminés. Comme cela peut être facilement calculé, il prend la valeur de 0 lorsque la distribution des nucléotides sur une position particulière est uniforme et ne démontre aucune conservation. La valeur de 1 est atteinte dans le cas d’une forte conservation d’un nucléotide particulier. Les facteurs de normalisation ont été sélectionnés afin de faire varier strictement l’Ic de 0 à 1. Si pour un poste particulier, un résultat d' »écart » n’est pas évalué, alors dans ce qui précède, les coefficients 5 doivent être changés en 4; c’est-à-dire qu’il s’agit toujours du nombre de résultats possibles pour chaque poste.

  1. B)

    Calcul du coefficient de similarité matricielle qui représente la ressemblance d’une séquence donnée et du motif. Le motif est représenté par la matrice de fréquence de position.

où b est l’ithletter de la séquence, et le score (i, b) est l’élément de la matrice de fréquence de position situé dans la ligne i et correspondent au nucléotide b.

Comme on peut le voir, plus le coefficient de MS est élevé, plus les valeurs de score correspondant (i, b) seront élevées ; ainsi, des valeurs de MS plus élevées correspondent aux séquences constituées de nucléotides plus fréquents. Enfin, plus la valeur de MS est élevée, plus la séquence est proche de l’ensemble d’apprentissage des sites de liaison validés expérimentalement.

La similitude matricielle n’atteint 1 que si la séquence candidate correspond au nucléotide le plus conservé à chaque position de la matrice. La multiplication de chaque score par la valeur Ci souligne le fait que les non-concordances à des positions moins conservées sont plus facilement tolérées que les non-concordances à des positions très conservées.

• Matrices de poids de position mono et di-nucléotidiques

Dans la modélisation de la PRÉ-reconnaissance pour une séquence donnée, deux coefficients de similarité matricielle sont calculés: MNMS (similarité matricielle mono-nucléotidique) et DNMS (similarité matricielle di-nucléotidique). Avant de calculer ces coefficients, la séquence est alignée avec le consensus HRE. Après tout, pour calculer les coefficients de similarité matricielle, seule une séquence alignée est utilisée. Cependant, il peut contenir une ou plusieurs lacunes après la procédure d’alignement.

Le premier calcul de coefficient est une comparaison simple de la matrice de fréquence de position mono-nucléotidique avec la séquence alignée exactement comme décrit ci-dessus.

La deuxième comparaison nécessite une préparation préalable. Une séquence nucléotidique doit être prétraitée pour une comparaison appropriée avec la matrice de fréquence de position des di-nucléotides. Alphabet des di-nucléotides existants se compose de 25 éléments (quatre nucléotides différents et un espace dans toutes les combinaisons possibles). L’alphabet latin contient suffisamment de lettres différentes pour reconstruire la conformité un à un, dans laquelle chaque di-nucléotide correspond à une seule lettre du nouvel alphabet.

Ensuite, pour une séquence acquise à la suite de cette conversion, le coefficient de similarité matricielle est calculé exactement comme dans ce qui précède pour les matrices de fréquence mono-nucléotidiques, mais la matrice utilisée maintenant est celle de fréquence dinucléotidique. La seule correction est le changement des coefficients de normalisation. Étant donné que le nombre de di-nucléotides différents (et le nombre de lettres correspondant dans l’alphabet nouvellement implémenté) peut atteindre 25, il est nécessaire de passer de 4 ou 5 à 16 ou 20 ou 25, selon qu’un symbole d’écart est supposé dans n’importe quelle position du di-nucléotide.

Une fois ces deux coefficients calculés, la procédure de prise de décision est mise en œuvre. Il utilise des niveaux de coupure pour chacun des deux coefficients. Ces niveaux de coupure doivent être prédéterminés par certaines méthodes de réglage ou de validation croisée.

Si pour une séquence donnée, le MNMS est supérieur au niveau de coupure pour cette valeur et que le DNMS dépasse également son seuil, il s’agit d’un HRE.

Pour chaque ERH reconnu, l’élément d’entraînement le plus similaire est défini. Il est également indiqué si une telle séquence du demi-site droit (qui devrait être fortement conservée) est présentée dans l’une des ERH validées expérimentalement trouvées. Ceci est important dans le cas d’un ensemble d’entraînement assez important et représentatif utilisé, lorsque l’absence d’une séquence donnée dans l’échantillon peut être un indicateur précieux pour ajuster le modèle.

Apprentissage automatique supervisé

Le réseau de neurones à flux direct est ensuite utilisé pour la vérification croisée des ERH prédites.

• Représentation d’entrée/sortie

L’ensemble de données collecté est constitué d’un certain nombre de séquences d’ADN en alphabet à 4 lettres Ω = {A, C, G, T}. Dans le modèle basé sur la fréquence de position ci-dessus, les lettres sont annotées comme des états différents, indépendants et équidistants. Cependant, le modèle de réseau neuronal fonctionne avec des nombres numériques. L’espace des nombres est unidimensionnel, donc si nous confrontons les 4 nucléotides avec des nombres, ils ne sont plus équidistants, et nous apportons donc des artefacts à notre modèle. Après quelques tests, nous avons découvert que les artefacts de la modélisation utilisant les performances unidimensionnelles des nœuds d’entrée sont assez critiques pour la précision. Par conséquent, nous implémentons la représentation « one-hot » pour le codage de l’ADN.

Pour une décision Oui / Non, il suffit de représenter la sortie sous forme d’un seul bit. Cependant, aux fins de distinguer les éléments de réponse aux androgènes, à la progestérone et aux Glucocorticoïdes (qui forment notre ensemble de données sur les ERH), ou tout autre groupe d’ERH (car les ERH ne sont certainement pas un sous-espace uniforme de séquences d’ADN), nous présentons la sortie comme un vecteur. En particulier, la sortie Oui/ Non est un vecteur 2 : Oui =(1, -1) et Non =(-1,1). Dans ce cas, le mouvement de sortie se fait dans l’espace bidimensionnel et permet plus de flexibilité.

• La structure du réseau neuronal

Avec l’entrée comme vecteurs à 4 dimensions, pour un ERH de 15 pb de long, nous avons 60 nœuds d’entrée. La théorie du réseau de neurones suggère que pour l’apprentissage confiant, le nombre de degrés de liberté, ou de poids pour s’adapter, soit au plus la moitié du nombre de contraintes (les entrées). Par conséquent, dans le cas d’une couche cachée et d’un ensemble de données d’environ 7000 ERH positives et négatives, nous devrions limiter le nombre de neurones de la couche cachée à environ 50. Ainsi, nous avons 60 × (50 + 1) poids de la couche cachée et (50 + 1) × 2 poids de la couche de sortie (plus un est pour un terme de biais), au total environ 3000. Dans le cas de deux couches cachées, le nombre maximum de neurones sur chaque couche est d’environ 40. Cependant, nous avons trouvé que l’utilisation de deux couches est excessive pour le problème actuel.

Dans notre modèle de réseau neuronal, les fonctions sigmoïdes bipolaires sont utilisées pour l’implémentation de toutes les couches. L’ensemble de la structure du réseau est illustré à la Fig. 2.

Figure 2
 figure2

Réseau neuronal artificiel pour la PRÉ-reconnaissance.

• Apprentissage par rétropropagation

Pour l’apprentissage du modèle, l’apprentissage par rétropropagation est mis en œuvre: pour chaque modèle d’exemple de l’ensemble d’entraînement, recherchez la différence des poids pour la couche de sortie, propagez la différence vers la couche cachée, puis trouvez la différence des poids pour la couche cachée, et enfin modifiez tous les poids du réseau.

L’équation d’ajustement des poids pour chaque neurone est:

wt + 1 = wt + α × δ x (4)

où wt + 1 est un vecteur de poids pour un neurone particulier à la tème étape de l’apprentissage, at est le paramètre d’apprentissage à la tème étape (0 < à < 1 ◄ t > 0), la valeur delta pour chaque neurone est calculée comme suit:

où dt et o représentent respectivement les sorties souhaitées et actuellement obtenues du neurone, x est l’entrée de la couche considérée (cachée ou sortie), ut = wtx est l’entrée synaptique du neurone, et f(ut) est la fonction d’activation du neurone. De plus, pour la valeur delta rétropropagée, K est un nombre de neurones sur la couche de sortie, wh-> k est le coefficient de poids de la connexion entre le hth neurone de la couche cachée et le kth neurone de la couche de sortie, la sortie δk est une valeur delta pour le kth neurone de la couche de sortie calculée comme indiqué par la formule (5).

La rétropropagation est terminée lorsque la tolérance d’erreur pour la précision de 99% est satisfaite, que le nombre d’époques souhaité est dépassé ou que le plateau d’erreur est atteint.

Le paramètre de vitesse d’apprentissage α régule l’algorithme de descente de pas de gradient pour minimiser l’erreur d’apprentissage. Plus le taux d’apprentissage est élevé, plus la convergence est rapide. Mais avec un taux d’apprentissage très élevé, il est possible de sauter par-dessus le minimum d’erreur ou de recevoir des oscillations au lieu d’un état stable. D’un autre côté, un taux d’apprentissage très faible offre moins de chances de trouver le minimum global, et à la place, il utilise le premier minimum local trouvé au hasard. Notre solution consiste à ajuster le paramètre d’apprentissage: si l’erreur de passage actuelle est inférieure à la précédente, nous nous déplaçons dans la bonne direction et pouvons nous déplacer un peu plus rapidement, augmentant α de 5%. Si nous avons dépassé le minimum et reçu une erreur plus importante, le système revient avec des étapes plus petites, et at est diminué de 30%.

Pour l’apprentissage supervisé, un ensemble d’ERH vérifiées expérimentalement est utilisé avec la réponse souhaitée OUI (1;-1), et un ensemble décuplé de séquences d’ADN neutres est associé à la réponse souhaitée NON (-1; 1). Les deux ensembles d’entraînement sont grands, par conséquent, pour que le réseau de neurones évite les oscillations sévères, nous les mélangeons; sinon, en parcourant plusieurs centaines de l’ensemble de formation positive (négative), le réseau peut s’adapter aux réponses positives (négatives), sans attention aux réponses négatives (positives).

Estimation de la précision

Aux fins de l’estimation de la précision, une validation croisée dix fois est utilisée, 90% de l’ensemble de données total étant l’ensemble de formation et les 10% restants étant utilisés à des fins de test. Cette séparation est répétée 10 fois (avec des jeux de tests qui ne se chevauchent pas) et les valeurs d’erreur moyennes sont calculées.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.