Modelado in silico de elementos de respuesta hormonal

Entrenamiento no supervisado para el modelo HRE

Como una implementación del algoritmo de aprendizaje no supervisado para el modelado de HRE, en este estudio se desarrolla un enfoque de matriz de peso de posición adaptado.

* El algoritmo de Matriz de Peso de Posición

Comenzamos con un modelo estadístico de matriz de peso de posición (PWM) que fue descrito por primera vez por Quandt et al. . Adaptamos el concepto para el reconocimiento de patrones de EDH. Para justificar si una secuencia dada es un PRE, comparamos esta secuencia con un conjunto de secuencias validadas experimentalmente. La puntuación de similitud de la comparación es proporcional a la suma de todos los resultados de las comparaciones de posición. Para comparar una secuencia con una matriz, desarrollamos los siguientes procesos:

  1. A)

    Cálculo de la conservación relativa para cada posición i en la matriz:

donde P (i, b) es la frecuencia relativa de la letra b en la posición i.

Esta conservación relativa es proporcional al contenido de información para cada posición, que, a su vez, se refiere indirectamente a la energía de unión de nucleótidos a aminoácidos . Como se puede calcular fácilmente, toma un valor de 0 cuando la distribución de nucleótidos en una posición particular es uniforme y no demuestra preservación. El valor de 1 se alcanza en el caso de una fuerte conservación de un nucleótido en particular. Se seleccionaron los factores de normalización para variar estrictamente el Ic de 0 a 1. Si para una posición en particular, un resultado de ‘brecha’ no está calificado, entonces en lo anterior, los coeficientes 5 deben cambiarse a 4; es decir, siempre es el número de resultados posibles para cada posición.

  1. B)

    Cálculo del coeficiente de similitud de la matriz que representa la semejanza de una secuencia dada y el patrón. El patrón está representado por la matriz de frecuencia de posición.

donde b es el ithletter de la secuencia, y score(i, b) es el elemento de la matriz de frecuencia de posición ubicada en la fila i y correspondiente al nucleótido b.

Como se puede ver, cuanto mayor sea el coeficiente de MS, mayores serán los valores de correspondent score(i, b); por lo tanto, mayores valores de MS corresponden a las secuencias que consisten en nucleótidos más frecuentes. Finalmente, cuanto mayor sea el valor de MS, más cerca estará la secuencia del conjunto de entrenamiento de sitios de unión validados experimentalmente.

La similitud de la matriz alcanza 1 solo si la secuencia candidata corresponde al nucleótido más conservado en cada posición de la matriz. Multiplicar cada puntuación por el valor de Ic enfatiza el hecho de que los desajustes en posiciones menos conservadas son más fáciles de tolerar que los desajustes en posiciones altamente conservadas.

• Matrices de peso de posición de mono y di-nucleótidos

En el modelado de reconocimiento PREVIO para una secuencia dada se calculan dos coeficientes de similitud de matriz: MNMS (similitud de matriz de mono-nucleótidos) y DNMS (similitud de matriz de di-nucleótidos). Antes de calcular estos coeficientes, la secuencia se alinea con el HRE de consenso. Después de todo, para calcular los coeficientes de similitud de la matriz, solo se utiliza la secuencia alineada. Sin embargo, puede contener uno o más huecos después del procedimiento de alineación.

El primer cálculo de coeficiente es una comparación simple de la matriz de frecuencia de posición de mononucleótidos con la secuencia alineada exactamente como se describió anteriormente.

La segunda comparación requiere preparación previa. Una secuencia de nucleótidos debe ser preprocesada para una comparación adecuada con la matriz de frecuencia de posición de di-nucleótidos. El alfabeto de los di-nucleótidos existentes consta de 25 elementos (cuatro nucleótidos diferentes y un hueco en todas las combinaciones posibles). El alfabeto latino contiene suficientes letras diferentes para reconstruir la conformidad uno a uno, en la que cada di-nucleótido corresponde a una sola letra del nuevo alfabeto.

Entonces, para una secuencia adquirida como resultado de esta conversión, el coeficiente de similitud de la matriz se calcula exactamente como en el anterior para matrices de frecuencia de mononucleótidos, pero la matriz en uso ahora es la de frecuencia de dinucleótidos. La única corrección es el cambio de los coeficientes de normalización. Debido a que el número de di-nucleótidos diferentes (y el número correspondiente de letras en el alfabeto recién implementado) es de hasta 25, es necesario cambiar 4 o 5 a 16 o 20 o 25, dependiendo de si se asume un símbolo de espacio en cualquier posición del di-nucleótido.

Una vez calculados estos dos coeficientes, se implementa el procedimiento de toma de decisiones. Utiliza niveles de corte para cada uno de los dos coeficientes. Estos niveles de corte deben estar predeterminados por algunos métodos de ajuste o validación cruzada.

Si para una secuencia dada, el MNMS es mayor que el nivel de corte para este valor, y DNMS también excede su umbral, entonces es un HRE.

Para cada HRE reconocido se define el elemento más similar del conjunto de entrenamiento. También se indica si tal secuencia del medio sitio derecho (que se espera esté altamente conservado) se presenta en cualquiera de los EAR validados experimentalmente. Esto es importante en el caso de un conjunto de entrenamiento bastante grande y representativo utilizado, cuando la ausencia de una secuencia determinada en la muestra podría ser un indicador valioso para ajustar el modelo.

Aprendizaje automático supervisado

La red neuronal de alimentación directa se utiliza para la verificación cruzada de los HRE previstos.

* Representación de entrada / salida

El conjunto de datos recogido consiste en un número de secuencias de ADN en alfabeto de 4 letras Ω = {A, C, G, T}. En el modelo basado en la frecuencia de posición anterior, las letras se anotan como estados diferentes, independientes y equidistantes. Sin embargo, el modelo de red neuronal funciona con números digitales. El espacio de los números es unidimensional, así que si confrontamos los 4 nucleótidos con números, ya no son equidistantes, y por lo tanto traemos algunos artefactos a nuestro modelo. Después de algunas pruebas, descubrimos que los artefactos de modelado utilizando el rendimiento unidimensional de los nodos de entrada son bastante críticos para la precisión. Por lo tanto, implementamos la representación «one-hot» para la codificación de ADN.

Para la decisión Sí / No, es suficiente representar la salida como un solo bit. Sin embargo, con el fin de distinguir los elementos de respuesta de Andrógenos, Progesteronas y Glucocorticoides (que forman nuestro conjunto de datos de HRE), o cualquier otro grupo de HRE (ya que los HRE definitivamente no son un subespacio uniforme de secuencias de ADN), presentamos la salida como un vector. En particular, la salida Sí / No es un vector de 2: Sí = (1, -1) y No = (-1,1). En este caso, el movimiento de salida es en el espacio bidimensional y permite una mayor flexibilidad.

* La estructura de la red neuronal

Con la entrada como vectores de 4 dimensiones, para una HRE de 15 pb de largo, tenemos 60 nodos de entrada. La teoría de la red neuronal sugiere que para el aprendizaje seguro, el número de grados de libertad, o pesos para ajustarse, es como máximo la mitad del número de restricciones (las entradas). Por lo tanto, en el caso de una capa oculta y un conjunto de datos de aproximadamente 7000 HRE positivos y negativos, debemos limitar el número de neuronas de capa oculta a aproximadamente 50. Por lo tanto, tenemos 60 × (50+1) pesos de la capa oculta y (50+1) × 2 pesos de la capa de salida (más uno es para un término de sesgo), un total de aproximadamente 3000. En el caso de dos capas ocultas, el número máximo de neuronas en cada capa es de aproximadamente 40. Sin embargo, encontramos que el uso de dos capas es excesivo para el problema actual.

En nuestro modelo de red neuronal, las funciones sigmoides bipolares se utilizan para la implementación de todas las capas. Toda la estructura de la red se ilustra en la Fig. 2.

Figura 2
figura2

Red Neuronal Artificial para la PRE reconocimiento.

• Aprendizaje de propagación inversa

Para el entrenamiento del modelo, se implementa el aprendizaje de propagación inversa: para cada patrón ejemplar del conjunto de entrenamiento, encuentre la diferencia de pesos para la capa de salida, propague la diferencia a la capa oculta, luego encuentre la diferencia de pesos para la capa oculta y, finalmente, modifique todos los pesos de la red.

La ecuación de ajuste de pesos para cada neurona es:

wt + 1 = wt + α × δ x (4)

donde wt + 1 es un vector de pesos para una neurona en particular en el paso t-ésimo de aprendizaje, at es el parámetro de aprendizaje en el paso t-ésimo (0 < at < 1 t t > 0), el valor delta para cada neurona se calcula de la siguiente manera:

donde dt y otrepresentan las salidas deseadas y actualmente obtenidas de la neurona, respectivamente, x es la entrada a la capa que se está considerando (ya sea oculta o de salida), ut= wtx es la entrada sináptica a la neurona, y f(ut) es la función de activación de la neurona. Además, para el valor delta propagado hacia atrás, K es un número de neuronas en la capa de salida, wh – > k es el coeficiente de peso de la conexión entre la neurona hth de la capa oculta y la neurona kth de la capa de salida, la salida δk es un valor delta para la neurona kth de la capa de salida calculado como se muestra por la fórmula (5).

La propagación inversa termina cuando se satisface la tolerancia de error para la precisión del 99%, se pasa el número deseado de épocas o se alcanza la meseta de errores.

El parámetro de velocidad de aprendizaje α regula la zancada del algoritmo de descenso de gradiente para minimizar el error de aprendizaje. Cuanto mayor sea la tasa de aprendizaje, más rápida será la convergencia. Pero con una tasa de aprendizaje muy alta, existe la posibilidad de saltar por encima del mínimo de error o recibir oscilaciones en lugar del estado estacionario. Por otro lado, una tasa de aprendizaje muy baja proporciona menos posibilidades de encontrar el mínimo global, y en su lugar, utiliza el primer mínimo local encontrado aleatoriamente. Nuestra solución es ajustar el parámetro de aprendizaje: si el error de pase actual es menor que el anterior, nos movemos en la dirección correcta y podemos movernos un poco más rápido, aumentando α en un 5%. Si hemos saltado por encima del mínimo y hemos recibido un error mayor, el sistema retrocede con pasos más pequeños, y at se reduce en un 30%.

Para el aprendizaje supervisado, se utiliza un conjunto de HRE verificadas experimentalmente con la respuesta deseada SÍ (1; -1), y un conjunto de diez secuencias de ADN neutro se asocia con la respuesta deseada NO (-1;1). Ambos conjuntos de entrenamiento son grandes, por lo tanto, para que la red neuronal evite oscilaciones severas, los mezclamos; de lo contrario, mientras mira a través de varios cientos del conjunto de entrenamiento positivo (negativo), la red puede adaptarse a las respuestas positivas (negativas), sin prestar atención a las negativas (positivas).

Estimación de precisión

A efectos de estimación de precisión, se utiliza una validación cruzada de diez veces, el 90% del conjunto de datos total es el conjunto de entrenamiento y el 10% restante se utiliza con fines de prueba. Esta separación se repite 10 veces (con conjuntos de pruebas no superpuestos) y se calculan los valores de error promedio.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.