In silico modelação da resposta hormonal elementos

Supervisionado de formação para o HRE modelo

Como uma implementação do algoritmo de aprendizagem supervisionada para HRE modelagem, da adaptação de uma posição de peso matriz de abordagem é desenvolvida neste estudo.

* the Position Weight Matrix algorithm

We start with a statistic model of position weight matrix (PWM) which was first described by Quandt et al. . Adaptamos o conceito para o reconhecimento de padrões HRE. Para justificar se uma dada sequência é um PRE, comparamos esta sequência com um conjunto de sequências experimentalmente validadas. A pontuação de similaridade da comparação é proporcional à soma de todos os resultados de comparações de posição. Para comparar uma seqüência de uma matriz, nós desenvolvemos os seguintes processos:

  1. A)

    Cálculo da proporção de conservação para cada posição i na matriz:

onde P(i, b) é a freqüência relativa de a letra b, na posição que eu.

esta conservação relativa é proporcional ao conteúdo de informação para cada posição, que, por sua vez, está indiretamente preocupado com nucleotídeo para energia de ligação de aminoácidos . Como pode ser facilmente calculado, leva valor de 0 quando a distribuição de nucleotídeos em uma determinada posição é uniforme e não demonstra preservação. O valor de 1 é atingido no caso de forte conservação de um nucleotídeo específico. Os fatores de normalização foram selecionados a fim de variar o IC estritamente de 0 a 1. Se, para uma determinada posição, um resultado de ” gap ” não for avaliado, então no acima, os coeficientes 5 devem ser alterados em 4; ou seja, é sempre o número de resultados possíveis para cada posição.

  1. B)

    cálculo do coeficiente de similaridade da matriz que representa a semelhança de uma dada sequência e do padrão. O padrão é representado pela matriz de frequência de posição.

onde b é o ithletter da seqüência, e a pontuação(i, b) é o elemento da posição de frequência matriz localizado na linha i e a correspondente ao nucleotídeo b.

Como pode ser visto, o superior MS coeficiente, maior será correspondente pontuação(i, b) os valores serão; assim, maiores valores de MS correspondem a sequências que consistem em mais frequente de nucleotídeos. Finalmente, quanto maior o valor de MS, mais próxima a sequência está do conjunto de treinamento de locais de ligação validados experimentalmente.

a similaridade da matriz atinge 1 somente se a sequência candidata corresponder ao nucleotídeo mais conservado em cada posição da matriz. Multiplicar cada pontuação pelo valor de IC enfatiza o fato de que incompatibilidades em posições menos conservadas são mais facilmente toleradas do que incompatibilidades em posições altamente conservadas.

• matrizes de peso de posição Mono e di-nucleotídeo

na modelagem de pré-reconhecimento para uma determinada sequência, são calculados dois coeficientes de similaridade de matriz: MNMS (similaridade de matriz mono-nucleotídeo) e DNMS (similaridade de matriz di-nucleotídeo). Antes de calcular estes coeficientes, a sequência é alinhada com o HRE consensual. Afinal de contas, para calcular os coeficientes de similaridade da matriz, apenas a sequência alinhada é usada. No entanto, pode conter uma ou mais lacunas após o procedimento de alinhamento.

o primeiro cálculo do coeficiente é uma comparação simples da matriz de frequência de posição mono-nucleótidos com a sequência alinhada exatamente como descrito acima.

a segunda comparação requer preparação prévia. Uma sequência de nucleótidos deve ser pré-processada para comparação apropriada com a matriz de frequência de posição de di-nucleótido. O alfabeto dos di-nucleotídeos existentes consiste em 25 elementos (quatro nucleotídeos diferentes e uma lacuna em todas as combinações possíveis). O alfabeto latino contém letras diferentes suficientes para reconstruir a conformidade individual, na qual cada di-nucleotídeo corresponde a uma única letra do novo alfabeto.

então, para uma sequência adquirida como resultado dessa conversão, o coeficiente de similaridade da matriz é calculado exatamente como no acima para matrizes de frequência de mono-nucleotídeo, mas a matriz em uso agora é a frequência de dinucleotídeo um. A única correção é a mudança dos coeficientes de normalização. Como o número de diferentes di-nucleotídeos (e o número correspondente de letras no alfabeto recém-implementado) é de até 25, é necessário alterar 4 ou 5 para 16 ou 20 ou 25, dependendo se um símbolo de lacuna é assumido em qualquer posição do Di-nucleotídeo.

uma vez calculados esses dois coeficientes, o procedimento de tomada de decisão é implementado. Ele usa níveis de corte para cada um dos dois coeficientes. Esses níveis de corte devem ser predeterminados por alguns métodos de ajuste ou validação cruzada.

se para uma determinada sequência, o MNMS é maior do que o nível de corte para esse valor, e o DNMS também excede seu limite, então é um HRE.

para cada HRE reconhecido, o elemento mais semelhante do conjunto de treinamento é definido. Também é indicado se tal sequência do meio-local Direito (que se espera que seja altamente conservada) é apresentada em qualquer um dos HREs encontrados validados experimentalmente. Isso é importante no caso de um conjunto de treinamento bastante grande e representativo usado, quando a ausência de uma determinada sequência na amostra pode ser um indicador valioso para ajustar o modelo.

aprendizado de máquina supervisionado

a rede neural Feed-forward é então usada para verificação cruzada dos HREs previstos.

• representação de entrada/saída

o conjunto de dados coletado consiste em várias sequências de DNA no alfabeto de 4 letras Ω = {A, C, G, T}. No modelo baseado em frequência de posição acima, as letras são anotadas como estados diferentes, independentes e equidistantes. No entanto, o modelo de rede neural funciona com números digitais. O espaço dos números é unidimensional, portanto, se confrontarmos todos os 4 nucleotídeos com números, eles não são mais equidistantes e, portanto, trazemos alguns artefatos ao nosso modelo. Depois de alguns testes, descobrimos que os artefatos de modelagem usando desempenho unidimensional de nós de entrada são bastante críticos para a precisão. Portanto, implementamos a representação “one-hot” para codificação de DNA.

para decisão sim / não, basta representar a saída como um único bit. No entanto, para fins de distinguir andrógeno, progesterona e glicocorticóide elementos de resposta (que formam nosso conjunto de dados de HREs), ou quaisquer outros aglomerados de HREs (como os HREs definitivamente não são um subespaço uniforme de sequências de DNA), apresentamos a saída como um vetor. Em particular,a saída Sim/não é um vetor 2: Sim = (1, -1) e não = (-1,1). Nesse caso, o movimento da saída está no espaço bidimensional e permite mais flexibilidade.

• a estrutura da rede neural

com a entrada como vetores de 4 dimensões, para um HRE de 15 PB de comprimento, temos 60 nós de entrada. A teoria da rede neural sugere que, para o aprendizado confiante, o número de graus de liberdade, ou pesos para caber, seja no máximo metade do número de restrições (as entradas). Portanto, no caso de uma camada oculta e um conjunto de dados de cerca de 7000 HREs positivos e negativos, devemos limitar o número de neurônios da camada oculta a cerca de 50. Assim, temos 60 × (50+1) pesos da camada oculta e (50 + 1) × 2 pesos da camada de saída (mais um é para um termo de viés), totalizando cerca de 3000. No caso de duas camadas ocultas, o número máximo de neurônios em cada camada é de cerca de 40. No entanto, descobrimos que o uso de duas camadas é excessivo para o problema atual.

em nosso modelo de rede neural, as funções sigmóides bipolares são usadas para a implementação de todas as camadas. Toda a estrutura da rede é ilustrada na Fig. 2.

Figura 2
Figura 2

Rede Neural Artificial para pré-reconhecimento.

• aprendizagem de Back-propagation

para o treinamento do modelo, o aprendizado de back-propagation é implementado: para cada padrão exemplar do conjunto de treinamento, encontre a diferença dos pesos para a camada de saída, propague a diferença para a camada oculta e, em seguida, encontre a diferença dos pesos para a camada oculta e, finalmente, modifique todos os pesos da rede.

a equação de ajuste de pesos para cada neurônio é:

wt+1 = wt + α × δ x (4)

onde wt+1 é um vetor de pesos para um determinado neurônio no tth etapa de aprendizagem, a aprendizagem parâmetro no tth passo (0 < em < 1 ∀ t > 0), o valor de delta para cada neurônio é calculado da seguinte forma:

onde dtand otrepresent desejados e obtidos de saída do neurônio, respectivamente, x é a entrada para a camada a ser considerado (ocultos ou de saída), ut= wtx é o synaptic de entrada para o neurônio, e f(ut) é a função de ativação do neurônio. Também, para o back-propagada valor de delta, K é um número de neurônios na camada de saída, wh->kis o coeficiente de peso da conexão entre o hth neurônio da camada oculta e o neurônio k da camada de saída, δk a saída é um valor delta para o neurônio k da camada de saída calculado como mostrado pela fórmula (5).

a propagação posterior é terminada quando a tolerância de erro para a precisão de 99% é satisfeita, o número desejado de epochs é passado, ou o patamar de erro é atingido.

parâmetro de taxa de aprendizagem α regula o passo do algoritmo de descida de gradiente para minimizar o erro de aprendizagem. Quanto maior a taxa de aprendizagem é a convergência mais rápida vai. Mas com uma taxa de aprendizado muito alta, há uma chance de pular o mínimo de erro ou receber oscilações em vez de estado estacionário. Por outro lado, uma taxa de aprendizado muito baixa oferece menos chance de encontrar o mínimo global e, em vez disso, usa o primeiro mínimo local encontrado aleatoriamente. Nossa solução é ajustar o parâmetro de aprendizagem: se o erro de passagem atual for menor que o anterior, estamos caminhando na direção certa e podemos mover-nos um pouco mais rápido, aumentando α em 5%. Se nós saltamos sobre o mínimo e recebemos um erro maior, o sistema volta com passos menores, e at é diminuído em 30%.

para a aprendizagem supervisionada, um conjunto de HREs experimentalmente verificados é usado com a resposta desejada SIM (1; -1), e um conjunto dez vezes maior de sequências neutras de DNA está associado com a resposta desejada não (-1;1). Ambos os conjuntos de treinamento são grandes, portanto, para que a rede neural evite oscilações severas, nós os misturamos; caso contrário, ao examinar várias centenas do conjunto de treinamento positivo (negativo), a rede pode se adaptar às respostas positivas (negativas), sem atenção às negativas (positivas).

estimativa de precisão

para fins de estimativa de precisão, é utilizada validação cruzada de dez vezes, sendo 90% do conjunto de dados total o conjunto de treinamento e o restante 10% usado para fins de teste. Essa separação é repetida 10 vezes (com conjuntos de testes não sobrepostos) e os valores médios de erro são calculados.

Deixe uma resposta

O seu endereço de email não será publicado.