In silico modeling of hormone response elements

Training non supervisionato per il modello HRE

Come implementazione di un algoritmo di apprendimento non supervisionato per la modellazione HRE, in questo studio viene sviluppato un approccio alla matrice del peso di posizione adattato.

• L’algoritmo della matrice del peso di posizione

Iniziamo con un modello statistico della matrice del peso di posizione (PWM) che è stato descritto per la prima volta da Quandt et al. . Abbiamo adattato il concetto per il riconoscimento dei modelli HRE. Per giustificare se una data sequenza è un PRE, confrontiamo questa sequenza con un insieme di sequenze convalidate sperimentalmente. Il punteggio di somiglianza del confronto è proporzionale alla somma di tutti i risultati dei confronti di posizione. Per confrontare una sequenza con una matrice, sviluppiamo i seguenti processi:

  1. A)

    Calcolo della conservazione relativa per ogni posizione i nella matrice:

dove P (i, b) è la frequenza relativa della lettera b nella posizione i.

Questa conservazione relativa è proporzionale al contenuto di informazioni per ciascuna posizione, che, a sua volta, è indirettamente interessata dall’energia di legame tra nucleotide e amminoacido . Come può essere facilmente calcolato, prende valore di 0 quando la distribuzione nucleotidica su una particolare posizione è uniforme e non dimostra alcuna conservazione. Il valore di 1 viene raggiunto in caso di forte conservazione di un particolare nucleotide. I fattori di normalizzazione sono stati selezionati al fine di variare Ci rigorosamente da 0 a 1. Se per una particolare posizione, un risultato di ” gap ” non è valutato, allora in quanto sopra, i coefficienti 5 dovrebbero essere cambiati in 4; cioè, è sempre il numero di possibili risultati per ogni posizione.

  1. B)

    Calcolo del coefficiente di somiglianza della matrice che rappresenta la somiglianza di una data sequenza e del modello. Il modello è rappresentato dalla matrice di frequenza di posizione.

dove b è la ithletter della sequenza, e il punteggio(i, b) è l’elemento di posizione matrice di frequenze situato nella riga i e corrispondente al nucleotide b.

Come si può vedere, il più alto di MS coefficiente più elevato è il punteggio corrispondente(i, b) valori; e dunque, più MS valori corrispondono alle sequenze che consistono di più frequente nucleotidi. Infine, più alto è il valore MS, più la sequenza è vicina al set di allenamento dei siti di associazione convalidati sperimentalmente.

La somiglianza della matrice raggiunge 1 solo se la sequenza candidata corrisponde al nucleotide più conservato in ogni posizione della matrice. Moltiplicando ogni punteggio per il valore Ci sottolinea il fatto che i disallineamenti in posizioni meno conservate sono più facilmente tollerati rispetto ai disallineamenti in posizioni altamente conservate.

• Matrici di peso di posizione mono e di-nucleotide

Nella modellazione del PRE riconoscimento per una data sequenza vengono calcolati due coefficienti di somiglianza della matrice: MNM (somiglianza della matrice mono-nucleotidica) e DNM (somiglianza della matrice di-nucleotide). Prima di calcolare questi coefficienti, la sequenza è allineata con il consenso HRE. Dopotutto, per calcolare i coefficienti di somiglianza della matrice, viene utilizzata solo la sequenza allineata. Tuttavia, può contenere uno o più spazi vuoti dopo la procedura di allineamento.

Il primo calcolo del coefficiente è un semplice confronto della matrice di frequenza di posizione mono-nucleotide con la sequenza allineata esattamente come descritto sopra.

Il secondo confronto richiede una preparazione preventiva. Una sequenza nucleotidica deve essere pre-processata per un confronto appropriato con la matrice di frequenza di posizione del di-nucleotide. Alfabeto di di-nucleotidi esistenti è costituito da 25 elementi (quattro diversi nucleotidi e una lacuna in tutte le possibili combinazioni). L’alfabeto latino contiene abbastanza lettere diverse per ricostruire la conformità uno a uno, in cui ogni di-nucleotide corrisponde a una singola lettera del nuovo alfabeto.

Quindi, per una sequenza acquisita come risultato di questa conversione, il coefficiente di somiglianza della matrice viene calcolato esattamente come nel precedente per le matrici a frequenza mono-nucleotidica, ma la matrice in uso ora è quella a frequenza dinucleotidica. L’unica correzione è il cambiamento dei coefficienti di normalizzazione. Poiché il numero di diversi di-nucleotidi (e il numero corrispondente di lettere nell’alfabeto appena implementato) è pari a 25, è necessario cambiare 4 o 5 a 16 o 20 o 25, a seconda che un simbolo di gap sia assunto in qualsiasi posizione del di-nucleotide.

Una volta calcolati questi due coefficienti, viene attuata la procedura decisionale. Utilizza livelli di cut-off per ciascuno dei due coefficienti. Questi livelli di cut-off devono essere predeterminati da alcuni metodi di sintonizzazione o validazione incrociata.

Se per una data sequenza, l’MNMS è maggiore del livello di cut-off per questo valore e anche il DNMS supera la sua soglia, allora è un HRE.

Per ogni HRE riconosciuto viene definito l’elemento più simile del set di allenamento. È anche indicato se una tale sequenza del mezzo sito destro (che dovrebbe essere altamente conservata) è presentata in una qualsiasi delle HRES convalidate sperimentalmente. Questo è importante nel caso di un set di allenamento piuttosto ampio e rappresentativo utilizzato, quando l’assenza di una determinata sequenza nel campione potrebbe essere un indicatore prezioso per la messa a punto del modello.

Apprendimento automatico supervisionato

La rete neurale feed-forward viene quindi utilizzata per la verifica incrociata delle HRES previste.

• Rappresentazione input/output

Il set di dati raccolti è costituito da un numero di sequenze di DNA in alfabeto a 4 lettere Ω = {A, C, G, T}. Nel modello basato sulla frequenza di posizione sopra, le lettere sono annotate come stati diversi, indipendenti ed equidistanti. Tuttavia, il modello di rete neurale funziona con i numeri digitali. Lo spazio dei numeri è unidimensionale, quindi se confrontiamo tutti e 4 i nucleotidi con i numeri, non sono più equidistanti, e quindi portiamo alcuni artefatti al nostro modello. Dopo alcuni test abbiamo scoperto che gli artefatti della modellazione utilizzando le prestazioni unidimensionali dei nodi di input sono piuttosto critici per l’accuratezza. Pertanto, implementiamo la rappresentazione “one-hot” per la codifica del DNA.

Per decisione Sì / No, è sufficiente rappresentare l’output come un singolo bit. Tuttavia, allo scopo di distinguere gli elementi di risposta androgeni, progesterone e glucocorticoidi (che formano il nostro set di dati di HREs), o qualsiasi altro cluster di HREs (poiché gli HRES non sono sicuramente un sottospazio uniforme delle sequenze di DNA), presentiamo l’output come vettore. In particolare, l’output Yes/No è un vettore 2: Yes = (1,-1) e No = (-1,1). In questo caso, il movimento di uscita è nello spazio bidimensionale e consente una maggiore flessibilità.

• La struttura della rete neurale

Con l’input come vettori a 4 dimensioni, per un HRE lungo 15 bp, abbiamo 60 nodi di input. La teoria della rete neurale suggerisce che per l’apprendimento sicuro il numero di gradi di libertà, o pesi per adattarsi, sia al massimo la metà del numero di vincoli (gli input). Quindi, nel caso di un livello nascosto e di un set di dati di circa 7000 HRES positivi e negativi, dovremmo limitare il numero di neuroni dello strato nascosto a circa 50. Quindi, abbiamo 60 × (50+1) pesi del livello nascosto e (50+1) × 2 pesi del livello di output (più uno è per un termine di bias), totale circa 3000. Nel caso di due strati nascosti, il numero massimo di neuroni su ogni strato è di circa 40. Tuttavia, abbiamo trovato l’uso di due strati è eccessivo per il problema attuale.

Nel nostro modello di rete neurale, le funzioni sigmoidali bipolari vengono utilizzate per l’implementazione di tutti i livelli. L’intera struttura della rete è illustrata in Fig. 2.

Figura 2
figura2

Rete neurale artificiale per il PRE riconoscimento.

• Back-propagation learning

Per la formazione del modello, viene implementato il back-propagation learning: per ogni modello esemplare dal set di allenamento, trova la differenza dei pesi per il livello di output, propaga la differenza al livello nascosto, quindi trova la differenza dei pesi per il livello nascosto e infine modifica tutti i pesi della rete.

L’equazione di regolazione dei pesi per ogni neurone è:

wt + 1 = wt + α × δ x (4)

dove wt+1 è un vettore di pesi per un particolare neurone nella fase tth dell’apprendimento, at è il parametro di apprendimento nella fase tth (0 < a < 1 t t > 0), il valore delta per ciascun neurone viene calcolato come segue:

dove dtand otrepresent desiderato e ottenuto finora uscite del neurone, rispettivamente, x l’ingresso al livello considerato (nascosto o in uscita), ut= wtx è l’input sinaptici per il neurone, e f(ut) è la funzione di attivazione del neurone. Inoltre, per il valore delta back-propagato, K è un numero di neuroni sullo strato di uscita, wh->k è il coefficiente di peso della connessione tra il neurone hth dello strato nascosto e il neurone kth dello strato di uscita, l’uscita δk è un valore delta per il neurone kth dello strato di uscita calcolato come mostrato dalla formula (5).

La back-propagazione viene terminata quando viene soddisfatta la tolleranza di errore per la precisione del 99%, viene superato il numero desiderato di epoche o viene raggiunto il plateau di errore.

Tasso di apprendimento parametro α regola il passo di gradiente algoritmo di discesa per la minimizzazione dell’errore di apprendimento. Più alto è il tasso di apprendimento è la convergenza più veloce va. Ma con un tasso di apprendimento molto alto c’è la possibilità di saltare oltre il minimo di errore, o ricevere oscillazioni invece di stato stazionario. D’altra parte, un tasso di apprendimento molto basso offre meno possibilità di trovare il minimo globale e, invece, utilizza il primo minimo locale trovato casualmente. La nostra soluzione è quella di regolare il parametro di apprendimento: se l’errore di passaggio corrente è inferiore a quello precedente, ci stiamo muovendo nella giusta direzione e possiamo muoverci un po ‘ più velocemente, aumentando α del 5%. Se abbiamo saltato oltre il minimo e ricevuto errore più grande, il sistema torna con passaggi più piccoli, e at è diminuito del 30%.

Per l’apprendimento supervisionato, viene utilizzato un set di HRES verificati sperimentalmente con la risposta desiderata SÌ (1;-1) e un set di sequenze di DNA neutro decuplicato è associato alla risposta desiderata NO (-1;1). Entrambi i set di allenamento sono grandi, quindi, affinché la rete neurale eviti forti oscillazioni, li mescoliamo; altrimenti, guardando attraverso diverse centinaia del set di allenamento positivo (negativo), la rete può adattarsi alle risposte positive (negative), senza attenzione a quelle negative (positive).

Stima della precisione

A scopo di stima della precisione, viene utilizzata una convalida incrociata di dieci volte, il 90% del set di dati totale è il set di addestramento e il resto 10% viene utilizzato a scopo di test. Questa separazione viene ripetuta 10 volte (con set di test non sovrapposti) e vengono calcolati i valori medi di errore.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.