In silico modelling of hormone response elements

Unüberwachtes Training für das HRE-Modell

Als Implementierung eines unüberwachten Lernalgorithmus für die HRE-Modellierung wird in dieser Studie ein angepasster Positionsgewichtsmatrix-Ansatz entwickelt.

• Der Positionsgewichtsmatrix-Algorithmus

Wir beginnen mit einem statistischen Modell der Positionsgewichtsmatrix (PWM), das zuerst von Quandt et al. . Wir haben das Konzept zur Erkennung von HRE-Mustern angepasst. Um zu begründen, ob eine gegebene Sequenz eine PRE ist, vergleichen wir diese Sequenz mit einer Reihe experimentell validierter Sequenzen. Der Ähnlichkeitswert des Vergleichs ist proportional zur Summe aller Ergebnisse von Positionsvergleichen. Um eine Sequenz mit einer Matrix zu vergleichen, entwickeln wir folgende Verfahren:

  1. A)

    Berechnung der relativen Erhaltung für jede Position i in der Matrix:

wobei P (i, b) die relative Häufigkeit des Buchstabens b in Position i ist.

Diese relative Erhaltung ist proportional zum Informationsgehalt für jede Position, was wiederum indirekt mit der Bindungsenergie von Nukleotid zu Aminosäure zusammenhängt . Wie leicht berechnet werden kann, nimmt es den Wert 0 an, wenn die Nukleotidverteilung an einer bestimmten Position gleichmäßig ist und keine Konservierung zeigt. Der Wert 1 wird bei starker Konservierung eines bestimmten Nukleotids erreicht. Die Normalisierungsfaktoren wurden ausgewählt, um Ci streng von 0 bis 1 zu variieren. Wenn für eine bestimmte Position ein Ergebnis von ‚Gap‘ nicht bewertet wird, sollten die Koeffizienten 5 in 4 geändert werden; das heißt, es ist immer die Anzahl der möglichen Ergebnisse für jede Position.

  1. B)

    Berechnung des Matrixähnlichkeitskoeffizienten, der die Ähnlichkeit einer gegebenen Sequenz und des Musters darstellt. Das Muster wird durch die Positionsfrequenzmatrix dargestellt.

wobei b der i-te Buchstabe der Sequenz ist und score (i, b) das Element der Positionsfrequenzmatrix ist, das sich in der Zeile i befindet und dem Nukleotid b entspricht.

Wie zu sehen ist, sind die Werte für Score (i, b) umso höher, je höher der MS-Koeffizient ist; somit entsprechen höhere MS-Werte den Sequenzen, die aus häufigeren Nukleotiden bestehen. Je höher der MS-Wert ist, desto näher kommt die Sequenz dem Trainingssatz experimentell validierter Bindungsstellen.

Die Matrixähnlichkeit erreicht 1 nur, wenn die Kandidatensequenz dem am meisten konservierten Nukleotid an jeder Position der Matrix entspricht. Die Multiplikation jeder Punktzahl mit dem Ci-Wert unterstreicht die Tatsache, dass Fehlanpassungen an weniger konservierten Positionen leichter toleriert werden als Fehlanpassungen an hochkonservierten Positionen.

• Mono- und Di-Nukleotid-Positionsgewichtsmatrizen

Bei der Modellierung der Vorerkennung für eine gegebene Sequenz werden zwei Matrixähnlichkeitskoeffizienten berechnet: MNMS (Mono-Nukleotid-Matrix-Ähnlichkeit) und DNMS (Di-Nukleotid-Matrix-Ähnlichkeit). Vor der Berechnung dieser Koeffizienten wird die Sequenz an der HRE ausgerichtet. Schließlich wird zur Berechnung der Matrixähnlichkeitskoeffizienten nur eine Sequenz verwendet. Es kann jedoch eine oder mehrere Lücken nach dem Ausrichtvorgang enthalten.

Die erste Koeffizientenberechnung ist ein einfacher Vergleich der Mononukleotidpositionsfrequenzmatrix mit der ausgerichteten Sequenz genau wie oben beschrieben.

Der zweite Vergleich erfordert eine vorherige Vorbereitung. Eine Nukleotidsequenz ist für einen geeigneten Vergleich mit der Di-Nukleotid-Positionsfrequenzmatrix vorzuverarbeiten. Alphabet der bestehenden Di-Nukleotide besteht aus 25 Elementen (vier verschiedene Nukleotide und eine Lücke in allen möglichen Kombinationen). Das lateinische Alphabet enthält genügend verschiedene Buchstaben, um die Eins-zu-Eins-Konformität zu rekonstruieren, wobei jedes Di-Nukleotid einem einzelnen Buchstaben des neuen Alphabets entspricht.

Dann wird für eine Sequenz, die als Ergebnis dieser Konvertierung erworben wurde, der Matrixähnlichkeitskoeffizient genau wie oben für Mononukleotidfrequenzmatrizen berechnet, aber die jetzt verwendete Matrix ist die Dinukleotidfrequenz. Die einzige Korrektur ist die Änderung der Normalisierungskoeffizienten. Da die Anzahl der verschiedenen Di-Nukleotide (und die entsprechende Anzahl der Buchstaben im neu implementierten Alphabet) bis zu 25 beträgt, ist es notwendig, 4 oder 5 auf 16 oder 20 oder 25 zu ändern, je nachdem, ob an einer beliebigen Position des Di-Nukleotids ein Lückensymbol angenommen wird.

Sobald diese beiden Koeffizienten berechnet wurden, wird das Entscheidungsverfahren implementiert. Es verwendet Grenzwerte für jeden von zwei Koeffizienten. Diese Grenzwerte müssen durch einige Abstimmmethoden oder Kreuzvalidierung vorgegeben werden.

Wenn für eine gegebene Sequenz der MNMS größer als der Grenzwert für diesen Wert ist und DNMS auch seinen Schwellenwert überschreitet, handelt es sich um eine HRE.

Für jede erkannte HRE wird das ähnlichste Element des Trainingssatzes definiert. Es ist auch angezeigt, ob eine solche Sequenz der rechten Halbstelle (die voraussichtlich hochkonserviert ist) in einer der experimentell validierten HREs vorliegt. Dies ist wichtig, wenn ein ziemlich großer und repräsentativer Trainingssatz verwendet wird, wenn das Fehlen einer bestimmten Sequenz in der Stichprobe ein wertvoller Indikator für die Abstimmung des Modells sein kann.

Überwachtes maschinelles Lernen

Das Feed-Forward-neuronale Netzwerk wird dann zur Kreuzverifizierung der vorhergesagten HREs verwendet.

• Eingabe-/Ausgabedarstellung

Der gesammelte Datensatz besteht aus einer Anzahl von DNA-Sequenzen im 4-Buchstaben-Alphabet Ω = {A, C, G, T}. In dem obigen positionsfrequenzbasierten Modell werden die Buchstaben als unterschiedliche, unabhängige und äquidistante Zustände annotiert. Das neuronale Netzwerkmodell arbeitet jedoch mit digitalen Zahlen. Der Raum der Zahlen ist eindimensional, wenn wir also alle 4 Nukleotide mit Zahlen konfrontieren, sind sie nicht mehr äquidistant, und deshalb bringen wir einige Artefakte in unser Modell. Nach einigen Tests haben wir herausgefunden, dass die Artefakte der Modellierung mit eindimensionaler Leistung von Eingabeknoten für die Genauigkeit ziemlich kritisch sind. Daher implementieren wir die „One-Hot“ -Darstellung für die DNA-Codierung.

Für die Ja / Nein-Entscheidung reicht es aus, die Ausgabe als einzelnes Bit darzustellen. Um jedoch Androgen-, Progesteron- und Glucocorticoid-Antwortelemente (die unseren Datensatz von HREs bilden) oder andere Cluster von HREs (da die HREs definitiv kein einheitlicher Unterraum von DNA-Sequenzen sind) zu unterscheiden, präsentieren wir die Ausgabe als Vektor. Insbesondere ist die Ja / Nein-Ausgabe ein 2-Vektor: Ja = (1,-1) und Nein = (-1,1). In diesem Fall ist die Bewegung der Ausgabe im zweidimensionalen Raum und ermöglicht mehr Flexibilität.

• Die neuronale Netzwerkstruktur

Mit der Eingabe als 4-dimensionale Vektoren haben wir für eine 15 bp lange HRE 60 Eingabeknoten. Die neuronale Netzwerktheorie legt nahe, dass für das sichere Lernen die Anzahl der Freiheitsgrade oder Gewichte höchstens die Hälfte der Anzahl der Einschränkungen (der Eingaben) beträgt. Daher sollten wir im Fall einer versteckten Schicht und eines Datensatzes von etwa 7000 positiven und negativen HREs die Anzahl der Neuronen der versteckten Schicht auf etwa 50 begrenzen. Somit haben wir 60 × (50 + 1) Gewichte der verborgenen Ebene und (50 + 1) × 2 Gewichte der Ausgabeebene (plus eine für einen Verzerrungsterm), insgesamt etwa 3000. Im Falle von zwei versteckten Schichten beträgt die maximale Anzahl von Neuronen auf jeder Schicht etwa 40. Wir haben jedoch festgestellt, dass die Verwendung von zwei Schichten für das aktuelle Problem übermäßig ist.

In unserem neuronalen Netzwerkmodell werden bipolare Sigmoidfunktionen für die Implementierung aller Schichten verwendet. Die gesamte Netzwerkstruktur ist in Fig. 2.

Abbildung 2
 abbildung2

Künstliches neuronales Netzwerk zur Spracherkennung.

• Back-Propagation-Lernen

Für das Training des Modells wird das Back-Propagation-Lernen implementiert: suchen Sie für jedes Beispielmuster aus dem Trainingssatz die Differenz der Gewichte für die Ausgabeebene, geben Sie die Differenz an die ausgeblendete Ebene zurück, ermitteln Sie die Differenz der Gewichte für die ausgeblendete Ebene und ändern Sie schließlich alle Gewichte des Netzwerks.

Die Gleichung der Gewichtsanpassung für jedes Neuron lautet:

wt+1 = wt + α × δ x (4)

wobei wt+1 ein Gewichtungsvektor für ein bestimmtes Neuron im t-ten Lernschritt ist, at der Lernparameter im t-ten Schritt ist (0 < at < 1 ∀ t > 0), wird der Delta-Wert für jedes Neuron wie folgt berechnet:

wobei dt und o die gewünschten bzw. aktuell erhaltenen Ausgaben des Neurons darstellen, x die Eingabe in die betrachtete Schicht ist (entweder versteckt oder ausgegeben), ut = wtx die synaptische Eingabe in das Neuron ist und f (ut) die Aktivierungsfunktion des Neurons ist. Auch für den rückpropagierten Delta-Wert ist K eine Anzahl von Neuronen auf der Ausgangsschicht, wh-> kiist der Gewichtskoeffizient der Verbindung zwischen dem h-ten Neuron der versteckten Schicht und dem k-ten Neuron der Ausgangsschicht, δk output ist ein Delta-Wert für das k-te Neuron der Ausgangsschicht, berechnet wie durch Formel (5) gezeigt.

Die Rückausbreitung wird beendet, wenn die Fehlertoleranz für die Genauigkeit von 99% erfüllt ist, die gewünschte Anzahl von Epochen überschritten ist oder das Fehlerplateau erreicht ist.

Der Lernratenparameter α regelt den Schritt des Gradientenabstiegsalgorithmus zur Minimierung des Lernfehlers. Je höher die Lernrate ist, desto schneller geht die Konvergenz. Bei einer sehr hohen Lernrate besteht jedoch die Möglichkeit, über das Minimum an Fehlern zu springen oder Schwingungen anstelle des stationären Zustands zu empfangen. Andererseits bietet eine sehr niedrige Lernrate eine geringere Chance, das globale Minimum zu finden, und stattdessen wird das erste zufällig gefundene lokale Minimum verwendet. Unsere Lösung besteht darin, den Lernparameter anzupassen: wenn der aktuelle Passfehler geringer ist als der vorherige, bewegen wir uns in die richtige Richtung und können uns etwas schneller bewegen, wodurch α um 5% erhöht wird. Wenn wir über das Minimum gesprungen sind und einen größeren Fehler erhalten haben, kehrt das System mit kleineren Schritten zurück und at wird um 30% verringert.

Für das überwachte Lernen wird ein Satz experimentell verifizierter HREs mit der gewünschten Antwort JA (1; -1) verwendet, und ein zehnfacher Satz neutraler DNA-Sequenzen wird mit der gewünschten Antwort NEIN (-1; 1) assoziiert. Beide Trainingssätze sind groß, daher mischen wir sie, damit das neuronale Netzwerk starke Schwingungen vermeidet; andernfalls kann sich das Netzwerk beim Durchsehen mehrerer Hundert positiver (negativer) Trainingssätze an die positiven (negativen) Antworten anpassen, ohne auf die negativen (positiven) zu achten.

Genauigkeitsschätzung

Zur Genauigkeitsschätzung wird eine zehnfache Kreuzvalidierung verwendet, wobei 90% des gesamten Datensatzes der Trainingssatz und die restlichen 10% für Testzwecke verwendet werden. Diese Trennung wird 10 Mal wiederholt (mit nicht überlappenden Testsätzen), und die durchschnittlichen Fehlerwerte werden berechnet.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.