in silico modelling of hormone response elements

Unsupervised training voor het hre model

als een implementatie van unsupervised learning algoritme voor hre modellering, wordt een aangepaste positiegewicht matrix benadering ontwikkeld in deze studie.

* het algoritme van de Positiegewichtmatrix

we beginnen met een statistisch model van de positiegewichtmatrix (PWM) dat Voor het eerst werd beschreven door Quandt et al. . We hebben het concept aangepast voor de herkenning van HRE patronen. Om te rechtvaardigen of een bepaalde sequentie een PRE is, vergelijken we deze sequentie met een reeks experimenteel gevalideerde sequenties. De vergelijkingsscore van de vergelijking is evenredig met de som van alle resultaten van positievergelijkingen. Voor het vergelijken van een sequentie met een matrix ontwikkelen we volgende processen:

  1. a)

    berekening van de relatieve bewaring voor elke positie i in de matrix:

waarbij P (i, b) De relatieve frequentie van de letter b in positie i is.

deze relatieve conservering is evenredig met de informatie-inhoud voor elke positie, die op zijn beurt indirect te maken heeft met nucleotide tot aminozuurbindende energie . Zoals gemakkelijk kan worden berekend, neemt het waarde van 0 wanneer de nucleotidedistributie op een bepaalde positie uniform is en geen behoud toont. De waarde van 1 wordt bereikt in het geval van sterk behoud van een bepaald nucleotide. De normalisatiefactoren werden geselecteerd om Ci strikt van 0 tot 1 te variëren. Als voor een bepaalde positie een resultaat van ‘ gap ‘ niet wordt gewaardeerd, dan moeten in het bovenstaande coëfficiënten 5 worden gewijzigd in 4; dat wil zeggen, het is altijd het aantal mogelijke uitkomsten voor elke positie.

  1. B)

    berekening van de matrixvergelijkingscoëfficiënt die de gelijkenis van een bepaalde reeks en het patroon weergeeft. Het patroon wordt weergegeven door de Positie Frequentie matrix.

waarbij b de ithletter van de sequentie is, en score(i, b) het element van de positiefrequentiematrix in rij i is dat overeenkomt met het nucleotide b.

zoals te zien is, is de hogere MS-coëfficiënt, de hogere correspondentscore(i, b) – waarden; dus komen hogere MS-waarden overeen met de sequenties die uit frequentere nucleotiden bestaan. Ten slotte, hoe hoger de MS-waarde is, hoe dichter de volgorde is bij de training set van experimenteel gevalideerde bindingsplaatsen.

de matrixgelijkenis bereikt 1 alleen als de kandidaatsequentie overeenkomt met het meest geconserveerde nucleotide op elke positie van de matrix. Door elke score te vermenigvuldigen met de Ci-waarde wordt benadrukt dat mismatches op minder geconserveerde posities gemakkelijker worden getolereerd dan mismatches op sterk geconserveerde posities.

* Mono-en di-nucleotidepositiegewichtmatrices

bij het modelleren van PRE-herkenning voor een bepaalde sequentie worden twee matrixcoëfficienten berekend: mnms (mono-nucleotide matrix similarity) en DNMS (di-nucleotide matrix similarity). Voordat deze coëfficiënten worden berekend, wordt de volgorde afgestemd op consensus HRE. Immers, voor het berekenen van de matrixvergelijkingscoëfficiënten, wordt alleen uitgelijnde volgorde gebruikt. Het kan echter een of meer hiaten bevatten na de aanpassingsprocedure.

de eerste berekening van de coëfficiënt is een eenvoudige vergelijking van de mono-nucleotide Positie Frequentie matrix met de uitgelijnde sequentie precies zoals hierboven beschreven.

de tweede vergelijking vereist voorafgaande voorbereiding. Een nucleotidesequentie moet vooraf worden verwerkt voor een geschikte vergelijking met de di-nucleotidepositiefrequentiematrix. Alfabet van bestaande di-nucleotiden bestaat uit 25 elementen (vier verschillende nucleotiden en een gap in alle mogelijke combinaties). Het Latijnse alfabet bevat genoeg verschillende letters om één-op-één conformiteit te reconstrueren, waarbij elk di-nucleotide overeenkomt met één letter van het nieuwe alfabet.

voor een door deze conversie verkregen sequentie wordt de similariteitscoëfficiënt van de matrixmatrix precies berekend zoals in het bovenstaande voor mono-nucleotidefrequentiematrices, maar de gebruikte matrix is nu de dinucleotidefrequentie 1. De enige correctie is de verandering van normalisatiecoëfficiënten. Omdat het aantal verschillende di-nucleotiden (en het bijbehorende aantal letters in het nieuw geà mplementeerde alfabet) maar liefst 25 is, is het noodzakelijk om 4 of 5 te veranderen in 16 of 20 of 25, afhankelijk van of een gap symbool wordt aangenomen in een positie van het Di-nucleotide.

zodra deze twee coëfficiënten zijn berekend, wordt de besluitvormingsprocedure toegepast. Het gebruikt cut-off niveaus voor elk van twee coëfficiënten. Deze cut-off niveaus moeten vooraf worden bepaald door middel van bepaalde afstemmingsmethoden of kruisvalidatie.

als voor een bepaalde reeks MNMS groter is dan het afkapniveau voor deze waarde, en DNMS ook de drempelwaarde overschrijdt, dan is het een HRE.

voor elke erkende HRE wordt het meest vergelijkbare element van de Opleidingsset gedefinieerd. Het is ook aangegeven of een dergelijke sequentie van de rechterhelft (die naar verwachting in hoge mate wordt geconserveerd) wordt gepresenteerd in een van de gevonden experimenteel gevalideerde HREs. Dit is belangrijk in het geval van vrij grote en representatieve trainingsset die wordt gebruikt, wanneer het ontbreken van een bepaalde volgorde in de steekproef een waardevolle indicator kan zijn voor het afstemmen van het model.

automatisch leren onder toezicht

Feed-forward neuraal netwerk wordt vervolgens gebruikt voor kruiscontrole van de voorspelde HREs.

* input / output representatie

de verzamelde dataset bestaat uit een aantal DNA-sequenties in 4-letter alfabet Ω = {A, C, G, T}. In het bovenstaande op positiefrequentie gebaseerde model worden de letters geannoteerd als verschillende, onafhankelijke en op gelijke afstand staande toestanden. Echter, het neurale netwerk model werkt met digitale nummers. De ruimte van getallen is eendimensionaal, dus als we alle 4 nucleotiden met getallen confronteren, zijn ze niet meer op gelijke afstand, en daarom brengen we wat artefacten naar ons model. Na een paar tests ontdekten we dat de artefacten van modelleren met behulp van eendimensionale prestaties van invoerknooppunten zijn vrij kritisch voor de nauwkeurigheid. Daarom implementeren we de” one-hot ” representatie voor DNA-codering.

voor ja / nee-beslissing is het voldoende om de output als een enkel bit weer te geven. Echter, met het oog op het onderscheiden van androgeen, progesteron en glucocorticoïde responselementen (die onze dataset van HREs vormen), of andere clusters van HREs (aangezien de HREs zeker geen uniforme subruimte van DNA-sequenties zijn), presenteren we de output als een vector. In het bijzonder is de ja/nee-uitvoer een 2-vector: Ja = (1,-1) En Nee = (-1,1). In dit geval is de beweging van de output in de tweedimensionale ruimte en maakt meer flexibiliteit.

* de neurale netwerkstructuur

met de input als 4-dimensionale vectoren, hebben we voor een 15 bp-lange HRE 60 inputknooppunten. De neurale netwerktheorie suggereert dat Voor het zelfverzekerde leren het aantal vrijheidsgraden, of gewichten om te passen, hoogstens de helft van het aantal beperkingen (de inputs) zijn. Vandaar, in het geval van een verborgen laag en een dataset van ongeveer 7000 positieve en negatieve HREs, moeten we het aantal verborgen laagneuronen beperken tot ongeveer 50. Zo hebben we 60 × (50+1) gewichten van de verborgen laag en (50+1) × 2 gewichten van de output laag (plus een is voor een bias term), totaal ongeveer 3000. In het geval van twee verborgen lagen is het maximum aantal neuronen op elke laag ongeveer 40. We vonden echter dat het gebruik van twee lagen overdreven is voor het huidige probleem.

in ons neurale netwerkmodel worden bipolaire sigmoid-functies gebruikt voor de implementatie van alle lagen. De gehele netwerkstructuur is weergegeven in Fig. 2.

Figuur 2
figuur 2

kunstmatig neuraal netwerk voor PRE-herkenning.

• Back-propagation learning

voor het opleiden van het model wordt het back-propagation learning geïmplementeerd.: voor elk voorbeeld patroon van de training set, vinden verschil van de gewichten voor de output laag, back-propageren het verschil naar de verborgen laag, dan vinden het verschil van de gewichten voor de verborgen laag, en tenslotte wijzigen alle gewichten van het netwerk.

de vergelijking van gewichtsafstelling voor elk neuron is:

wt+1 = WT + α × δ x (4)

wanneer wt+1 een vector van gewichten is voor een bepaald neuron bij de TDE stap van het leren, is at de leerparameter bij de TDE stap( 0 < bij < 1 Ÿ t > 0), wordt de deltawaarde voor elk neuron als volgt berekend:

waar dtand respectievelijk de gewenste en momenteel verkregen uitgangen van het neuron vertegenwoordigt, is x de input aan de laag die wordt overwogen (verborgen of output), ut= wtx is de synaptische input aan het neuron, en f(ut) is de activeringsfunctie van het neuron. Voor de back-propagated delta-waarde is K een aantal neuronen op de outputlaag, wh->kis de gewichtscoëfficiënt van de verbinding tussen hth-neuron van hidden layer en kth-neuron van de outputlaag, δk-output is een delta-waarde voor het KTH-neuron van de outputlaag, berekend volgens formule (5).

de back-propagatie wordt beëindigd wanneer de fouttolerantie voor de nauwkeurigheid van 99% is bereikt, het gewenste aantal tijdperken is gepasseerd of het foutplateau is bereikt.

leersnelheidsparameter α reguleert het algoritme voor de stap van gradiëntafdaling voor het minimaliseren van de leerfout. Hoe hoger de leersnelheid is, hoe sneller convergentie gaat. Maar met een zeer hoge Leersnelheid is er een kans om te springen over het minimum van de fout, of ontvangen oscillaties in plaats van steady state. Aan de andere kant biedt een zeer laag leerpercentage minder kans om het wereldwijde minimum te vinden, en in plaats daarvan gebruikt het het eerste willekeurig gevonden lokale minimum. Onze oplossing is om de leerparameter aan te passen: als de huidige fout minder is dan de vorige, gaan we in de goede richting en kunnen we iets sneller bewegen, met een toename van α met 5%. Als we over het minimum zijn gesprongen en een grotere fout hebben ontvangen, gaat het systeem terug met kleinere stappen en wordt at met 30% verlaagd.

voor het onder toezicht leren wordt een set experimenteel geverifieerde HREs gebruikt met het gewenste antwoord ja (1;-1), en een tienvoudige set neutrale DNA-sequenties wordt geassocieerd met het gewenste antwoord Nee (-1;1). Beide trainingssets zijn groot, dus om het neurale netwerk ernstige oscillaties te voorkomen, mengen we ze; anders kan het netwerk zich, terwijl het door enkele honderden van de positieve (negatieve) trainingsset kijkt, aanpassen aan de positieve (negatieve) antwoorden, zonder aandacht te besteden aan de negatieve (positieve) antwoorden.

Nauwkeurigheidsschatting

voor nauwkeurigheidsschatting wordt tienvoudige kruisvalidatie gebruikt, waarbij 90% van de totale dataset de trainingsset is en de rest 10% wordt gebruikt voor testdoeleinden. Deze scheiding wordt 10 keer herhaald (met niet-overlappende testsets) en de gemiddelde foutwaarden worden berekend.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.