i silico modellering av hormon respons elementer

Unsupervised trening FOR HRE modellen

som en implementering av unsupervised læring algoritme FOR HRE modellering, en tilpasset posisjon vekt matrix tilnærming er utviklet i denne studien.

• Posisjonsvektmatrisealgoritmen

Vi starter med en statistisk modell av posisjonsvektmatrise (PWM) som Først ble beskrevet Av Quandt et al. . Vi tilpasset konseptet for anerkjennelse AV HRE mønstre. For å rettferdiggjøre om en gitt sekvens er EN PRE, sammenligner vi denne sekvensen med et sett av eksperimentelt validerte sekvenser. Likhetsscoren til sammenligningen er proporsjonal med summen av alle resultatene av posisjonssammenligninger. For å sammenligne en sekvens med en matrise utvikler vi følgende prosesser:

  1. A)

    Beregning av relativ bevaring for hver posisjon i i matrisen:

Hvor P (i, b) er relativ frekvens av bokstaven b i posisjon i.

denne relative bevaringen er proporsjonal med informasjonsinnholdet for hver posisjon, som i sin tur er indirekte opptatt av nukleotid til aminosyrebindende energi . Som det lett kan beregnes, tar det verdien av 0 når nukleotidfordeling på en bestemt posisjon er jevn og viser ingen bevaring. Verdien av 1 er nådd ved sterk bevaring av et bestemt nukleotid. Normaliseringsfaktorene ble valgt for å variere Ki strengt fra 0 til 1. Hvis for en bestemt posisjon, et utfall av ‘gap’ ikke er vurdert, så i ovennevnte, koeffisienter 5 bør endres til 4; det vil si, det er alltid antall mulige utfall for hver posisjon.

  1. B)

    Beregning av matrisens likhetskoeffisient som representerer likhet med en gitt sekvens og mønsteret. Mønsteret er representert av posisjonsfrekvensmatrisen.

hvor b er ithletter av sekvensen, og poengsum(i, b) er elementet i posisjon frekvensmatrisen som ligger i raden i og svarer til nukleotid b.

som det kan ses, jo høyere MS koeffisient er, jo høyere korrespondent score (i, b) verdier vil være; dermed tilsvarer høyere MS-verdier sekvensene som består av hyppigere nukleotider. Til slutt, jo høyere MS-verdi er, jo nærmere sekvensen er til treningssettet av eksperimentelt validerte bindingssteder.

matrisens likhet når bare 1 hvis kandidatsekvensen tilsvarer det mest konserverte nukleotid ved hver posisjon av matrisen. Multiplikasjon av hver poengsum med Ci-verdien understreker det faktum at feilmatcher ved mindre konserverte stillinger tolereres lettere enn feilmatcher ved svært konserverte stillinger.

* Mono og di-nukleotid posisjon vekt matriser

i modellering AV pre anerkjennelse for en gitt sekvens to matrise likhet koeffisienter beregnes: MNMS( mono-nukleotid matrix likhet) OG DNMS (di-nukleotid matrix likhet). Før du beregner disse koeffisientene, er sekvensen justert med konsensus HRE. Tross alt, for å beregne matrisens likhetskoeffisienter, brukes bare justert sekvens. Det kan imidlertid inneholde ett eller flere hull etter justeringsprosedyren.

den første koeffisientberegningen er en enkel sammenligning av mononukleotidposisjonsfrekvensmatrise med den justerte sekvensen nøyaktig som beskrevet ovenfor.

den andre sammenligningen krever forbehandling. En nukleotidsekvens skal forhåndsbehandles for passende sammenligning med di-nukleotidposisjonsfrekvensmatrise. Alfabet av eksisterende di-nukleotider består av 25 elementer (fire forskjellige nukleotider og et gap i alle mulige kombinasjoner). Det latinske alfabetet inneholder nok forskjellige bokstaver til å rekonstruere en-til-en-samsvar, hvor hvert di-nukleotid tilsvarer en enkelt bokstav i det nye alfabetet.

For en sekvens som er oppnådd som et resultat av denne konverteringen, beregnes matrisens likhetskoeffisient nøyaktig som i ovenstående for mononukleotidfrekvensmatriser, men matrisen i bruk nå er dinukleotidfrekvensen en. Den eneste korreksjonen er endringen av normaliseringskoeffisienter. Fordi antall forskjellige di-nukleotider (og tilsvarende antall bokstaver i det nylig implementerte alfabetet) er så mange som 25, er det nødvendig å endre 4 eller 5 til 16 eller 20 eller 25, avhengig av om et gapsymbol antas i en hvilken som helst posisjon av di-nukleotid.

når disse to koeffisientene er beregnet, blir beslutningsprosedyren implementert. Den bruker cut – off nivåer for hver av to koeffisienter. Disse cut – off nivåer må være forhåndsbestemt av noen tuning metoder eller kryssvalidering.

HVIS MNMS for en gitt sekvens er større enn cut-off-nivået for denne verdien, OG DNMS overskrider også terskelen, så er DET EN HRE.

for hver anerkjent HRE er det mest liknende elementet i treningssettet definert. Det er også indikert om en slik sekvens av høyre halvsted (som forventes å være svært bevart) presenteres i noen av funnet eksperimentelt validerte HREs. Dette er viktig i tilfelle av ganske stort og representativt treningssett brukt, da fravær av en gitt sekvens i prøven kan v re en verdifull indikator for tuning av modellen.

Overvåket maskinlæring

Feed-forward nevrale nettverk brukes deretter til kryssbekreftelse av den forutsagte HREs.

det samlede datasettet består av EN rekke DNA-sekvenser i 4-bokstavs alfabet Ω = {A, C, G, T}. I ovennevnte posisjon frekvens basert modell, bokstavene er merket som forskjellige, uavhengige og like langt stater. Den nevrale nettverksmodellen fungerer imidlertid med digitale tall. Plassen av tall er endimensjonal, så hvis vi konfronterer alle 4 nukleotider med tall, er de ikke like langt lenger, og derfor tar vi noen gjenstander til vår modell. Etter noen tester fant vi ut at gjenstander av modellering ved hjelp av endimensjonal ytelse av inngangsnoder er ganske kritiske for nøyaktigheten. Derfor implementerer vi den» one-hot » representasjonen FOR DNA-koding.

For Ja / Nei-beslutning er det nok å representere utgangen som en enkelt bit. For å skille Mellom Androgen -, Progesteron-og Glukokortikoidresponselementer (som danner vårt datasett Av HREs) eller andre klynger Av HREs (Da HREs definitivt ikke er et ensartet underrom AV DNA-sekvenser), presenterer vi utgangen som en vektor. Spesielt Er ja / Nei-utgangen en 2-vektor: Ja = (1,-1) og Nei = (-1,1). I dette tilfellet er bevegelsen av produksjonen i det todimensjonale rommet og gir mer fleksibilitet.

• den nevrale nettverksstrukturen

med inngangen som 4-dimensjonale vektorer, for en 15 bp-lang HRE, har vi 60 inngangsnoder. Nevrale nettverk teori antyder at for trygg læring antall grader av frihet, eller vekter for å passe, være på det meste halvparten av antall begrensninger (innganger). 7000 positive og negative HREs, bør vi begrense antall skjulte lagneuroner til omtrent 50. Dermed har vi 60 × (50 + 1) vekter av det skjulte laget og (50+1) × 2 vekter av utgangslaget (pluss en er for en bias term), totalt ca 3000. I tilfelle av to skjulte lag er maksimalt antall nevroner på hvert lag omtrent 40. Vi fant imidlertid at bruk av to lag er overdreven for det nåværende problemet.

i vår nevrale nettverksmodell brukes bipolare sigmoid-funksjoner for implementering av alle lag. Hele nettverksstrukturen er illustrert I Fig. 2.

Figur 2
figur2

Kunstig Nevrale Nettverk FOR pre anerkjennelse.

• Back-forplantning læring

for opplæring av modellen, er back-forplantning læring implementert: for hvert eksempelmønster fra treningssettet, finn forskjellen på vektene for utgangslaget, forplante forskjellen til det skjulte laget, finn deretter forskjellen på vektene for det skjulte laget, og til slutt endre alle vektene i nettverket.

likningen av vektjustering for hver nevron er:

wt + 1 = wt + α × δ x (4)

hvor wt + 1 er en vektvektor for en bestemt neuron ved det tte trinnet for læring, at er læringsparameteren ved det tte trinnet (0 < ved < 1 ∀ t > 0), beregnes deltaverdien for hver neuron som følger:

hvor dtog otrepresenterer de ønskede og for tiden oppnådde utgangene til nevronet, er x inngangen til laget som vurderes (enten skjult eller utgang), ut= wtx er den synaptiske inngangen til nevronen, og f(ut) er aktiveringsfunksjonen til nevronen. Også For den bakforplantede deltaverdien Er K et antall nevroner på utgangslaget, wh-> kis vektkoeffisienten av forbindelsen mellom hth-neuron av skjult lag og kth-neuron av utgangslaget, δ utgang er en deltaverdi for kth-neuron av utgangslaget beregnet som vist ved formel (5).

tilbakeutbredelsen avsluttes når feiltoleranse for nøyaktigheten på 99% er oppfylt, ønsket antall epoker er passert, eller feilplatået er nådd.

læringsrate parameter α regulerer skritt av gradient nedstigningsalgoritme for minimering av læringsfeilen. Jo høyere læring rate er raskere konvergens går. Men med en svært høy læringsrate er det en sjanse til å hoppe over minimum feil, eller motta svingninger i stedet for steady state. På den annen side gir en svært lav læringsrate mindre sjanse til å finne det globale minimumet, og i stedet bruker det det første tilfeldig funnet lokale minimumet. Vår løsning er å justere læringsparameteren: hvis den nåværende passfeilen er mindre enn den forrige, beveger vi oss i riktig retning og kan bevege seg litt raskere, og øker α med 5%. Hvis vi har hoppet over minimum og mottatt større feil, går systemet tilbake med mindre trinn, og at er redusert med 30%.

for veiledet læring brukes et sett eksperimentelt verifiserte HREs med ønsket svar JA (1;-1), og et tidoblet sett med nøytrale DNA-sekvenser er forbundet med ønsket svar NEI (-1; 1). Begge treningssettene er store, for at det nevrale nettverket skal unngå alvorlige svingninger, blander vi dem; ellers, mens du ser gjennom flere hundre av det positive (negative) treningssettet, kan nettverket tilpasse seg de positive (negative) svarene, uten oppmerksomhet til de negative (positive).

Nøyaktighetsestimering

for nøyaktighetsestimeringsformål brukes ti ganger kryssvalidering, 90% av det totale datasettet er treningssettet og resten 10 % brukes til testformål. Denne separasjonen gjentas 10 ganger (med ikke-overlappende testsett), og de gjennomsnittlige feilverdiene beregnes.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.