i silico-modellering af hormonresponselementer

uovervåget træning til HRE-modellen

som en implementering af uovervåget læringsalgoritme til HRE-modellering udvikles en tilpasset positionsvægtmatrice-tilgang i denne undersøgelse.

• algoritmen for Positionsvægtmatricen

vi starter med en statistisk model for positionsvægtmatricen, som først blev beskrevet af Kvandt et al. . Vi tilpassede konceptet til genkendelse af HRE-mønstre. For at retfærdiggøre, om en given sekvens er en PRE, sammenligner vi denne sekvens med et sæt eksperimentelt validerede sekvenser. Sammenligningens lighedsscore er proportional med summen af alle resultaterne af positionssammenligninger. Til sammenligning af en sekvens til en matrice udvikler vi følgende processer:

  1. a)

    beregning af relativ bevaring for hver position i i matricen:

hvor P (i, b) er relativ frekvens af bogstavet b i position i.

denne relative bevarelse er proportional med informationsindholdet for hver position, som igen er indirekte bekymret for nukleotid til aminosyrebindende energi . Som det let kan beregnes, tager det værdi på 0, når nukleotidfordeling på en bestemt position er ensartet og viser ingen bevarelse. Værdien af 1 nås i tilfælde af stærk bevarelse af et bestemt nukleotid. Normaliseringsfaktorerne blev valgt for at variere Ci strengt fra 0 til 1. Hvis der for en bestemt position ikke vurderes et resultat af ‘gap’, skal koefficienterne 5 i ovenstående ændres til 4; det vil sige, det er altid antallet af mulige resultater for hver position.

  1. B)

    beregning af matricen lighedskoefficient, der repræsenterer lighed mellem en given sekvens og mønsteret. Mønsteret er repræsenteret af positionsfrekvensmatricen.

hvor b er sekvensens ithletter, og score(i, b) er elementet i positionsfrekvensmatricen placeret i række i og svarende til nukleotid B.

som det kan ses, jo højere MS-koefficient er, jo højere korrespondent score(i, b) værdier vil være; således svarer højere MS-værdier til sekvenserne, der består af hyppigere nukleotider. Endelig, jo højere MS-værdi er, jo tættere er sekvensen på træningssættet af eksperimentelt validerede bindingssteder.

matricen lighed når kun 1, hvis kandidatsekvensen svarer til det mest konserverede nukleotid ved hver position af matricen. Multiplikation af hver score med Ci-værdien understreger det faktum, at uoverensstemmelser ved mindre konserverede positioner lettere tolereres end uoverensstemmelser ved stærkt konserverede positioner.

• Mono-og di-nukleotidpositionsmatricer

ved modellering af pre-genkendelse for en given sekvens beregnes to matrice-lighedskoefficienter: mnms (mono-nukleotidmatricen lighed) og DNMS (di-nukleotidmatricen lighed). Før beregningen af disse koefficienter er sekvensen justeret med konsensus HRE. Når alt kommer til alt, til beregning af matricen lighedskoefficienter, anvendes kun justeret sekvens. Det kan dog indeholde et eller flere huller efter justeringsproceduren.

den første koefficientberegning er en simpel sammenligning af mononukleotidpositionsfrekvensmatrice med den justerede sekvens nøjagtigt som beskrevet ovenfor.

den anden sammenligning kræver forudgående forberedelse. En nukleotidsekvens skal forbehandles til passende sammenligning med DI-nukleotidpositionsfrekvensmatrice. Alfabet af eksisterende di-nukleotider består af 25 elementer (fire forskellige nukleotider og et hul i alle mulige kombinationer). Latinsk alfabet indeholder nok forskellige bogstaver til at rekonstruere en-til-en-overensstemmelse, hvor hvert di-nukleotid svarer til et enkelt bogstav i det nye alfabet.

for en sekvens erhvervet som et resultat af denne konvertering beregnes matricen lighedskoefficient nøjagtigt som i ovenstående for mononukleotidfrekvensmatricer, men matricen i brug nu er dinucleotidfrekvensen en. Den eneste korrektion er ændringen af normaliseringskoefficienter. Da antallet af forskellige di-nukleotider (og det tilsvarende antal bogstaver i det nyligt implementerede alfabet) er så mange som 25, er det nødvendigt at ændre 4 eller 5 til 16 eller 20 eller 25, afhængigt af om et hulsymbol antages i en hvilken som helst position af di-nukleotid.

når disse to koefficienter er beregnet, gennemføres beslutningsproceduren. Det bruger cut-off niveauer for hver af to koefficienter. Disse cut-off niveauer skal være forudbestemt af nogle tuning metoder eller krydsvalidering.

hvis MNMS for en given sekvens er større end afskæringsniveauet for denne værdi, og DNMS overstiger også dens tærskel, så er det en HRE.

for hver anerkendt HRE defineres det mest lignende element i træningssæt. Det er også angivet, om en sådan sekvens af det højre halvsted (som forventes at være stærkt konserveret) præsenteres i nogen af de fundne eksperimentelt validerede HREs. Dette er vigtigt i tilfælde af temmelig stort og repræsentativt træningssæt, der anvendes, når fravær af en given sekvens i prøven kan være en værdifuld indikator for tuning af modellen.

Overvåget maskinindlæring

fremadgående neuralt netværk bruges derefter til krydsbekræftelse af den forudsagte HREs.

• Input/output-repræsentation

det indsamlede datasæt består af et antal DNA-sekvenser i 4-bogstavs-alfabetet Larsus = {A, C, G, t}. I ovenstående positionsfrekvensbaserede model kommenteres bogstaverne som forskellige, uafhængige og lige store tilstande. Den neurale netværksmodel fungerer dog med digitale numre. Antallet af tal er endimensionelt, så hvis vi konfronterer alle 4 nukleotider med tal, er de ikke lige langt mere, og derfor bringer vi nogle artefakter til vores model. Efter nogle få tests fandt vi ud af, at artefakterne ved modellering ved hjælp af endimensionel ydeevne af inputnoder er ret kritiske for nøjagtigheden. Derfor implementerer vi den” one-hot ” repræsentation for DNA-kodning.

for ja / nej beslutning er det nok at repræsentere output som en enkelt bit. Med henblik på at skelne mellem Androgen -, progesteron-og Glukokortikoidresponselementer (som danner vores datasæt af HREs) eller andre klynger af HREs (da HREs bestemt ikke er et ensartet underrum af DNA-sekvenser), præsenterer vi output som en vektor. Især er ja / nej-udgangen en 2-vektor: Ja = (1, -1) og nej = (-1,1). I dette tilfælde er bevægelsen af output i det todimensionale rum og giver mere fleksibilitet.

• den neurale netværksstruktur

med input som 4-dimensionelle vektorer, for en 15 bp-lang HRE, har vi 60 input noder. Den neurale netværksteori antyder, at for den selvsikre læring er antallet af frihedsgrader eller vægte, der passer, højst halvdelen af antallet af begrænsninger (input). Derfor bør vi i tilfælde af et skjult lag og et datasæt på omkring 7000 positive og negative HREs begrænse antallet af skjulte lagneuroner til omkring 50. Således har vi 60 liter (50+1) vægte af det skjulte lag og (50 + 1) liter 2 vægte af outputlag (plus en er for en bias sigt), i alt omkring 3000. I tilfælde af to skjulte lag er det maksimale antal neuroner på hvert lag omkring 40. Vi fandt imidlertid, at brugen af to lag er overdreven for det aktuelle problem.

i vores neurale netværksmodel anvendes bipolære sigmoid-funktioner til implementering af alle lag. Hele netværksstrukturen er illustreret i Fig. 2.

figur 2
figur2

kunstigt neuralt netværk til genkendelse.

• Back-formeringsindlæring

til træning af modellen implementeres back-formeringsindlæring: for hvert eksempelmønster fra træningssættet skal du finde forskel på vægtene for outputlaget, udbrede forskellen til det skjulte lag, derefter finde forskellen på vægtene for det skjulte lag og til sidst ændre alle vægtene i netværket.

ligningen af vægtjustering for hver neuron er:

vægt+1 = vægt + vægt * (4)

hvor vægt+1 er en vektor af vægte for en bestemt neuron ved TTH-trinnet for læring, at er læringsparameteren ved TTH-trinnet (0 < ved < 1 liter t > 0) beregnes deltaværdien for hver neuron som følger:

når en neuron er en del af en neuron, er den en del af en neuron, der er en del af en neuron, der er en del af en neuron, der er en del af en neuron, der er en del af en neuron. For den bagformerede deltaværdi er K også et antal neuroner på outputlaget, HH->kis vægtkoefficienten for forbindelsen mellem HTH-neuron af skjult lag og kth-neuron i outputlaget, er lock-output en deltaværdi for KTH-neuronen i outputlaget beregnet som vist ved Formel (5).

bagudbredelsen afsluttes, når fejltolerancen for nøjagtigheden af 99% er opfyldt, det ønskede antal epoker er bestået, eller fejlplateauet nås.

Indlæringshastighedsparameter Larsen regulerer skridtet med gradientafstamningsalgoritmen til minimering af læringsfejlen. Jo højere læringshastigheden er, jo hurtigere konvergens går. Men med en meget høj læringshastighed er der en chance for at hoppe over minimum af fejl eller modtage svingninger i stedet for steady state. På den anden side giver en meget lav læringsrate mindre chance for at finde det globale minimum, og i stedet bruger den det første tilfældigt fundne lokale minimum. Vores løsning er at justere læringsparameteren: hvis den aktuelle passfejl er mindre end den foregående, bevæger vi os i den rigtige retning og kan bevæge os lidt hurtigere og øge kursen med 5%. Hvis vi har hoppet over minimumet og modtaget større fejl, går systemet tilbage med mindre trin, og at reduceres med 30%.

til den overvågede læring anvendes et sæt eksperimentelt verificerede HREs med det ønskede svar Ja (1;-1), og et ti gange sæt neutrale DNA-sekvenser er forbundet med det ønskede svar Nej (-1; 1). Begge træningssæt er store, derfor blander vi dem for at det neurale netværk skal undgå alvorlige svingninger; ellers, mens man kigger gennem flere hundrede af de positive (negative) træningssæt, kan netværket tilpasse sig de positive (negative) svar uden opmærksomhed på de negative (positive).

Nøjagtighedsestimering

til nøjagtighedsestimeringsformål anvendes ti gange krydsvalidering, 90% af det samlede datasæt er træningssættet, og resten 10% bruges til testformål. Denne adskillelse gentages 10 gange (med ikke-overlappende testsæt), og de gennemsnitlige fejlværdier beregnes.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.