in silico modelling of hormone response elements

Unspervised training for the HRE model

unsoperised learning algorithm in unsoperised learning algorithm for HRE modeling, the adapted position weight matrix approach is developed in this study.

* Position Weight Matrix algorithm

aloitamme statistisella mallilla position weight matrix (PWM), jonka kuvasi ensimmäisenä Quandt et al. . Sovitimme konseptin HRE-kuvioiden tunnistamiseksi. Perustella, jos tietty sekvenssi on PRE, vertaamme tätä sekvenssiä joukon kokeellisesti validoitu sekvenssejä. Vertailun samankaltaisuuspistemäärä on verrannollinen kaikkien paikkavertailujen tulosten summaan. Vertaamalla sekvenssin matriisiin, kehitämme seuraavat prosessit:

  1. a)

    suhteellisen säilymisen laskeminen matriisin jokaiselle paikalle i:

missä P (i, b) on B-kirjaimen suhteellinen esiintymistiheys asemassa i.

tämä suhteellinen säilyminen on verrannollinen kunkin kannan informaatiosisältöön, joka puolestaan koskee epäsuorasti nukleotidia aminohappoa sitovaan energiaan . Kuten voidaan helposti laskea, se ottaa arvon 0, kun nukleotidijakauma tietyssä asennossa on yhtenäinen eikä osoita säilymistä. Arvo 1 saavutetaan, jos tietyn nukleotidin säilyminen on voimakasta. Normalisointikertoimet valittiin siten, että Ci vaihtelee tiukasti 0: sta 1: een. Jos tietyn kannan, tulos ”kuilu” ei ole mitoitettu, niin edellä, kertoimet 5 olisi muutettava 4, eli se on aina useita mahdollisia tuloksia kunkin kannan.

  1. B)

    lasketaan matriisin samankaltaisuuskerroin, joka kuvaa tietyn sarjan ja kuvion samankaltaisuutta. Kuviota esittää paikkataajuusmatriisi.

missä b on sekvenssin itletteri ja score(i, b) on rivillä i sijaitsevan ja nukleotidia B vastaavan positiotaajuusmatriisin Elementti.

, kuten voidaan nähdä, mitä suurempi MS-kerroin on, sitä korkeammat kirjeenvaihtajapisteen(i, b) arvot ovat; näin ollen korkeammat MS-arvot vastaavat sekvenssejä, jotka koostuvat useammista nukleotideista. Lopuksi, mitä korkeampi MS-arvo on, sitä lähempänä sekvenssi on kokeellisesti validoitujen sitomiskohtien koulutussarjaa.

matriisin samankaltaisuus saavuttaa arvon 1 vain, jos ehdokasjono vastaa parhaiten säilynyttä nukleotidia matriisin jokaisessa kohdassa. Kunkin pistemäärän kertominen Ci-arvolla korostaa sitä, että kohtaantoerot vähemmän säilyneissä asemissa ovat helpommin siedettäviä kuin kohtaantoerot erittäin säilyneissä asemissa.

* Mono-ja di-nukleotidimatriisin painomatriisit

mallinnettaessa ennalta tunnistamista tietylle sekvenssille lasketaan kaksi matriisin samankaltaisuuskerrointa: MNMS (mononukleotidimatriisin samankaltaisuus) ja dnms (di-nukleotidimatriisin samankaltaisuus). Ennen näiden kertoimien laskemista sekvenssi on linjassa konsensus HRE: n kanssa. Loppujen lopuksi matriisin samankaltaisuuskertoimien laskemiseen käytetään vain kohdistettua sekvenssiä. Se voi kuitenkin sisältää yhden tai useamman aukon yhdenmukaistamismenettelyn jälkeen.

ensimmäinen kerroinlaskenta on mononukleotidin sijaintitaajuusmatriisin yksinkertainen vertailu edellä kuvatun kaltaiseen kohdistettuun sekvenssiin.

toinen vertailu vaatii ennakkovalmisteluja. Nukleotidisekvenssi on esikäsiteltävä asianmukaista vertailua varten di-nukleotidiasentotaajuusmatriisiin. Olemassa olevien di-nukleotidien aakkoset koostuvat 25 alkuaineesta (neljä eri nukleotidia ja aukko kaikissa mahdollisissa yhdistelmissä). Latinalaisessa kirjaimistossa on tarpeeksi erilaisia kirjaimia rekonstruoimaan yksi yhteen-yhdenmukaisuus, jossa jokainen di-nukleotidi vastaa yhtä uuden aakkoston kirjainta.

tämän muunnoksen tuloksena saadulle sekvenssille matriisin samankaltaisuuskerroin lasketaan täsmälleen samalla tavalla kuin edellä mononukleotiditaajuusmatriiseille, mutta nyt käytössä oleva matriisi on dinukleotiditaajuus yksi. Ainoa korjaus on normalisointikertoimien muutos. Koska eri di-nukleotidien määrä (ja vastaava kirjainten määrä vasta toteutetussa aakkostossa) on peräti 25, on tarpeen muuttaa 4 tai 5 16: ksi tai 20: ksi tai 25: ksi riippuen siitä, onko di-nukleotidin missä tahansa asennossa oletettu aukkosymboli.

kun nämä kaksi kerrointa on laskettu, sovelletaan päätöksentekomenettelyä. Se käyttää cut-off tasot kunkin kahden kertoimia. Nämä raja-arvot on määrättävä ennalta tietyillä viritysmenetelmillä tai ristivalidoinnilla.

jos tietyssä järjestyksessä MNMS on suurempi kuin tämän arvon cut-off-taso ja DNMS ylittää myös sen kynnyksen, kyseessä on HRE.

kullekin tunnustetulle harjoittelujaksolle määritellään koulutussarjan samankaltaisin Elementti. Se on myös osoitettu, jos tällainen oikean puolialueen jakso (jonka odotetaan säilyvän erittäin hyvin) esitetään jossakin kokeellisesti validoidussa HREs: ssä. Tämä on tärkeää, jos käytetään melko suurta ja edustavaa koulutussarjaa, jolloin tietyn sarjan puuttuminen otoksesta voi olla arvokas indikaattori mallin virittämiseen.

valvottua koneoppimista

syötteen kautta kulkevaa neuroverkkoa käytetään sitten ennustettujen HREs: ien ristiintarkistamiseen.

* Input/output representation

kerätty aineisto koostuu joukosta DNA-sekvenssejä 4-kirjaimisessa aakkostossa Ω = {A, C, G, T}. Yllä olevassa kantataajuuteen perustuvassa mallissa kirjaimet merkitään erilaisiksi, itsenäisiksi ja tasavälisiksi tiloiksi. Neuroverkkomalli toimii kuitenkin digitaalisilla numeroilla. Lukujen avaruus on yksiulotteinen, joten jos kohtaamme kaikki 4 nukleotidia numeroiden kanssa, ne eivät ole enää yhtä kaukana toisistaan, ja siksi tuomme malliimme joitakin artefakteja. Muutaman testin jälkeen selvisi, että tulosolmujen yksiulotteisen suorituskyvyn mallintamisen artefaktit ovat varsin kriittisiä tarkkuuden kannalta. Siksi toteutamme ”One-hot” – esityksen DNA-koodaukselle.

kyllä / ei-päätökselle riittää, että tuotos esitetään yhtenä bittinä. Kuitenkin androgeeni -, progesteroni-ja Glukokortikoidivasteelementtien erottamiseksi (jotka muodostavat HREs: n datajoukon) tai minkä tahansa muun HREs: n klusterin (koska HREs: t eivät todellakaan ole DNA-sekvenssien yhtenäinen aliavaruus) esitämme tuotoksen vektorina. Erityisesti Kyllä / Ei-lähtö on 2-vektori: Kyllä = (1,-1) ja ei = (-1,1). Tällöin ulostulon liike on kaksiulotteisessa avaruudessa ja mahdollistaa enemmän joustavuutta.

* neuroverkkorakenne

, jossa tulo on 4-ulotteinen vektori, 15 bp: n pituiselle HRE: lle meillä on 60 tulosolmua. Neuroverkkoteorian mukaan varman oppimisen kannalta vapausasteiden eli sopivien painojen määrä on korkeintaan puolet rajoitteiden (syötteiden) määrästä. Näin ollen, jos kyseessä on yksi piilotettu kerros ja aineisto noin 7000 positiivista ja negatiivista HRE, meidän pitäisi rajoittaa määrä piilotettu kerros neuronien noin 50. Siten meillä on 60 × (50+1) painot piilotettu kerros ja (50+1) × 2 painot lähtö kerros (plus yksi on bias aikavälillä), yhteensä noin 3000. Kahden piilokerroksen tapauksessa neuronien maksimimäärä kussakin kerroksessa on noin 40. Huomasimme kuitenkin, että kahden kerroksen käyttö on kohtuutonta nykyisessä ongelmassa.

neuroverkkomallissamme bipolaarisia sigmoidifunktioita käytetään kaikkien kerrosten toteuttamiseen. Koko verkon rakenne on kuvattu Fig. 2.

kuva 2
kuva2

keinotekoinen neuroverkko ennalta tunnistamista varten.

• Back-lisäysoppiminen

mallin koulutuksessa toteutetaan selkälisäysoppiminen: kunkin esimerkkikuvion Koulutus asettaa, löytää ero painot lähtö kerros, takaisin-etenevät ero piilotettu kerros, sitten löytää ero painot piilotettu kerros, ja lopulta muuttaa kaikki painot verkon.

jokaisen hermosolun painonsäädön yhtälö on:

wt+1 = WT + α × δ x (4)

jos wt+1 on tietyn hermosolun painovektori oppimisen t. vaiheessa, at on oppimisparametri t. vaiheessa (0 < at < 1 ∀ t > 0), kunkin hermosolun delta-arvo lasketaan seuraavasti:

missä DT ja ot edustavat neuronin haluttuja ja tällä hetkellä saatuja ulostuloja, x on tulo tarkasteltavaan kerrokseen (joko piilotettu tai ulostulo), ut= wtx on synaptinen tulo hermosoluun ja f(ut) on neuronin aktivointifunktio. Myös taaksepäin propagoidulle delta-arvolle K on lähtökerroksen neuronien lukumäärä, wh – >kis piilokerroksen hth-neuronin ja lähtökerroksen KTH-neuronin välisen yhteyden painokerroin, δk-ulostulo on lähtökerroksen kth-neuronin Delta-arvo laskettuna kaavalla (5).

taustatieto päättyy, kun 99%: n tarkkuuden virhetoleranssi täyttyy, haluttu epookkien määrä ohitetaan tai saavutetaan virhetaso.

Oppimisnopeusparametri α säätelee gradientin laskeutumisalgoritmin askellusta oppimisvirheen minimoimiseksi. Mitä korkeampi oppimistahti on, sitä nopeammin lähentyminen etenee. Mutta erittäin korkea oppimistaso on mahdollisuus hypätä yli pienin virhe, tai saada heilahteluja sijaan vakaan tilan. Toisaalta, hyvin alhainen oppimistaso tarjoaa vähemmän mahdollisuuksia löytää maailmanlaajuinen minimi, ja sen sijaan, se käyttää ensimmäistä satunnaisesti löydetty paikallinen minimi. Ratkaisumme on säätää oppimisparametria: jos nykyinen kulkuvirhe on pienempi kuin edellinen, liikumme oikeaan suuntaan ja voimme liikkua hieman nopeammin, jolloin α kasvaa 5%. Jos olemme hypänneet yli minimin ja saaneet suuremman virheen, järjestelmä menee takaisin pienemmillä askelilla, ja is laski 30%.

valvotussa oppimisessa käytetään kokeellisesti todennettua HREs – joukkoa, jolla on haluttu vastaus Kyllä (1;-1), ja kymmenkertaista neutraalien DNA-sekvenssien joukkoa, johon liittyy haluttu vastaus Ei (-1;1). Molemmat koulutussarjat ovat suuria, joten jotta neuroverkko välttäisi vakavia värähtelyjä, sekoitamme ne.; muussa tapauksessa, tarkastellessaan useita satoja positiivisia (negatiivisia) koulutussarjoja, verkosto voi sopeutua myönteisiin (kielteisiin) vastauksiin, ilman että negatiivisiin (myönteisiin) vastauksiin kiinnitetään huomiota.

Tarkkuusarviointi

tarkkuuden arviointitarkoituksessa käytetään kymmenkertaista ristivalidointia, jossa 90% koko aineistosta on koulutuskokonaisuutta ja loput 10% käytetään testaustarkoituksiin. Tämä erottelu toistetaan 10 kertaa (ei-päällekkäisillä testisarjoilla), ja keskimääräiset virhearvot lasketaan.

Vastaa

Sähköpostiosoitettasi ei julkaista.