a hormonválasz elemek silico modellezése

felügyelet nélküli képzés a HRE modellhez

a felügyelet nélküli tanulási algoritmus megvalósításaként a HRE modellezéshez adaptált helyzetsúly-mátrix megközelítést fejlesztettek ki ebben a tanulmányban.

• a pozíciós Súlymátrix algoritmus

a pozíciós súlymátrix (PWM) statisztikai modelljével kezdjük, amelyet először Quandt et al. . A koncepciót a HRE minták felismerésére adaptáltuk. Annak igazolására, hogy egy adott szekvencia PRE-e, összehasonlítjuk ezt a szekvenciát kísérletileg validált szekvenciák halmazával. Az összehasonlítás hasonlósági pontszáma arányos a pozíció-összehasonlítások összes eredményének összegével. Egy szekvencia mátrixhoz való összehasonlításához a következő folyamatokat fejlesztjük ki:

  1. a)

    a relatív megőrzés kiszámítása a mátrix minden I pozíciójára:

ahol P (i, b) A B betű relatív gyakorisága az I pozícióban.

ez a relatív megőrzés arányos az egyes pozíciók információtartalmával, amely viszont közvetetten a nukleotid aminosav-kötési energiájával foglalkozik . Könnyen kiszámítható, hogy 0 értéket vesz fel, ha a nukleotid Eloszlás egy adott helyzetben egyenletes és nem mutat tartósságot. Az 1 értéket egy adott nukleotid erős megőrzése esetén érik el. A normalizálási tényezőket úgy választottuk meg, hogy a Ci szigorúan 0-tól 1-ig változzon. Ha egy adott pozícióra a ‘rés’ eredményét nem értékelik, akkor a fentiekben az 5 együtthatót 4-re kell változtatni; vagyis mindig az egyes pozíciók lehetséges kimeneteleinek száma.

  1. B)

    a mátrix hasonlósági együtthatójának kiszámítása, amely egy adott szekvencia és a minta hasonlóságát képviseli. A mintát a pozíciófrekvencia mátrix képviseli.

ahol b a szekvencia I-betűje, a pontszám(i, b) pedig az I sorban elhelyezkedő pozíciófrekvencia-mátrix eleme, amely megfelel a B nukleotidnak.

mint látható, a magasabb MS-együttható, a magasabb levelező pontszám(i, b) értékek lesznek; így a magasabb MS-értékek megfelelnek a gyakoribb nukleotidokból álló szekvenciáknak. Végül, minél magasabb az MS érték, annál közelebb van a szekvencia a kísérletileg validált kötési helyek képzési készletéhez.

a mátrix hasonlósága csak akkor éri el az 1-et, ha a jelölt szekvencia megfelel a leginkább konzervált nukleotidnak a mátrix minden helyzetében. Az egyes pontszámokat a Ci értékkel megszorozva hangsúlyozza azt a tényt, hogy a kevésbé konzervált pozíciók eltérései könnyebben tolerálhatók, mint az erősen konzervált pozíciók eltérései.

az ELŐFELISMERÉS modellezésénél egy adott szekvencia esetében két mátrix hasonlósági együtthatót számítunk ki: MNMS (mono-nukleotid mátrix hasonlóság) és DNMS (di-nukleotid mátrix hasonlóság). Ezen együtthatók kiszámítása előtt a szekvenciát igazítjuk konszenzus HRE. Végül is a mátrix hasonlósági együtthatóinak kiszámításához csak igazított szekvenciát használunk. Az igazítási eljárás után azonban tartalmazhat egy vagy több hiányosságot.

az első együttható számítás a mono-nukleotid helyzetfrekvencia-mátrix egyszerű összehasonlítása a pontosan a fent leírt módon igazított szekvenciával.

a második összehasonlítás előzetes előkészítést igényel. A nukleotidszekvenciát előzetesen fel kell dolgozni a di-nukleotid helyzetfrekvencia mátrixszal való megfelelő összehasonlítás céljából. A meglévő di-nukleotidok ábécéje 25 elemből áll (négy különböző nukleotid és rés minden lehetséges kombinációban). A Latin ábécé elegendő különböző betűt tartalmaz az egy-egy megfelelőség rekonstruálásához, amelyben minden di-nukleotid megfelel az új ábécé egyetlen betűjének.

ezután az ezen átalakítás eredményeként megszerzett szekvenciára a mátrix hasonlósági együtthatóját pontosan úgy számítjuk ki, mint a mono-nukleotid frekvenciamátrixok esetében, de a most használt mátrix a dinukleotid frekvencia. Az egyetlen korrekció a normalizálási együtthatók változása. Mivel a különböző di-nukleotidok száma (és a megfelelő betűk száma az újonnan megvalósított ábécében) akár 25 is lehet, 4-et vagy 5-et 16-ra vagy 20-ra vagy 25-re kell változtatni, attól függően, hogy a di-nukleotid bármely helyzetében rés szimbólumot feltételeznek-e.

e két együttható kiszámítása után végrehajtják a döntéshozatali eljárást. Ez használ cut-off szintek mind a két együttható. Ezeket a küszöbértékeket bizonyos hangolási módszerekkel vagy keresztellenőrzéssel kell előre meghatározni.

ha egy adott szekvencia esetében az MNMS nagyobb, mint ennek az értéknek a küszöbértéke, és a DNMS is meghaladja annak küszöbértékét, akkor ez egy HRE.

minden elismert HRE esetében a képzési készlet leginkább hasonló eleme van meghatározva. Azt is jelezzük, hogy a jobb oldali félhely ilyen szekvenciáját (amely várhatóan erősen konzervált) mutatják-e be bármelyik kísérletileg validált HREs-ben. Ez fontos a meglehetősen nagy és reprezentatív képzési készlet esetében, amikor egy adott szekvencia hiánya a mintában értékes mutató lehet a modell hangolásához.

felügyelt gépi tanulás

ezután a Feed-forward neurális hálózatot használják az előre jelzett HREs keresztellenőrzéséhez.

az összegyűjtött adatkészlet számos DNS-szekvenciából áll, 4 betűs ábécében (a, C, G, T}). A fenti pozíciófrekvencia-alapú modellben a betűket különböző, független és egyenlő távolságra lévő állapotokként jegyezzük fel. A neurális hálózati modell azonban digitális számokkal működik. A számok tere egydimenziós, tehát ha mind a 4 nukleotidot számokkal szembesítjük, akkor azok már nem egyenlő távolságra vannak, ezért néhány műtárgyat hozunk a modellünkbe. Néhány teszt után kiderült, hogy a bemeneti csomópontok egydimenziós teljesítményét használó modellezés műtárgyai meglehetősen kritikusak a pontosság szempontjából. Ezért megvalósítjuk az” egy forró ” ábrázolást a DNS-kódoláshoz.

az Igen / Nem döntéshez elegendő a kimenetet egyetlen bitként ábrázolni. Az androgén, a progeszteron és a glükokortikoid válaszelemek (amelyek a HREs adatkészletünket alkotják) vagy a HREs bármely más klaszterének megkülönböztetése céljából (mivel a HREs határozottan nem a DNS-szekvenciák egységes altere), a kimenetet vektorként mutatjuk be. Különösen az Igen/Nem kimenet 2-vektor: Igen = (1,-1) és nem = (-1,1). Ebben az esetben a kimenet mozgása a kétdimenziós térben van, és nagyobb rugalmasságot tesz lehetővé.

a bemenettel 4 dimenziós vektorként, egy 15 bp hosszú HRE-hez 60 bemeneti csomópontunk van. A neurális hálózat elmélete azt sugallja, hogy a magabiztos tanuláshoz a szabadság fokainak vagy az illeszkedő súlyoknak legfeljebb a fele lehet a korlátok (a bemenetek) számának. Ezért egy rejtett réteg és egy körülbelül 7000 pozitív és negatív HREs adatkészlet esetében a rejtett réteg neuronok számát körülbelül 50-re kell korlátoznunk. Így van a rejtett réteg 60 (50+1) súlya és (50+1) a kimeneti réteg 2 súlya (plusz egy torzítási kifejezésre vonatkozik), összesen körülbelül 3000. Két rejtett réteg esetén az egyes rétegeken a neuronok maximális száma körülbelül 40. Megállapítottuk azonban, hogy a két réteg használata túlzott a jelenlegi probléma szempontjából.

neurális hálózati modellünkben a bipoláris szigmoid funkciókat használják az összes réteg megvalósításához. A teljes hálózati struktúrát az ábra szemlélteti. 2.

ábra 2
2. ábra

mesterséges neurális hálózat az előzetes felismeréshez.

• vissza-terjedési tanulás

a modell képzéséhez a vissza-terjedési tanulás megvalósul: az edzéskészlet minden egyes példamintájához keresse meg a kimeneti réteg súlyainak különbségét, vissza-terjessze a különbséget a rejtett rétegre, majd keresse meg a rejtett réteg súlyainak különbségét, végül módosítsa a hálózat összes súlyát.

az egyes neuronok súlyszabályozásának egyenlete:

wt + 1 = wt + xhamsterx ( 4)

ahol WT + 1 egy adott Neuron súlyvektora a tanulás TTH lépésében, at a tanulási paraméter a TTH lépésben (0 < < 1 xhamsternél t > 0), Az egyes neuronok Delta értékét a következőképpen kell kiszámítani:

ahol dtés az OT a neuron kívánt, illetve jelenleg kapott kimeneteit képviseli, x a figyelembe vett réteg bemenete(rejtett vagy kimenet), ut= wtx a neuron szinaptikus bemenete, f (ut) pedig az idegsejt aktivációs funkciója. Továbbá, a visszafelé szaporított delta érték esetében K a kimeneti réteg neuronjainak száma, wh – > kis a rejtett réteg hth neuronja és a kimeneti réteg kth neuronja közötti kapcsolat tömeg-együtthatója, az (5) képlettel kiszámított, az output réteg KTH neuronjának delta értéke.

a hátsó terjedés akkor fejeződik be, ha a 99%-os pontosság hibatűrése teljesül, a kívánt korszakok száma elhalad, vagy a hiba fennsíkot elérik.

a tanulási sebesség paramétere a tanulási hiba minimalizálása érdekében szabályozza a gradiens Süllyedés algoritmusának lépését. Minél magasabb a tanulási arány a gyorsabb konvergencia megy. De nagyon magas tanulási arány mellett van esély arra, hogy átugorja a minimális hibát, vagy rezgéseket kapjon az egyensúlyi állapot helyett. Másrészt a nagyon alacsony tanulási arány kevesebb esélyt kínál a globális minimum megtalálására, ehelyett az első véletlenszerűen talált helyi minimumot használja. Megoldásunk a tanulási paraméter beállítása: ha az aktuális passz hiba kisebb, mint az előző, akkor a helyes irányba haladunk, és egy kicsit gyorsabban haladhatunk, 5% – kal növelve a xhamsteret. Ha átugrottuk a minimumot, és nagyobb hibát kaptunk, a rendszer kisebb lépésekkel megy vissza, és az at 30% – kal csökken.

a felügyelt tanuláshoz kísérletileg igazolt HREs-t használunk a kívánt igen válasz (1;-1) mellett, és tízszeres semleges DNS-szekvenciát társítunk a kívánt nem válaszhoz (-1;1). Mindkét edzőkészlet nagy, ezért annak érdekében, hogy a neurális hálózat elkerülje a súlyos oszcillációkat, összekeverjük őket; ellenkező esetben, miközben több száz pozitív (negatív) képzési készletet néz át, a hálózat alkalmazkodhat a pozitív (negatív) válaszokhoz, anélkül, hogy figyelmet fordítana a negatív (pozitív) válaszokra.

pontossági becslés

a pontossági becslés céljára tízszeres keresztellenőrzést alkalmaznak, a teljes adatkészlet 90% – a az oktatókészlet, a fennmaradó 10% pedig tesztelési célokra. Ezt az elválasztást 10-szer megismételjük (nem átfedő tesztkészletekkel), és kiszámítjuk az átlagos hibaértékeket.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.