v silico modelování prvků hormonální odpovědi

bez dozoru školení pro model HRE

jako implementace algoritmu učení bez dozoru pro modelování HRE je v této studii vyvinut přizpůsobený přístup matice hmotnosti polohy.

* algoritmus matice hmotnosti polohy

začneme statistickým modelem matice hmotnosti polohy (PWM), který byl poprvé popsán Quandtem et al. . Přizpůsobili jsme koncept pro rozpoznávání vzorů HRE. Pro zdůvodnění, zda je daná sekvence PRE, porovnáme tuto sekvenci se sadou experimentálně ověřených sekvencí. Skóre podobnosti srovnání je úměrné součtu všech výsledků srovnání pozic. Pro porovnání sekvence s maticí vyvíjíme následující procesy:

  1. a)

    výpočet relativní konzervace pro každou pozici i v matici:

kde P (i, b) je relativní četnost písmene b v pozici i.

tato relativní konzervace je úměrná informačnímu obsahu pro každou pozici, která se zase nepřímo týká energie vázající nukleotid na aminokyseliny . Jak lze snadno vypočítat, má hodnotu 0, když je distribuce nukleotidů v určité poloze rovnoměrná a nevykazuje žádnou konzervaci. Hodnota 1 je dosažena v případě silné konzervace určitého nukleotidu. Normalizační faktory byly vybrány tak, aby se lišily Ci striktně od 0 do 1. Pokud pro určitou pozici není výsledek “ gap “ hodnocen, pak ve výše uvedeném případě by koeficienty 5 měly být změněny na 4; to znamená, že je to vždy počet možných výsledků pro každou pozici.

  1. B)

    výpočet koeficientu podobnosti matice, který představuje podobnost dané sekvence a vzoru. Vzor je reprezentován maticí frekvence polohy.

kde b je ithletter sekvence a skóre (i, b)je prvek matice frekvence polohy umístěné v řádku i a odpovídající nukleotidu b.

jak je vidět, čím vyšší je koeficient MS, tím vyšší hodnoty korespondentského skóre(i, b) budou; vyšší hodnoty MS tedy odpovídají sekvencím, které se skládají z častějších nukleotidů. Konečně, čím vyšší je hodnota MS, tím blíže je sekvence k tréninkové sadě experimentálně validovaných vazebných míst.

podobnost matrice dosahuje 1 pouze tehdy, pokud kandidátská sekvence odpovídá nejzachovalejšímu nukleotidu v každé poloze matrice. Vynásobením každého skóre hodnotou Ci zdůrazňuje skutečnost, že neshody na méně konzervovaných pozicích jsou snáze tolerovány než neshody na vysoce konzervovaných pozicích.

* mono a di-nukleotidové hmotnostní matice polohy

v modelování předběžného rozpoznávání pro danou sekvenci jsou vypočteny dva koeficienty podobnosti matic: MNMS (mono-nukleotidová matrice podobnost) a DNMS(di-nukleotidová matrice podobnost). Před výpočtem těchto koeficientů je sekvence zarovnána s konsensem HRE. Koneckonců, pro výpočet koeficientů podobnosti matice se používá pouze zarovnaná sekvence. Může však obsahovat jednu nebo více mezer po zarovnání.

prvním výpočtem koeficientu je jednoduché srovnání polohové frekvenční matice mononukleotidů se zarovnanou sekvencí přesně tak, jak je popsáno výše.

druhé srovnání vyžaduje předchozí přípravu. Nukleotidová sekvence musí být předem zpracována pro vhodné srovnání s di-nukleotidovou poziční frekvenční matricí. Abeceda existujících di-nukleotidů se skládá z 25 prvků (čtyři různé nukleotidy a mezera ve všech možných kombinacích). Latinská abeceda obsahuje dostatek různých písmen pro rekonstrukci individuální shody, ve které každý di-nukleotid odpovídá jedinému písmenu nové abecedy.

potom se pro sekvenci získanou v důsledku této konverze vypočítá koeficient podobnosti matice přesně jako ve výše uvedeném pro mononukleotidové frekvenční matice,ale nyní používaná matice je dinukleotidová frekvence. Jedinou korekcí je změna normalizačních koeficientů. Protože počet různých di-nukleotidů (a odpovídající počet písmen v nově implementované abecedě) je až 25, je nutné změnit 4 nebo 5 na 16 nebo 20 nebo 25, v závislosti na tom, zda se v jakékoli poloze di-nukleotidu předpokládá symbol mezery.

jakmile jsou tyto dva koeficienty vypočteny, provede se rozhodovací postup. Používá mezní úrovně pro každý ze dvou koeficientů. Tyto mezní úrovně musí být předurčeny některými metodami ladění nebo křížovou validací.

pokud je pro danou sekvenci MNMS větší než mezní úroveň pro tuto hodnotu a DNMS také překračuje její prahovou hodnotu, pak je to HRE.

pro každou rozpoznanou HRE je definován nejpodobnější prvek tréninkové sady. Je také indikováno, zda je taková sekvence pravé poloviny místa (u které se očekává, že bude vysoce konzervovaná) prezentována v některém z nalezených experimentálně validovaných HREs. To je důležité v případě poměrně velké a reprezentativní tréninkové sady, kdy absence dané sekvence ve vzorku může být cenným ukazatelem pro ladění modelu.

supervizované strojové učení

Feed-forward neuronová síť se pak používá pro křížovou verifikaci předpovězených hre.

* reprezentace vstupu / výstupu

shromážděná datová sada se skládá z řady sekvencí DNA ve 4-písmenné abecedě Ω = {a, C, G, T}. Ve výše uvedeném modelu založeném na frekvenci polohy jsou písmena anotována jako různé, nezávislé a ekvidistantní stavy. Model neuronové sítě však pracuje s digitálními čísly. Prostor čísel je jednorozměrný, takže pokud konfrontujeme všechny 4 nukleotidy s čísly, už nejsou ve stejné vzdálenosti, a proto přinášíme do našeho modelu nějaké artefakty. Po několika testech jsme zjistili, že artefakty modelování pomocí jednorozměrného výkonu vstupních uzlů jsou pro přesnost velmi kritické. Proto implementujeme“ one-hot “ reprezentaci pro kódování DNA.

pro rozhodnutí ano / ne stačí reprezentovat výstup jako jeden bit. Pro účely rozlišování prvků Androgenové, progesteronové a glukokortikoidní odezvy (které tvoří naši datovou sadu hre) nebo jiných shluků hre (protože hre rozhodně nejsou jednotným podprostorem DNA sekvencí), prezentujeme výstup jako vektor. Zejména výstup Ano / Ne je 2-vektor: Ano = (1, -1) a ne = (-1,1). V tomto případě je pohyb výstupu v dvourozměrném prostoru a umožňuje větší flexibilitu.

* struktura neuronové sítě

se vstupem jako 4-dimenzionální vektory, pro 15 bp-dlouhé HRE, máme 60 vstupních uzlů. Teorie neuronové sítě naznačuje, že pro sebevědomé učení je počet stupňů volnosti nebo závaží, které se vejdou, maximálně polovina počtu omezení (vstupů). Proto v případě jedné skryté vrstvy a datové sady asi 7000 pozitivních a negativních hre bychom měli omezit počet neuronů skryté vrstvy na přibližně 50. Máme tedy 60 × (50+1) váhy skryté vrstvy a (50+1) × 2 hmotnosti výstupní vrstvy (plus jedna je pro zkreslení), celkem asi 3000. V případě dvou skrytých vrstev je maximální počet neuronů na každé vrstvě asi 40. Zjistili jsme však, že použití dvou vrstev je pro současný problém nadměrné.

v našem modelu neuronové sítě se pro implementaci všech vrstev používají bipolární sigmoidní funkce. Celá struktura sítě je znázorněna na obr. 2.

Obrázek 2
číslo2

umělá neuronová síť pro předběžné rozpoznávání.

• Back-propagation learning

pro trénink modelu je implementováno back-propagation learning: pro každý vzorový vzor z tréninkové sady najděte rozdíl hmotností pro výstupní vrstvu, zpětně propagujte rozdíl do skryté vrstvy, poté najděte rozdíl hmotností pro skrytou vrstvu a nakonec upravte všechny váhy sítě.

rovnice nastavení hmotnosti pro každý neuron je:

wt + 1 = wt + α × δ x (4)

kde wt + 1 je vektor hmotností pro konkrétní neuron v t-kroku učení, at je parametr učení v t-kroku (0 < při < 1 t t > 0), hodnota delta pro každý neuron se vypočítá následovně:

tam, kde DTA představují požadované a aktuálně získané výstupy neuronu, X je vstup do uvažované vrstvy (buď skrytý nebo výstup), ut= wtx je synaptický vstup do neuronu a f (ut) je aktivační funkce neuronu. Také pro zpětně šířenou hodnotu delta je k počet neuronů na výstupní vrstvě, wh – >kje hmotnostní koeficient spojení mezi hth neuronem skryté vrstvy a KTH neuronem výstupní vrstvy, δk výstup je hodnota delta pro KTH neuron výstupní vrstvy vypočtená podle vzorce (5).

zpětné šíření je ukončeno, když je splněna tolerance chyb pro přesnost 99%, je předán požadovaný počet epoch nebo je dosaženo chybové plošiny.

parametr rychlosti učení α reguluje krok algoritmu sestupu gradientu pro minimalizaci chyby učení. Čím vyšší je rychlost učení, tím rychlejší je konvergence. Ale s velmi vysokou mírou učení existuje možnost přeskočit minimum chyb nebo přijímat oscilace místo ustáleného stavu. Na druhou stranu velmi nízká míra učení poskytuje menší šanci najít globální minimum a místo toho používá první náhodně nalezené místní minimum. Naším řešením je upravit parametr učení: pokud je aktuální chyba průchodu menší než předchozí, pohybujeme se správným směrem a můžeme se pohybovat o něco rychleji, což zvyšuje α o 5%. Pokud jsme přeskočili minimum a obdrželi větší chybu, systém se vrátí s menšími kroky a at se sníží o 30%.

pro supervizované učení se používá sada experimentálně ověřených HREs s požadovanou odpovědí ANO (1;-1) a desetinásobná sada neutrálních sekvencí DNA je spojena s požadovanou odpovědí ne (-1; 1). Obě tréninkové sady jsou velké, proto, aby se neuronová síť vyhnula těžkým oscilacím, smícháme je; v opačném případě se při pohledu na několik stovek pozitivních (negativních) tréninkových sad může síť přizpůsobit pozitivním (negativním) odpovědím, aniž by věnovala pozornost negativním (pozitivním).

odhad přesnosti

pro účely odhadu přesnosti se používá desetinásobná křížová validace, přičemž 90% celkové datové sady tvoří tréninková sada a zbývajících 10 % se používá pro účely testování. Toto oddělení se opakuje 10krát (s nepřekrývajícími se testovacími sadami) a vypočítají se průměrné hodnoty chyb.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.