Blog si opět prošel delším obdobím neaktivity, za což bych se rád omluvil. Budiž mi výmluvou, že jsem v poslední době strávil docela dost času snahou obeznámit se s metodami moderní numerické fylogenetiky, která sestávala hlavně ze čtení klasických prací Huelsenbecka, Swofforda, Tuffleyho, Steela, Pennyho, Lewise, Farrise a Goloboffa a pokusů porozumět v nich tolika věcem, kolik mi můj omezený matematický aparát jenom umožní. Částečným výstupem tohoto úsilí pak byla moje pondělní přednáška na Fygyzu, jejímž námětem byl právě matematický základ fylogenetických metod a v níž jsem se dopustil snad všech prohřešků, které jsou podle SV-POW! při takových příležitostech možné ("face the audience", "don't read the slides out loud"). Prezentace je stažitelná níže a také na nové statické stránce, kterou tímto na blog přidávám.
Když už jsem v tom sebekritickém rozpoložení, ještě horší může být to, že některé slajdy jsou bez doprovodného komentáře vyloženě zavádějící. Tuffley & Steel (1997) třeba nejsou první, kteří odhalili evoluční model implicitní pro nejvyšší úspornost* – to udělal už Farris (1973) a podruhé Goldman (1990). Ve všech případech jde o modely, pod nimiž věrohodnostní kritérium (nejlepší strom je ten, z nějž s největší pravděpodobností odvodíme původní data) vyprodukuje stejný strom, jako nejvyšší úspornost, a všechny z těchto modelů trpí charakteristickými nedostatky parsimonie, jako je statistická nekonzistence ve Felsensteinově zóně. Přesto se od sebe liší – ty od Farrise a Goldmana převedly parsimonii na věrohodnost tím, že z ancestrálních znakových stavů udělaly parametry evolučního modelu, zatímco Tuffley a Steel stejného cíle dosáhli tak, že povolili každému znaku na každé větvi odlišnou rychlost evoluce (žádný společný mechanizmus).
Hlavním rozdílem mezi těmito třemi modely je jejich složitost: v tom Farrisově získáme po přidání 1 dalšího znaku do analýzy n − 2 nových parametrů, zatímco u Tuffleyho a Steela je to už 2n − 3. Vzájemnou provázanost těchto modelů a její implikace pro použití parsimonie velmi pěkně vysvětlil Goloboff (2003): model s nejmenším množstvím parametrů (který kupříkladu úplně ignoruje délky větví) je ekvivalentní parsimonii; pokud začneme parametry přidávat, dostaneme věrohodnost; ale když toto přidávání dovedeme do logického konce a dáme každému znaku jeho vlastní délku větve (tzn. jeho vlastní rychlost evoluce), skončíme zase u parsimonie. Problém je jen v tom, že ačkoli parsimonie nabízí jak nejjednodušší, tak i nejrealističtější evoluční model (a to najednou), různé simulace celkem jasně ukazují, že nejlepší výsledky mají ty modely, které mezi jednoduchostí a realizmem dělají nějaký rozumný kompromis (Huelsenbeck et al. 2011).
Pokud jde o použité podklady, zvlášť užitečnými se ukázali být Archibald et al. (2003) a jejich záměrně ne-technický úvod do bayesovských metod, který pěkně shrnuje rozdíly mezi bayesovskou a frekventistickou statistikou, mapuje historii užívání bayesovských metod ve fylogenetice, popisuje, jak se tato metoda dostává k výslednému stromku, a nezaujatě předkládá její výhody i slabiny. V některých ohledech je už text samozřejmě trochu zastaralý (např. co se týče nejistého vlivu priorních pravděpodobností nebo rychlostní převahy Bayese nad věrohodnostní analýzou s bootstrapem, kterou odstranily nové programy typu GARLI a RAxML), většinou ale svou funkci stále plní velmi dobře.
*Když už jsme u toho, Linné nebyl první, kdo si uvědomil hierarchické uspořádání přírody (jeho systém s taxonomickými kategoriemi je však rozhodně první, který jej plně docenil); Darwin nebyl první, kdo tuto hierarchii vysvětlil společným původem (zásadní je zde ovšem jeho geniální postřeh, že biologové se svou klasifikací nevědomky pokoušeli vystihnout společný původ dlouho předtím, než na takovou věc vůbec uvěřili), a Hennig je jako zakladatel kladistiky také poněkud sporný: Edwards a Cavalli-Sforza s parsimonií přišli už v roce 1963, Hennig ale stejně vítězí, jelikož ji používal už v 50. letech (akorát v německy psaných publikacích − někteří sice pochybovali o tom, že hennigovská argumentace a moderní podoba parsimonie jsou jedno a totéž, ale jak ukázali Farris & Kluge [1997], jejich argumenty jsou vesměs nepřesvědčivé). Poučení: do jednoho slajdu se prostě nevejde všechno.
Zdroje:
Hlavním rozdílem mezi těmito třemi modely je jejich složitost: v tom Farrisově získáme po přidání 1 dalšího znaku do analýzy n − 2 nových parametrů, zatímco u Tuffleyho a Steela je to už 2n − 3. Vzájemnou provázanost těchto modelů a její implikace pro použití parsimonie velmi pěkně vysvětlil Goloboff (2003): model s nejmenším množstvím parametrů (který kupříkladu úplně ignoruje délky větví) je ekvivalentní parsimonii; pokud začneme parametry přidávat, dostaneme věrohodnost; ale když toto přidávání dovedeme do logického konce a dáme každému znaku jeho vlastní délku větve (tzn. jeho vlastní rychlost evoluce), skončíme zase u parsimonie. Problém je jen v tom, že ačkoli parsimonie nabízí jak nejjednodušší, tak i nejrealističtější evoluční model (a to najednou), různé simulace celkem jasně ukazují, že nejlepší výsledky mají ty modely, které mezi jednoduchostí a realizmem dělají nějaký rozumný kompromis (Huelsenbeck et al. 2011).
Pokud jde o použité podklady, zvlášť užitečnými se ukázali být Archibald et al. (2003) a jejich záměrně ne-technický úvod do bayesovských metod, který pěkně shrnuje rozdíly mezi bayesovskou a frekventistickou statistikou, mapuje historii užívání bayesovských metod ve fylogenetice, popisuje, jak se tato metoda dostává k výslednému stromku, a nezaujatě předkládá její výhody i slabiny. V některých ohledech je už text samozřejmě trochu zastaralý (např. co se týče nejistého vlivu priorních pravděpodobností nebo rychlostní převahy Bayese nad věrohodnostní analýzou s bootstrapem, kterou odstranily nové programy typu GARLI a RAxML), většinou ale svou funkci stále plní velmi dobře.
*Když už jsme u toho, Linné nebyl první, kdo si uvědomil hierarchické uspořádání přírody (jeho systém s taxonomickými kategoriemi je však rozhodně první, který jej plně docenil); Darwin nebyl první, kdo tuto hierarchii vysvětlil společným původem (zásadní je zde ovšem jeho geniální postřeh, že biologové se svou klasifikací nevědomky pokoušeli vystihnout společný původ dlouho předtím, než na takovou věc vůbec uvěřili), a Hennig je jako zakladatel kladistiky také poněkud sporný: Edwards a Cavalli-Sforza s parsimonií přišli už v roce 1963, Hennig ale stejně vítězí, jelikož ji používal už v 50. letech (akorát v německy psaných publikacích − někteří sice pochybovali o tom, že hennigovská argumentace a moderní podoba parsimonie jsou jedno a totéž, ale jak ukázali Farris & Kluge [1997], jejich argumenty jsou vesměs nepřesvědčivé). Poučení: do jednoho slajdu se prostě nevejde všechno.
Zdroje:
- Archibald JK, Mort ME, Crawford DJ 2003 Bayesian inference of phylogeny: a non-technical primer. Taxon 52: 187–91
- Farris JS 1973 A probability model for inferring evolutionary trees. Syst Zool 22(3): 250–6
- Farris JS, Kluge AG 1997 Parsimony and history. Syst Biol 46(1): 218–30
- Goldman N 1990 Maximum likelihood inference of phylogenetic trees with special reference to a Poisson process model of DNA substitution and to parsimony analyses. Syst Zool 39(4): 345–61
- Goloboff PA 2003 Parsimony, likelihood, and simplicity. Cladistics 19: 91–103
- Huelsenbeck JP, Alfaro ME, Suchard MA 2011 Biologically inspired phylogenetic models strongly outperform the No Common Mechanism model. Syst Biol 60(2): 225–32
- Tuffley C, Steel M 1997 Links between maximum likelihood and maximum parsimony under a simple model of site substitution. Bull Math Biol 59: 581–607