Bioinformatica is de toepassing van de informatica technieken om het gebied van de biologie . De doelstellingen van bioinformatica zijn om het leven wetenschappers te helpen bij het organiseren van biologische gegevens en het ontwikkelen van de nodige informatica-instrumenten voor de ontdekking van nieuwe wetenschappelijke hypothesen . Classificatietechnieken , ook wel clustering technieken zijn belangrijk in bio als zij toestaan dat de scheiding van verschillende biologische gegevens met gelijke kenmerken in verschillende sets . Geschiedenis De grootte van biologische gegevens is exponentieel gegroeid , met de verdubbeling van informatie om de 15 maanden geobserveerd . Als gevolg hiervan , zijn informatica en informatica technieken intensief gebruikt bij de verwerking en het beheer van biologische gegevens . De meest fundamentele concept bioinformatica is dat de meeste biologische gegevens hebben vergelijkbare eigenschappen en kan worden gescheiden in clusters . Bijvoorbeeld kunnen de genen van een organisme worden ingedeeld naar hun functionele groepen of metabole routes . Eiwitten kunnen ook worden ingedeeld op basis van de genen die tot expressie . Indeling of clustering technieken zijn noodzakelijk bij het beheer van enorme databases van genetische en biologische gegevens . Er zijn twee primaire vormen van classificatie technieken in de bioinformatica : . De hiërarchische en de k -Means classificatie technieken hiërarchische classificatie De hiërarchische indeling techniek organiseert biologische gegevens in een tree datastructuur . Genen worden uitgedrukt als knooppunten in de boom , terwijl elke sub - boom van knopen is een cluster of groep van genen . De boom zou kunnen worden verankerd of Onbewortelde . Een wortel boom wordt gedefinieerd als een structuur met slechts een knooppunt op de top. In tegenstelling, een wortelloze boom heeft meerdere bovenste knooppunten. K - Means Indeling Een ingewikkelder classificatietechniek is de k -Means indeling, die probeert een set van centra die de kwadratische fout minimaliseren vervorming van de datasets multidimensionale ruimte te vinden . Een cluster is ingedeeld door het groeperen van verwante punten naar de dichtstbijzijnde centrum . De Lloyd algoritme wordt vaak gebruikt in de k -Means classificatietechniek . In dit algoritme , zijn data punten willekeurig gerangschikt in aparte clusters , die vervolgens worden geoptimaliseerd om de minimale lokale plein fout vervormingen veroorzaken . Belang Na gerelateerde eiwitten zijn geweest ingedeeld in soortgelijke groepen , kan het leven wetenschappers die informatie gebruiken om de eigenschappen van bepaalde, minder bestudeerde eiwitten te voorspellen . Dit geldt ook voor andere aspecten van de structuur van eiwitten . Een ander gebruik van classificatietechnieken is het probleem van het bepalen van de evolutionaire boom organismen die op basis van hun genetische sequenties lossen . De evolutionaire boom geconstrueerd uit de DNA sequentie van het organisme met behulp van hiërarchische of k - middelen classificatietechnieken . Overwegingen Hierarchical classificatietechniek is een vrij eenvoudige en doeltreffende manier van clusteren biologische gegevens . In tegenstelling , geen doeltreffende algoritme bestaat op het moment van schrijven die in staat is de k - middelen classificatietechniek effectief uitvoeren van de grootte van het biologische gegevens toe . Dit suggereert dat een grote rekenkracht vaak vereist is k - Means indeling , dat is een belangrijke factor om te overwegen bij het selecteren van de indeling techniek te gebruiken in de bioinformatica toepassingen uit te voeren .
|