Browsing by Author "Amare, Samson Yohannes"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- Application of Fuzzy C-Means with focal point on gene expression time-course dataPublication . Amare, Samson Yohannes; Oliveira, José Valente deA tecnologia de microarrays permite o estudo de variações simultâneas de milhares de genes a uma larga escala e têm vindo a ser usada intensivamente em Bioinformática [80]. Como pouco se conhece sobre a função dos genes, a abordagem normalmente seguida é ver a associação de genes de entre aqueles cuja função já é conhecida, i.e.,"culpa por associação" [2]. O clustering é uma técnica de aprendizagem exploratória e não supervisionada sendo geralmente uma primeira etapa na análise de dados de expressão génica. Nesta tese, foi implementada um algoritmo de clustering chamado Fuzzy C-Means with Focal Point (FCMFP). É evidente que quanto mais próximos estamos de um conjunto de objectos, mais grupos emergem e vice-versa [9]. Essa metáfora foi utilizada no FCMFP na identificação do número de clusters, evitando assim a necessidade da sua pré-especificação, ao contrário de FCM. O FCMFP incorpora um ponto focal (posição do observador) e um fatcor de zoom que afecta a distância do ponto focal aos dados. Os agrupamentos (clusters) irrevelantes são removidos com um aumento do factor de zoom. Desta forma, um conjunto de alternativas válidas para o número "correcto" de clusters é fornecida com base na distância e direcção do observador. Foram propostos modos de determinar a vizinhança do ponto focal na tentativa de determinar, mais eficientemente, os centróides que deverão ser removidos. A sensibilidade de vários parâmetros também foi estudada e discutida. Os clusters foram validados usando o índice de Xi-Beni [9] bem como com outras medidas de validade. Foram utilizados conjuntos de dados de cancro da mama humano [28], o ciclo celular de levedura e iris [27] para ganhar experiencia com o algoritmo e, em seguida, foi aplicado na expressão génica de leveduras [7]. Os resultados obtidos são consistentes com os resultados encontrados na literatura, e revelam que o algoritmo oferece uma forma mais intuitiva e eficiente na determinação do número de clusters.