0172/2013 - MÉTODO DE MINERAÇÃO DE DADOS PARA IDENTIFICAÇÃO DE CÂNCER DE MAMA BASEADO NA SELEÇÃO DE VARIÁVEIS - REAPRESENTAÇÃO A DATA MINING METHOD FOR BREAST CANCER IDENTIFICATION BASED ON SELECTED FEATURES - RESUBMISSION
• Nicole Holsbach - HOLSBACH, N. - Porto Alegre, RS - Universidade Federal do Rio Grande do Sul - <nicole.holsbach@bol.com.br>
Coautor(es):
• Flavio Sanson Fogliatto - Fogliatto, F.S. - Universidade Federal do Rio Grande do Sul - <ffogliatto@producao.ufrgs.br>
• Michel José Anzanello - ANZANELLO, M. J. - Universidade Federal do Rio Grande do Sul - <anzanello@producao.ufrgs.br>
Área Temática:
Saúde e Gênero
Resumo:
Na maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis.
Palavras-chave:
Seleção de variáveis
Identificação de câncer de mama
k-vizinhos mais próximos
Análise Discriminante
Abstract:
In the majority of countries, female breast cancer is predominant. If diagnosed in early stages, it presents a high percentage of cure. Several statistical-based approaches have been developed to assist early breast cancer detection. This paper presents a method for feature selection for the classification of cases into two classes, benign or malignant, based on cytopathologic analysis from patients’ breast cell samples. Features are ranked according to a new feature importance index that combines Principal Component Analysis weights and the variance explained by each retained component. Observations of a training set are categorized into two classes through the k-Nearest Neighbor tool and Discriminant Analysis, followed by elimination of the feature with the smallest importance index. The subset with the maximum accuracy is used to classify observations in the testing set. When applied to the Wisconsin Breast Cancer Database, the proposed method led to average 97.77% accurate classifications while retaining an average of 5.8 features.
Keywords:
Feature selection
Breast cancer identification
k-nearest Neighbor
Discriminant analysis
A DATA MINING METHOD FOR BREAST CANCER IDENTIFICATION BASED ON SELECTED FEATURES - RESUBMISSION
Resumo (abstract):
In the majority of countries, female breast cancer is predominant. If diagnosed in early stages, it presents a high percentage of cure. Several statistical-based approaches have been developed to assist early breast cancer detection. This paper presents a method for feature selection for the classification of cases into two classes, benign or malignant, based on cytopathologic analysis from patients’ breast cell samples. Features are ranked according to a new feature importance index that combines Principal Component Analysis weights and the variance explained by each retained component. Observations of a training set are categorized into two classes through the k-Nearest Neighbor tool and Discriminant Analysis, followed by elimination of the feature with the smallest importance index. The subset with the maximum accuracy is used to classify observations in the testing set. When applied to the Wisconsin Breast Cancer Database, the proposed method led to average 97.77% accurate classifications while retaining an average of 5.8 features.
Palavras-chave (keywords):
Feature selection
Breast cancer identification
k-nearest Neighbor
Discriminant analysis
HOLSBACH, N., Fogliatto, F.S., ANZANELLO, M. J.. MÉTODO DE MINERAÇÃO DE DADOS PARA IDENTIFICAÇÃO DE CÂNCER DE MAMA BASEADO NA SELEÇÃO DE VARIÁVEIS - REAPRESENTAÇÃO. Cien Saude Colet [periódico na internet] (2013/mar). [Citado em 24/12/2024].
Está disponível em: http://cienciaesaudecoletiva.com.br/artigos/metodo-de-mineracao-de-dados-para-identificacao-de-cancer-de-mama-baseado-na-selecao-de-variaveis-reapresentacao/12295?id=12295&id=12295