Análise
de Componentes Principais (PCA) é um dos mais utilizados métodos de análise
multivariada de dados. Dada
uma tabela de dados quantitativos (contínuos ou discretos) em que n observações
(observações, produtos, etc), são descritos por p variáveis (os descritores,
atributos, medidas, etc), se p é bastante elevada, é impossível compreender
a estrutura dos dados e da proximidade com as observações de apenas usando métodos
univariadas de análise estatística ou até mesmo uma matriz de correlação.
Usos da PCA
Existem várias utilizações para a PCA, incluindo:
Usos da PCA
Existem várias utilizações para a PCA, incluindo:
O
estudo e visualização das correlações entre variáveis para em principio ser
capaz de limitar o número de variáveis a serem medidas depois;
Obtenção
de factores não correlacionados e que são combinações lineares das variáveis
iniciais, de modo a usar esses fatores em métodos de modelagem, tais como
regressão linear, regressão logística ou análise discriminante.
Visualizando
as observações com uma num espaço 2 - ou 3-D, a fim de identificar os grupos
uniformes ou atípicas de observações.
Princípio da PCA
PCA pode ser considerado como um método de projecção em que se projectam observações a partir de um espaço p-dimensional com p variáveis para um espaço de k-dimensional (em que k <p), de modo a conservar a quantidade máxima de informação (a informação é aqui medida por meio da variância total dos gráficos de dispersão) das dimensões iniciais. Se a informação associada com os primeiros 2 ou 3 eixos representa uma percentagem suficiente da variabilidade total da dispersão, as observações poderão ser representados num gráfico 2 ou 3D, tornando assim muito mais fácil interpretação.
Correlações ou covariâncias
PCA é usado para calcular as matrizes para projectar as variáveis num novo espaço usando uma nova matriz que mostra o grau de semelhança entre as variáveis. É comum a utilização do coeficiente de correlação de Pearson ou a covariância como o índice de semelhança, a correlação de Pearson e a covariância têm a vantagem de fornecer matrizes semi-definidas cujas propriedades são utilizadas na PCA. No entanto outros índices podem ser utilizados.
Princípio da PCA
PCA pode ser considerado como um método de projecção em que se projectam observações a partir de um espaço p-dimensional com p variáveis para um espaço de k-dimensional (em que k <p), de modo a conservar a quantidade máxima de informação (a informação é aqui medida por meio da variância total dos gráficos de dispersão) das dimensões iniciais. Se a informação associada com os primeiros 2 ou 3 eixos representa uma percentagem suficiente da variabilidade total da dispersão, as observações poderão ser representados num gráfico 2 ou 3D, tornando assim muito mais fácil interpretação.
Correlações ou covariâncias
PCA é usado para calcular as matrizes para projectar as variáveis num novo espaço usando uma nova matriz que mostra o grau de semelhança entre as variáveis. É comum a utilização do coeficiente de correlação de Pearson ou a covariância como o índice de semelhança, a correlação de Pearson e a covariância têm a vantagem de fornecer matrizes semi-definidas cujas propriedades são utilizadas na PCA. No entanto outros índices podem ser utilizados.
Tradicionalmente, , em vez de a covariância é usado um coeficiente de correlação pois a utilização de um coeficiente de correlação remove o efeito de escala: assim, uma variável que varia entre 0 e 1 não pesa mais na projecção de uma variável que varia entre 0 e 1000. No entanto, em certas áreas, quando as variáveis são supostamente numa escala idêntica ou queremos que a variância das variáveis para influenciar a construção do fator, é utilizada a covariância.
Onde apenas está disponível uma matriz de similaridade, em vez de uma tabela de observações / variáveis, ou quando quiser usar outro índice de similaridade, pode realizar uma PCA a partir da matriz de similaridade. Os resultados obtidos apenas dizem respeito a variáveis pois não há informações sobre as observações disponível.
Nota: quando PCA é realizada sobre uma matriz de correlação, é chama-se PCA normalizada.
Mais informações podem ser prestadas por Marketing da Vila
Sem comentários:
Enviar um comentário