domingo, 23 de setembro de 2012

Análise de Componentes Principais - PCA (Principal Component Analysis)


Análise de Componentes Principais (PCA) é um dos mais utilizados métodos de análise multivariada de dados. Dada uma tabela de dados quantitativos (contínuos ou discretos) em que n observações (observações, produtos, etc), são descritos por p variáveis ​​(os descritores, atributos, medidas, etc), se p é bastante elevada, é impossível compreender a estrutura dos dados e da proximidade com as observações de apenas usando métodos univariadas de análise estatística ou até mesmo uma matriz de correlação.

Usos da PCA

Existem várias utilizações para a PCA, incluindo:
O estudo e visualização das correlações entre variáveis ​​para em principio ser capaz de limitar o número de variáveis ​​a serem medidas depois;
Obtenção de factores não correlacionados e que são combinações lineares das variáveis ​​iniciais, de modo a usar esses fatores em métodos de modelagem, tais como regressão linear, regressão logística ou análise discriminante.
Visualizando as observações com uma num espaço 2 - ou 3-D, a fim de identificar os grupos uniformes ou atípicas de observações.

Princípio da PCA

PCA pode ser considerado como um método de projecção em que se projectam observações a partir de um espaço p-dimensional com p variáveis ​​para um espaço de k-dimensional (em que k <p), de modo a conservar a quantidade máxima de informação (a informação é aqui medida por meio da variância total dos gráficos de dispersão) das dimensões iniciais. Se a informação associada com os primeiros 2 ou 3 eixos representa uma percentagem suficiente da variabilidade total da dispersão, as observações poderão ser representados num gráfico 2 ou 3D, tornando assim muito mais fácil interpretação.

Correlações ou covariâncias

PCA é usado para calcular as matrizes para projectar as variáveis num novo espaço usando uma nova matriz que mostra o grau de semelhança entre as variáveis. É comum a utilização do coeficiente de correlação de Pearson ou a covariância como o índice de semelhança, a correlação de Pearson e a covariância têm a vantagem de fornecer matrizes semi-definidas cujas propriedades são utilizadas na PCA. No entanto outros índices podem ser utilizados.


Tradicionalmente, , em vez de a covariância é usado um coeficiente de correlação  pois a utilização de um coeficiente de correlação remove o efeito de escala: assim, uma variável que varia entre 0 e 1 não pesa mais na projecção de uma variável que varia entre 0 e 1000. No entanto, em certas áreas, quando as variáveis ​​são supostamente numa escala idêntica ou queremos que a variância das variáveis ​​para influenciar a construção do fator, é utilizada a covariância.
Onde apenas está disponível uma matriz de similaridade, em vez de uma tabela de observações / variáveis, ou quando quiser usar outro índice de similaridade, pode realizar uma PCA a partir da matriz de similaridade. Os resultados obtidos apenas dizem respeito a variáveis pois não há informações sobre as observações disponível.

Nota: quando PCA é realizada sobre uma matriz de correlação, é chama-se PCA normalizada.

Mais informações podem ser prestadas por Marketing da Vila

Sem comentários:

Enviar um comentário