Factor analysis



Baixar 1.06 Mb.
Página1/10
Encontro05.08.2016
Tamanho1.06 Mb.
  1   2   3   4   5   6   7   8   9   10

MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza

ANÁLISE FATORIAL

Uma Introdução


ÍNDICE

Página



1. INTRODUÇÃO 1

2. MODELO TEÓRICO 2

3. PROCEDIMENTOS GERAIS PARA A ANÁLISE FATORIAL ("FACTOR ANALYSIS") 5

4. MÉTODOS DE ESTIMAÇÃO DAS CARGAS DOS FATORES 6

5. ROTAÇÃO DOS FATORES 15

6. ESTIMAÇÃO DOS VALORES DOS FATORES 20

7. EXEMPLOS DE APLICAÇÃO 23

8. POSSÍVEIS FONTES DE ERROS EM ANÁLISE FATORIAL/ 39

9. NÚMERO E SIGNIFICADO DOS FATORES 40

10. PERSPECTIVAS E ESTRATÉGIAS PARA ANÁLISE FATORIAL 42

11. REFERÊNCIAS BIBLIOGRÁFICAS 43



1. INTRODUÇÃO


A análise fatorial ("Factor Analysis") é a principal e a mais antiga técnica de análise multiva­riada. A idéia fundamental foi proposta por Sperman e por Pearson, no início do século, para entender problemas relacionados à psicologia educacional, na tentativa de definir inteligência (MARRIOTT, 1974).

Seu desenvolvimento e principalmente, a sua utilização, foram limitados durante muitos anos, devido à complexidade dos cálculos envolvidos. Com o advento do processamento de dados computa­dorizado, o uso e interesse pela análise fatorial foi renovado e retomado (MENEZES et al., 1978). A análise fatorial tem sido usada nas mais diversas áreas do conhecimento, como por exemplo, Agronomia (FACHEL, 1978), Biologia (FOWLER, 1993), Floresta (QUEIROZ, 1984), Ciências Sociais (MENEZES et al., 1978), em que o pesquisador se depara com observações de várias variáveis para cada elemento de uma amostra de plantas, animais, ou de outros tipos de unidades experimentais.

MENEZES et al., 1978 comentam que a análise fatorial pode ser usada no agrupa­mento de variáveis ou no agrupamento de unidades de observações. No primeiro caso a matriz de dados iniciais tem as variáveis nas colunas e as unidades de amostra nas linhas. No segundo caso, transpõe-se a matriz anterior, obtendo-se as unidades nas colunas e as variáveis nas linhas.

Se o número de variáveis estudadas é grande, uma estratégia de análise seria a de tentar simplificar ou melhor estruturar o conjunto de dados, a partir das inter-relações entre tais variáveis. Tais inter-relações podem ser medidas pelas covariâncias ou pelos coeficientes de correlação entre as variáveis. Duas técnicas estatísticas de análise multivariada são comumente utilizadas para tratar este problema: Análise de Componentes Principais e Análise Fatorial (JOHNSON & WICHERN, 1988).

A Análise Fatorial é um conjunto de métodos estatísticos que, em certas situações, permite "explicar" o comportamento de um número relativamente grande de variáveis obser­vadas, em termos de um número relativamente pequeno de variáveis latentes ou fatores. Os fatores podem ser não correlacionados (fatores ortogonais) ou correlacionados (fatores oblíquos). As variáveis são agrupadas por meio de suas correlações, ou seja, aquelas perten­centes a um mesmo grupo serão fortemente correlacionadas entre si, mas pouco correlacio­nadas com as variáveis de outro grupo. Cada grupo de variáveis representará um fator (JOHNSON & WICHERN, 1988).

Como uma técnica de análise multivariada, é relevante mostrar como se situa a Análise Fatorial em relação às outras técnicas. Segundo Kendal (1950), citado por FACHEL (1976), as técnicas de análise multivariada podem ser distinguidas em:

a) Análise de dependência: quando queremos estudar a dependência de uma ou mais variáveis em relação às outras. Consideramos, então, dois subconjuntos: um no qual as variáveis são denominadas independentes e outro em que tratamos das variáveis dependentes.

b) Análise de interdependência: quando estamos interessados nas relações de um conjunto de variáveis entre si, sem selecionarmos nenhuma delas em especial, como variável dependente.

No primeiro tipo de análise enquadram-se, por exemplo, Análise de Regressão e Aná­lise de Variância Multivariada, enquanto que é no segundo tipo de classificação, salientando-se apenas o caráter de interdependência das variáveis que se enquadram as técnicas de Análise Fatorial e de Componentes Principais.

2. MODELO TEÓRICO


Considerando um conjunto de p variáveis, com n observações para cada variável, obtém-se o arranjo de valores

[ x], i = 1, 2,..., n , j = 1, 2,..., p


à partir do seguinte conjunto de dados





Variáveis

indivíduos

X

X

...

X

1

x

x

...

x

2

x

x

...

x

...

...

...




...

n

x

x

...

x

O modelo da análise de fatores supõe que cada variável X é linearmente dependente de poucas variáveis aleatórias não observadas (m < p) chamadas fatores comuns, e p fontes adicionais de variação , chamadas erros ou, algumas vezes, fatores específicos (JOHNSON & WICHERN, 1988).

Em particular, o modelo da análise de fatores pode ser escrito como* :

ou seja,


, (eq.2.1)
onde X é a j-ésima variável, são as cargas dos fatores para a j-ésima variável e são m fatores comuns não correlacionados, com m menor que p.
Os p valores observados são expressos em termos de p + m variáveis aleatórias não observáveis (). Isso distingue o modelo fatorial do modelo de regressão múltipla, no qual as variáveis independentes podem ser observadas, e cujas posições são ocupadas por F no modelo fatorial.

Matricialmente teríamos



(eq.2.2)
Uma verificação direta do modelo fatorial, à partir das observações X1, X2,..., Xp, é impossibilitada por tantas quantidades não observáveis. Entretanto, com algumas pressupo­sições impostas aos vetores aleatórios, F e e, o modelo fatorial implica em certas relações de covariância, que podem ser verificadas (JOHNSON & WICHERN, 1988). Assim os vetores F e e devem satisfazer as seguintes condições:

E(F) = ,Cov(F) = E(FF`) =

E(e) = , Cov(e) = E[ee`] = onde y é uma matriz diagonal
e que F e e são independentes. Assim,

Cov(e,F) = E(eF`) = (eq.2.3)


Essas pressuposições e a relação em (eq.2.2) constituem o chamado modelo de fatores ortogonal.

Se admitirmos os fatores F serem correlacionados, de modo que Cov(F) é não diagonal, teremos o chamado modelo de fatores obliquo. Este modelo não será discutido neste trabalho.

Das pressuposições acima, obtemos a estrutura da matriz de covariâncias de X, que será representada por S.

Temos que XX`= (LF + e) (LF + e)`

= (LF + e) [(LF)` + e`]

= LF(LF)` + e(LF)` + LFe` + ee`


de modo que, de acordo com (eq.2.3) teríamos:

S = Cov(X) = E(XX`)

= LE(FF`)L` + E(eF`)L` + LE(Fe`) + E(ee`)

=LIL` + 0 + 0 + Y

=LL` + Y (eq.2.4)
De uma maneira mais fácil de entender e usando apenas propriedades da variância, poderíamos, à partir da relação (eq.2.1), chegar ao mesmo resultado:

temos:



aplicando as propriedades da variância, e com base nas pressuposições em (eq.2.3), teremos:



onde , ou seja LL`, é chamada de comunalidade da variável Xj (a parte da sua variância que está relacionada com os fatores comuns) enquanto que V(e) é chamada especificidade de X (a parte da sua variância que não está relacionada com os fatores comuns).

Temos, portanto, a estrutura de covariância:


Pode também ser estabelecido que a correlação entre Xj e Xj' é

Conseqüentemente, duas variáveis somente serão altamente correlacionadas se elas tiverem altas cargas no mesmo fator.

O modelo fatorial pressupõe efeitos aditivos; fatores, variáveis e resíduos normalmente distribuídos, resíduos independentes e relações lineares entre as variáveis (JOHNSON & WICHERN, 1988)

Pelo teorema do limite central, generalizando da estatística univariada para a multivariada, temos: se X1 , X2 , ..., Xp variáveis têm variâncias e correlações ri j, com i e j = 1, 2, ..., p, então as médias , de uma amostra de tamanho n, possui uma distribuição que, com o aumento de n, se aproxima de uma distribuição normal multivariada, com variâncias e correlações estabilizadas e constantes para os valores de X. Esse teorema assegura que muitas das técnicas e testes estatísticos baseados na distribuição normal multivariada são consistentes e não conduzem a resultados duvidosos, mesmo quando os dados originais não são derivados de uma distribuição normal multivariada (MARRIOT, 1974).

Na estatística multivariada, assume-se que as matrizes de dispersão são homogêneas, ou seja, que as variâncias e covariâncias são independentes das médias e são as mesmas entre os grupos. Se essa homogeneidade não ocorre, é necessário transformar os dados para estabilizar as variâncias, seguindo os mesmos procedimentos adotados na estatística univariada. Problema mais raro e irremediável consiste na dependência entre as correlações e as médias (MARRIOT, 1974).

O modelo fatorial assume que as p+p(p-1)/2=p(p+1)/2 variâncias e covariâncias para X podem ser reproduzidas a partir de pm cargas fatoriais (aij) e p variâncias específicas (yi). Quando m = p, qualquer matriz de covariância (S) pode ser reproduzida exatamente como , e y pode ser nula. Contudo, a análise fatorial será mais eficiente e útil quando m for pequeno em relação a p, proporcionando uma explicação mais simples da covariação das variáveis em X, com base num número de parâmetros menor do que os p(p+1)/2 parâmetros de S (JOHNSON & WICHERN, 1988).

Em resumo o modelo fatorial implica na imposição de condições que permitem obter estimativas únicas de L e y. Posteriormente, a matriz de cargas fatoriais (L) é submetida à rotação (multiplicação por uma matriz ortogonal), a qual é determinada por critérios de facilidade de interpretação. Obtidas as cargas e as variâncias específicas, os fatores são identificados e comumente calcula-se os valores dos escores fatoriais.

De alguma forma, pode-se dizer que a matriz de correlações ou de covariâncias das variáveis constitui o genótipo responsável pela variação das unidades de observação, enquanto a matriz de escores das unidades nos fatores constitui o fenótipo, isso é, o posicionamento das mesmas no genótipo. O genótipo pode ser constituído por um (genótipo parcial) ou mais fatores (genótipo complexo ou geral) (MENEZES et al., 1978).





Compartilhe com seus amigos:
  1   2   3   4   5   6   7   8   9   10


©principo.org 2019
enviar mensagem

    Página principal