ANÁlise discriminante aplicada a engenharia florestal índice



Baixar 264.81 Kb.
Página2/6
Encontro19.07.2016
Tamanho264.81 Kb.
1   2   3   4   5   6

3. CRITÉRIOS PARA A SELEÇÃO DE VARIÁVEIS DISCRIMINANTES


Em algumas situações, inicialmente, o número de variáveis pode ser muito grande. Nesse caso, é obviamente desejável selecionar um número relativamente menor de variáveis, que contenha tanta informação quanto a coleção original (JOHNSON e WICHERN, 1988).

Geralmente, podem ser usadas três modalidades para seleção de variáveis: forward entry; stepwise selection; backward elimination. O método stepwise é o mais usado, pois combina as feições do forward selection e do backward elimination. No método stepwise, a primeira variável incluída na análise possui o maior valor aceitável para o critério de seleção. Após a inclusão da primeira variável, o valor do critério é redefinido para todas as variáveis não incluídas no modelo, e a variável com o maior valor aceitável de critério é reavaliada para determinar se ela satisfaz o critério de remoção. Assim, em cada passo é examinada a possibilidade de inclusão de novas variáveis no modelo, bem como da remoção daquelas já incluídas. A seleção de variáveis termina quando nenhuma das variáveis satisfaz os critérios de inclusão ou remoção (SPSS, 1990).

Entretanto, segundo JOHNSON e WICHERN (1988), os resultados de qualquer método de seleção de variáveis deve ser interpretado com cautela, pois não há garantia de que o subconjunto de variáveis selecionado é o melhor, independente do critério de seleção utilizado. O problema de seleção de variáveis é ampliado quando existem grandes correlações entre as variáveis ou entre combinações lineares das variáveis.

Segundo Murray (1977), citado por JOHNSON e WICHERN (1988), a melhor maneira de selecionar variáveis pode ser dividir a amostra em subamostras menores e determinar o melhor conjunto de variáveis para cada uma delas. Em função do número de vezes que as variáveis forem incluídas nos modelos, elas seriam então incluídas no modelo final.

Dentre os critérios para seleção de variáveis, pode-se destacar (SPSS, 1990): Wilks’ lambda; Rao’s V; Mahalanobis; teste de F e variação entre grupos inexplicada.

3.1. Wilks’ lambda


A estatística Wilks’ lambda () expressa a relação enter a variância intragrupos e a variância total, e pode ser calculada de duas maneiras (FERREIRA e LIMA, 1978):

a) Em função dos autovalores da matriz W-1B




b) Como uma razão entre discriminantes


A significância da estatística Wilks’ lambda para que uma variável seja incluída ou removida do modelo discriminante pode ser baseada no teste de F. O valor de F, em função de Wilks’ lambda, para o modelo com p variáveis já incluídas, é (SPSS, 1990):


onde

n = número total de observações;

g = número de grupos; e

p e p+1 = Wilks’ lambda antes e após a inclusão de nova variável ao modelo.


Quanto maior o poder discriminatório da variável, menor será o seu índice, sendo os valores oscilantes entre 0 < 1. Um valor de lambda igual a 1 ocorre quando todas as médias dos grupos são iguais. Valores próximos de zero indicam que a variabilidade intragrupos é pequena comparada com a variabilidade total, ou seja, quando a maioria da variabilidade total é atribuída a diferenças entre as médias dos grupos. Assim, num processo de seleção de variáveis, a cada passo a variável que apresenta o menor valor de Wilks’ lambda seria a escolhida (SPSS, 1990).

3.2. Rao’s V


Também conhecida como Lawley-Hotelling, é definida como:

onde


p = número de variáveis no modelo;

g = número de grupos;

nk = tamanho da amostra no k-ésimo grupo;

ik = média da i-ésima variável para o k-ésimio grupo;

i = média da i-ésima variável para todos os grupos combinados; e

j = média da j-ésima variável para todos os grupos combinados; e

Wij* = elemento da matriz inversa de variância-covariância intragrupos.


Quanto maior a diferença entre as médias dos grupos, maior o valor de Rao’s V. Portanto, uma maneira de avaliar a contribuição de uma dada variável é verificar o quanto ela incrementa Rao’s V, quando incluída ao modelo. Um teste de significância para a alteração em Rao’s V pode ser baseado na distribuição de qui-quadrado (X2), pois a distribuição de V segue a distribuição de X2, com p(g-1) graus de liberdade.

3.3. Distância de Mahalanobis (D2)


A distância de Mahalanobis é uma medida generalizada na distância entre dois grupos. Assim, a distância entre dois grupos a e b é definida como:

onde


p = número de variáveis no modelo;

ia = média para a i-ésima variável no grupo a;

Wij* = elemento da matriz inversa de variância-covariância intragrupos.


Quando a distância de Mahalanobis é usada como critério para seleção de variáveis, ela é calculada primeiro, sendo a variável que apresentar o maior D2 para os dois grupos mais próximos (menor D2 inicialmente) a selecionada para inclusão no modelo.
1   2   3   4   5   6


©principo.org 2016
enviar mensagem

    Página principal