Ia 353 Redes Neurais Paulo Cézar Monteiro Lamim Filho ra 007152



Baixar 88.93 Kb.
Encontro07.08.2016
Tamanho88.93 Kb.





UNIVERSIDADE ESTADUAL DE CAMPINAS

FACULDADE DE ENGENHARIA ELÉTRICA



Depto. de Engenharia de Computação e Automação Industrial

Prof. Dr. Fernando José Von Zuben



IA 353 - Redes Neurais



Paulo Cézar Monteiro Lamim Filho RA - 007152


lamim@fem.unicamp.br

Newton R. Pampa Q.

newton@dsif.fee.unicamp.br

Setembro 2001



INDICE
METODOLOGIAS DE INICIALIZAÇAO DOS PESOS PARA REDES NEURAIS ARTIFICIAS MULTICAMADAS (MLP)
1 - Introdução 3

2 - Conceitos Básicos 4

2.1 - Pesos 4

2.2 - Funcional 6

2.2.1 - Funcional Convexo 6

2.2.2 - Funcional Convexo Diferenciável 6

2.2.3 - Mínimos Locais 7

2.3 - Inicialização 8

3 - Paradigmas Alternativos para a Inicialização de Pesos 10

3.1 - Paradigma do Caminho mais Fácil 11

3.2 - Paradigma do Caminho mais Curto 13

3.3 - Paradigma Híbrido 14

4 - Comentários 14

5 - Referências sobre Otimização Multimodal 14

6 - Influência das Condições Iniciais 15

7 - Algoritmos Genéticos 15

8 - Conclusões 16

9 - Referências Bibliográfica 17


Anexos 21

1 - INTRODUÇÃO
A qualidade e eficiência do aprendizado supervisionado em redes multicamadas depende fortemente da especificação de arquitetura da rede (topologia), função de ativação dos neurônios, regra de aprendizagem e valores iniciais do vetor de parâmetros (pesos) (DE CASTRO, L.N. & VON ZUBEN, 1998) [2].

Valores ótimos destes itens são desconhecidos a priori, pois dependem principalmente do conjunto de treinamento e da natureza da solução (THIMM & FIESLER, 1997) [21].

Assumimos aqui que a arquitetura da rede, as funções de ativação dos neurônios e a regra de aprendizado já foram determinadas adequadamente, embora não necessariamente de maneira ótima. Sob essas considerações, um processo de treinamento bem sucedido passa a depender somente de uma boa definição do conjunto inicial de pesos, ou seja, um conjunto que guie o processo de treinamento para uma solução satisfatória, fora de mínimos locais pobres e problemas de instabilidade numérica (Notas de aula do Prof. VON ZUBEN, 2001) [15].

Procurar o mínimo global de uma função não linear com muitos parâmetros é um problema difícil, sendo assim, a aprendizagem das redes neurais é mais freqüentemente baseadas na minimização da função de custo. (JANCOWSKI et al., 1997) [23].

O ajuste dos pesos da rede neural, a partir de um conjunto de dados entrada-saída (conjunto amostral), é denominado treinamento supervisionado, e pode ser visto como um problema de otimização, cuja função de custo é função do conjunto de pesos, também conhecido como parâmetros da rede neural (FAHLMAN, 1998) [31].

Logo, o conjunto inicial de pesos a ser utilizado no treinamento supervisionado de redes multicamadas possui grande influência na velocidade do aprendizado e na qualidade da solução obtida após a convergência (Notas de aula do Prof. VON ZUBEN, 2001) [15].

Uma escolha inicial inadequada para os valores dos pesos pode fazer com que o treinamento não conduza a modelos de aproximação satisfatórios (mesmo que o processo de otimização seja bem-sucedido) ou apresente problemas numéricos que de outro modo poderiam ser evitados (Notas de aula do Prof. VON ZUBEN, 2001) [15].
A importância de uma boa escolha do conjunto de pesos iniciais é enfatizada por KOLEN & POLLAK (1990) [16]. Eles mostraram que uma busca global pelo conjunto ótimo de pesos não é factível. Assim, por motivações práticas, a regra de aprendizagem deve ser baseada em técnicas de otimização que empregam busca local.

Por outro lado, a busca local implica que a solução a ser obtida está fortemente relacionada à condição inicial, pois cada condição inicial pertence à base de atração de um mínimo local particular, que atrairá a solução (HERTZ et al., 1991) [13].

Conseqüentemente, apenas mínimos locais podem ser produzidos, na prática, como resultados de um processo de treinamento supervisionado bem-sucedido. Se este mínimo for o mínimo global, ou um bom mínimo local da superfície de erro, então a rede neural estará em, ou próxima de, seu limite de desempenho. Caso contrário, quanto pior for o mínimo local, pior o desempenho da rede treinada (DE CASTRO, L.N. & VON ZUBEN, 1998) [2].

Neste trabalho, serão citadas algumas das principais referências bibliográficas sobre métodos de inicialização de pesos para redes neurais artificiais multicamadas que se baseiam em uma distribuição uniforme aleatória no intuito de facilitar a busca de uma técnica de inicialização satisfatória.



2 - CONCEITOS BÁSICOS
2.1 - PESOS [8]
Quanto aos pesos, atributo importantíssimo do neurônio, podemos compará-los com os dentritos realizando as suas sinapses em outros neurônios. Graças a essa comparação os pesos são chamados de pesos sinápticos. Os pesos representados por w (weight - peso), são valores que representam o grau de importância que determinada entrada possui em relação aquele determinado neurônio. Ou seja, esse valor (o peso) muda em função da intensidade do sinal de entrada, e dessa forma, o peso muda o seu valor representativo para a rede. Significa que, quando uma entrada é bastante estimulada, acaba

estimulando, também, o peso correspondente à sua conexão. Um peso quando é bastante estimulado, automaticamente terá, cada vez mais, mais influência no sinal de saída.

Os pesos podem ser vistos, matematicamente, como um vetor de valores (w1, w2, ...., wn). Havendo mais de um neurônio na rede, podemos então ter uma coleção de vetores , ou seja, uma matriz de pesos, onde cada vetor, corresponde a um neurônio. Quando as entradas (x1, x2, ..., xn) são apresentadas para o neurônio, elas são multiplicadas pelos pesos, e a soma desses resultados é, então, o sinal de excitação do neurônio. As entradas multiplicadas pelos pesos, recebem, depois desta operação, o nome de entradas ponderadas (unidade SIGMA - ).


Figura 1 - Um neurônio com entradas e pesos definidos (http://www.dca.fee.unicamp.br/~vonzuben/courses/ia353.html)
A função do neurônio é depois de acumulado o valor somado do produto ocorrido entre as entradas e os pesos, comparar este valor com um limiar (um valor estipulado), e, atingindo-o, o valor é então passado adiante através da saída. A esse processo chamamos de função de transferência. Caso contrário se o valor não atinge o limiar, o sinal não é transmitido adiante. Em ambos os casos, com sinal ou sem sinal, a resposta é significativa, pois afetará diretamente, ou a resposta final da rede, ou os neurônios da próxima camada. A lógica neural expõe, que a intensidade dos sinais de entrada, dispara, ou não, o sinal do neurônio, fazendo com que este estimule o neurônio seguinte.
2.2 – FUNCIONAL [15]

Uma transformação T: X   é chamada de funcional sobre X.



2.2.3 - FUNCIONAL CONVEXO

Um funcional f: X   é convexo sobre um subconjunto convexo X de um espaço vetorial linear se e somente se



(1)

para todo x1, x2  X e   [0,1].



Extensão 1: O funcional f é estritamente convexo se a desigualdade acima for estrita, com   (0,1).

Extensão 2: Um funcional f é (estritamente) côncavo se -f é (estritamente) convexo, de modo que min max. f  min(-f).

Interpretação Geométrica




Figura 2 – Interpretação Geométrica de

(http://www.dca.fee.unicamp.br/~vonzuben/courses/ia353.html)


2.2.3 - FUNCIONAL CONVEXO DIFERENCIÁVEL


Um funcional diferenciável f: X é convexo sobre um subconjunto convexo X de um espaço vetorial linear se e somente se
(2)
para todo x, y X.
Interpretação Geométrica


Figura 3 - Interpretação Geométrica de um Funcional Convexo Diferenciável.

(http://www.dca.fee.unicamp.br/~vonzuben/courses/ia353.html)


2.2.4 - Mínimos Locais

Seja f um funcional definido sobre X. Um ponto x0 é chamado MÍNIMO LOCAL de f sobre se existe uma esfera

 x0,  x : || x - x0 ||  

tal que f(x0) f(x), x  x0, 


x0 é um MÍNIMO GLOBAL se f(x0) f(x), x .

Interpretação Geométrica



Figura 4 - Interpretação Geométrica de Mínimos Locais

(http://www.dca.fee.unicamp.br/~vonzuben/courses/ia353.html)


2.3 – INICIALIZAÇÃO [5]
Uma boa escolha para os valores iniciais dos pesos sinápticos e limiares da rede pode ser de tremenda ajuda para um projeto de rede ser bem-sucedido. A pergunta chave é: o que é uma boa escolha?

Quando são atribuídos valores iniciais grandes aos pesos sinápticos, é muito provável que os neurônios da rede sejam levados à saturação. Se isso acontecer, os gradientes locais no algoritmo de retropropagação assumem valores pequenos, o que por sua vez ocasionará uma diminuição da velocidade do processo de aprendizagem. Entretanto, se forem atribuídos valores iniciais pequenos aos pesos sinápticos, o algoritmo de retropropagação pode operar em uma área muito plana em torno da origem da superfície de erro; isto é particularmente verdade no caso de funções de ativação antissimétricas, como a função tangente hiperbólica. Infelizmente a origem é um ponto sela, que corresponde a um ponto estacionário onde a curvatura da superfície de erro através da sela é negativa e a curvatura ao longo da sela é positiva. Por estas razões, o uso tanto de valores grandes como de valores pequenos para a inicialização dos pesos sinápticos deve ser evitado. A escolha adequada para a inicialização se encontra em algum lugar entre estes dois casos estremos.

Para sermos específicos, considere um perceptron de múltiplas camadas que usa a função tangente hiperbólica para suas funções de ativação. Considere o bias aplicado a cada neurônio da rede fixo em zero. Podemos então expressar o campo local induzido do neurônio j como

(3)

Assuma que as entradas aplicadas a cada neurônio da rede tenham média zero e variância unitária, como mostrado por



para todo i (4)

e

para todo i (5)

Assuma ainda que as entradas são não-correlacionadas, como mostrado por

(6)

e que os pesos sinápticos são retirados de um conjunto uniformemente distribuído de números com média zero



para todos os pares (j, i) (7)

e variância



para todos os pares (j, i) (8)

Correspondentemente podemos expressar a média e a variância do campo local induzido como



(9)

e

(10)


onde m é o número de conexões sinápticas de um neurônio.

Com base neste resultado, podemos agora descrever uma boa estratégia para inicializar os pesos sinápticos de modo que o desvio padrão do campo local induzido de um neurônio caia na área de transição entre as partes linear e saturada da sua função de ativação sigmóide. Para o caso de uma função tangente hiperbólica este objetivo é satisfeito fazendo v = 1 na equação (10); neste caso obtemos

w = m-1/2 (11)

Assim, é desejável que a distribuição uniforme, da qual os pesos sinápticos são selecionados, tenha uma média zero e uma variância igual ao recíproco do número de conexões sinápticas de um neurônio.


3 - PARADIGMAS ALTERNATIVOS PARA A INICIALIZAÇÃO DE PESOS
Diversas estratégias de inicialização dos pesos já foram sugeridas. Os métodos mais simples para inicialização de pesos baseiam-se em uma distribuição uniforme aleatória [16], representando a ausência total de conhecimento sobre o conjunto amostral.

Considerando abordagens melhor elaboradas, existem basicamente três paradigmas alternativos para a busca do melhor conjunto inicial de pesos via treinamento supervisionado, ou seja, melhor condição inicial para o processo de otimização resultante:


G. Thimm and E. Fiesler [21] propõe diferentes métodos de inicialização dos pesos para perceptrons multicamadas:

Métodos aleatórios e não aleatórios

Aleatórios:


  • É o método mais simples de inicialização dos pesos [16].

Não aleatórios:

  • Por protótipos [29],[19]

  • Agrupamento (clusterization) [29]

  • Por agrupamento e protótipos [29]

Aleatórios e não aleatórios [28]:

Método que envolve estatística extensiva e análises geométricas



  • Método pseudo-inversa para perceptrons [13]

Métodos baseados em propriedades especiais da rede, não aplicáveis a MPL

  • Técnica de inicialização de pesos para redes de função de base radial por J. C. Platt. [31]



Obs.:Alguns autores propuseram métodos de inicialização dos pesos baseados em processos não aleatórios utilizando técnicas de agrupamento (clusterization) que são mais apropriadas para determinar os pesos iniciais [23] e inicialização de MLP´s por protótipos[29,19].
A seguir é apresentado uma classificação das metodologias de inicialização dos pesos para redes multicamadas (MPLs) segundo o trabalho do prof. Dr Von Zuben [2].
3.1 - PARADIGMA DO CAMINHO MAIS FÁCIL
Não é tão comum na literatura. A idéia básica é fornecer uma condição inicial não necessariamente próxima da solução ótima, mas que seja tal que o processo de treinamento possa evoluir mais rapidamente, em média, e mais eficientemente, a partir da condição inicial. A estratégia mais simples é definir automaticamente um intervalo de inicialização para os pesos e utilizar uma distribuição uniforme neste intervalo.

Falhman [31] realizou estudos sobre técnicas de inicialização aleatória para redes multicamadas. Ele propôs o uso de uma distribuição uniforme no intervalo [-1.0,1.0], mas resultados experimentais mostraram que o melhor intervalo de inicialização para os problemas por ele abordados variaram entre [-0.5, 0.5] e [-4,4].

Alguns pesquisadores tentaram determinar o melhor intervalo de inicialização utilizando outros parâmetros da rede. Seja din o fan-in do neurônio.

Boers and Kuiper [9] inicializaram os pesos utilizando uma distribuição uniforme no intervalo , sem apresentar nenhuma justificativa matemática.

D. Nguyen and B. Widrow [20] propuseram uma simples modificação no processo de inicialização aleatória. Os pesos conectados as unidades de saídas às unidades intermediárias são inicializados com valores aleatórios pequenos no intervalo [-0.5, 0.5]. Utilizando um fator de escala  = 0.7(q)1/p, onde q é o número de unidades intermediárias e

p o número de entradas, os pesos são aleatoriamente inicializados e em seguida escalonados por , onde v é o vetor de pesos da primeira camada.

Y. K. Kim and J. B. Ra [3] calcularam o limite inferior para o comprimento inicial do vetor de pesos de uma unidade como sendo , onde  é a taxa de aprendizagem.

Bottou [17] usa um intervalo , onde a é escolhido de tal maneira que a variação dos pesos corresponde ao ponto máximo de curvatura da função de ativação (que é aproximadamente 2,38 para um padrão sigmoidal), sem justificativa teórica para este intervalo. Bottou treina a rede neural somente com seus próprios dados e não compara este método com outro.

Smieja [10] usa uma distribuição uniforme dos pesos que são normalizados com magnitude em cada nó. O limiar das unidades escondidas são inicializadas com um valor aleatório no intervalo e o limiar dos nós da saída são ajustados em zero. Estes valores foram obtidos após um estudo sobre a dinâmica da rotação do hiperplano, e não validou seu método com os experimentos realizados.

Wessels e Barnard [24] descrevem dois métodos de inicialização de pesos. O primeiro método ajusta a faixa inicial de pesos assumindo que a saída da rede e a saída dos padrões tenham a mesma variação. O segundo método põe limites da decisão igualmente distribuídos no espaço de entrada (sem considerar padrões de entrada ou saída), que produz pesos iniciais para a primeira matriz da camada intermediária . Os pesos da segunda matriz da camada intermediária são ajustados em 1,0. Desenvolveram uma fórmula simples para estimar um melhor esquema da inicialização dos pesos para redes neurais multicamadas e mostraram para três séries de dados que este esquema usa escalas iniciais satisfatórias de peso. Os pesos devem estar uniformemente distribuídos no intervalo [-a, a],

onde para a camada de entrada e para a camada de saída (assumindo que todos os valores de entrada x tenham o mesmo valor esperado E).

Espinosa & Redondo [12] apresentaram o resultado da comparação experimental entre sete diferentes métodos de inicialização de pesos em 12 diferentes problemas.

Y. Lee, S. H. Oh, e M. W. Kim [25] mostraram teoricamente que a probabilidade de neurônios saturados prematuramente em MLP incremente com o valor dos pesos, concluem que um pequeno intervalo de inicialização dos pesos acrescenta a aprendizagem de perceptrons multicamadas, porém também, diminuem quando o intervalo de inicialização dos pesos é pequena.

P. Haffner, ª Waibel, H. Sawai, and K. Shikano [26], usam uma inicialização dos pesos com distribuição normal, infelizmente eles não comparam suas aproximações com outras, não tendo mais detalhes o sustento matemático.

R. L. Watrous e G. M. Kuhn [27] compara uma distribuição Gaussiana para distribuição uniforme e procura diferenças no condicionamento da matriz Jacobiano de uma rede neural, não tem influência na velocidade de convergência.
3.2 - PARADIGMA DO CAMINHO MAIS CURTO
É a abordagem geralmente empregada na literatura. A idéia básica é fornecer uma condição inicial o mais próxima possível da solução ótima, ainda desconhecida. A idéia intuitiva por trás desta abordagem é que quanto mais próxima da solução ótima estiver a condição inicial, menor a probabilidade de existência de mínimos locais no caminho até esta solução, e mais eficiente se tornaria o processo de treinamento. Duas estratégias podem ser consideradas: extração de conhecimento do conjunto de treinamento com o objetivo de descobrir peculiaridades da superfície de otimização (baseado em aspectos teóricos), ou exploração da superfície de otimização para aumentar as chances de se encontrar uma região promissora na busca pelo ótimo (baseada em aspectos heurísticos).

Lehtokangas et al. [18] propões um método baseado nos quadrados mínimos ortogonais (OLS). O algoritmo OLS tem sido aplicado com sucesso no treinamento de redes neurais que utilizam funções de base radial (RBF).


3.3 - PARADIGMA HÍBRIDO
De Castro, L.N. & Von Zuben [2] propõe um paradigma simples e eficiente que pode ser interpretado como um método intermediário entre os paradigmas do caminho mais fácil e do caminho mais curto. Este paradigma híbrido explora a informação contida nos dados de treinamento, ao mesmo tempo em que tenta considerar os aspectos de processamento de sinal da rede.
4 - COMENTÁRIOS
O paradigma do caminho mais fácil geralmente ignora o conjunto de treinamento na tentativa de definir um bom intervalo de valores para os pesos. Como conseqüência, o caminho entre a condição inicial e a solução ótima, embora fácil de ser percorrido, pode ser muito longo.

Por outro lado, o paradigma do caminho mais curto considera todo o conjunto de treinamento, mas geralmente ignora as conseqüências da combinação dados de entrada-saída + pesos no processamento de sinais da rede neural. Como conseqüência, o caminho entre a condição inicial e a solução ótima, embora curto, pode ser muito difícil de ser percorrido.

Os resultados mostram que o paradigma híbrido proposto para inicialização de pesos é superior em média aos outros paradigmas puros quando testados em problemas artificiais e reais.

5 - REFERENCIAS SOBRE OTIMIZAÇAO MULTIMODAL


Fukuda et o al. (1999) [11], propuseram um algoritmo imune que modelasse matematicamente a diversidade imune, a teoria da rede e a seleção clonal como um problema multi-modal de otimização da função.

O algoritmo de seleção clonal, leva em conta a afinidade de maturação da resposta imune, a fim de resolver problemas complexos, aprender e otimizar a função multi-modal.
Seu algoritmo constitui numa execução dos processos biológicos e não oferecem nenhuma sofisticação matemática para realçar seu desempenho em tarefas particulares.

De Castro & Von Zuben (2000a) [4].


6 - INFLUÊNCIA DAS CONDIÇÕES INICIAIS

Qualidade da solução

Generalização de desempenho

Tempo de treinamento

Mínimo local e global

Cálculo numérico

Propriedades da rede

7 - ALGORITMOS GENÉTICOS

A aplicação dos algoritmos genéticos (GA) como uma ferramenta para analisar o espaço dos pesos, a fim de conseguir boas condições iniciais para a aprendizagem supervisionada. A amostragem quase-global de GA's elogia técnicas locais da busca do conexionismo, e permite-nos encontrar algumas características muito importantes no jogo inicial dos pesos para redes multicamadas. (Castro, Iyoda , Von Zuben, Gudwin 1998) [1].

Os GA`s são um tipo de algoritmos evolutivos. Estes algoritmos usam uma analogia direta com o comportamento natural biológico e podem ser considerados como métodos adaptáveis, sendo usados para resolver a busca e a otimização dos problemas. Estão baseados em processos genéticos de organismos vivos.

Os algoritmos genéticos usam uma analogia direta com o comportamento natural. Trabalham com uma população de indivíduos, cada um deles representa uma solução praticável a um problema dado. Na natureza isto seria equivalente ao grau de eficácia de um organismo competir por determinados recursos. Um indivíduo que se adapta mais facilmente ao problema, maior será a sua probabilidade de ser selecionado para reproduzir, cruzando seu material genético com o de um outro indivíduo selecionado similarmente. Este cruzamento produzirá novos descendentes que compartilham de algumas das


características de seus pais. Quanto menor é a adaptação de um individual, menor será a probabilidade de o individuo ser selecionado para a reprodução, e conseqüentemente de seu material genético propagar-se em sucessivas gerações.

Assim durante todas as gerações as características boas propagam através da população. Se o algoritmo genético foi bem projetado, a população convergirá para uma solução ótima do problema.

A força dos algoritmos genéticos vem do fato de ser uma técnica robusta, e que pode tratar com sucesso de uma grande variedade de problemas em diferentes áreas, incluindo aquelas em que outros métodos encontram dificuldades.

Embora não se garanta que o algoritmo genético encontra a solução ótima do problema, existe a evidência empírica de que são soluções de um nível aceitável, em um tempo competitivo comparado com os algoritmos de otimização combinatória. O campo de aplicação dos algoritmos genéticos estão relacionados com aqueles problemas que não existem técnicas especializadas. Mesmo no caso em que estas técnicas existem, e trabalham bem, a melhoria das mesmas podem ocorrer combinando-as com os algoritmos genéticos [1].


8 - CONCLUSÃO
Vários métodos de inicialização de parâmetros adaptativos em redes MLP foram apresentados neste trabalho. O método de inicialização aleatória dos pesos estão sendo mais utilizados devido a sua facilidade de aplicação e praticidade. Porém, não são muito efetivos e eficientes para uma rápida convergência. A inicialização baseada em agrupamento inicial devem oferecer melhores resultados para problemas complexos.

9 - REFERÊNCIAS BIBLIOGRÁFICAS
[1] DE CASTRO, L.N. & VON ZUBEN, F.J. “An Immunological Approach to nitialize Feedforward Neural Network Weights “. Aceitado para publicar no ICANNGA’01. 2001.
[2] DE CASTRO, L.N. & VON ZUBEN, F.J. “Uma Alternativa Simples e Robusta para Inicialização de Pesos em Redes Neurais Multicamadas”, Anais do V Simpósio Brasileiro de Redes Neurais, vol. 2, pp. 97-102, Universidade Federal de Minas Gerais, 09 a 11 de dezembro de 1998.
[3] KIM, Y.K. & RA, J.B. “Weight Value Initialization for Improving Training Speed in the Backpropagation Network”, in Proc. Of the IEEE Int. Joint Conference on Neural Networks, vol. 3, pp. 2396-2401, 1991.
[4] DE CASTRO, L. N. & VON ZUBEN, F. J. (2000a), “The Clonal Selection Algorithm with Engineering Applications”, submitted to GECCO’00.
[5] HAYKIN, SIMON, “Redes Neurais: princípios e prática”; trad. Paulo Martins Engel. – 2.ed. Porto Alegre: Bokman, 2001.
[6] KOZA, J.R., "Genetic Programming. On the Programming of Computers by Means of Natural Selection", The MIT Press, 1992, 819 p. heir Applications, Springer-Verlag, pp. 210-220.
[7] L. F. A. WESSELS and E. BARNARD, “Avoiding false local minima by proper initialization of connections,” IEEE Trans. Neural Networks, vol. 3, pp. 899–905, Nov. 1992.

[8] MALCON A. TAFNER, MARCOS DE XEREZ E ILSON W. RODRIGUES FILHO, “Redes Neurais Artificiais: Introdução e Princípios de Neurocomputação”:EKO: Ed. da FURB, c1995. 199p.: il.


[9] E. J. W. BOERS AND H. KUIPER, “Biological metaphors and the design of modular artificial neural networks,” Master’s thesis, Leiden Univ., The Netherlands, Aug. 1992.
[10] F. J. ´SMIEJA, “Hyperplane ‘spin’ dynamics, network plasticity and backpropagation learning,” GMD, St. Augustin, Germany, GMD Rep., Nov. 28, 1991.
[11] FUKUDA, T., MORI, K. & TSUKIAMA, M. (1999), “Parallel Search for Multi-Modal Function Optimization with Diversity and Learning of Immune Algorithm”, In (Ed.) D. Dasgupta, Artificial Immune Systems and Their Applications, Springer-Verlag, pp. 210-220.
[12] HERNANDEZ – ESPINOSA, C.; FERNANDEZ – REDONDO, M., “Multilayer feedforward weight initialization,” Neural Networks, 2001. Proceedings. IJCNN ´01. International Joint Conference on, Volume: 1, 2001, page (s) 166 -170 vol. 1.
[13] HERTZ, J., KROGH, A. & PALMER, R.G. “Introduction to the Theory of Neural Computation”, Addison-Wesley Publishing Company, 1991.
[14] http://www.cs.us.es/~delia/sia/html98-99/pag-alumnos/web11/indice.html
[15] http://www.dca.fee.unicamp.br/~vonzuben/courses/ia353.html
[16] KOLEN, J.F. & POLLACK, J.B. “Back Propagation is Sensitive to Initial Conditions”, Technical Report TR 90-JK-BPSIC, 1990.
[17] L. -Y. BOTTOU, “Reconnaissance de la parole par reseaux multi-couches,” in Proc. Int. Wkshp. Neural Networks Applicat., Neuro-Nˆýmes’88, EC2 and Chambre de Commerce et d’Industrie de Nˆýmes, 1988, pp. 197–217.
[18] LEHTOKANGAS, M., SAARINEN, J., KASKI, K. & HUUHTANEN, P. “Initializing Weights of a Multilayer Perceptron by Using the Orthigonal Least Squares Algorithm”, Neural Computation, vol. 7, pp. 982-999, 1995.
[19] N. WEYMAERE, J. P. MARTENS, “On the initialization and optimization of multilayer perceptrons”, Trans. Neural Net. 5 (1994) 738-751.
[20] NGUYEN, D. & WIDROW, B. “Improving the Learning Speed of two-layer Neural Networks by Choosing Initial Values of the Adaptive Weights”, in Proc. Int. Joint Conf. Neural Networks (IJCNN), Ann Arbor, MI, vol. 3, pp. 21-26, 1990.
[21] THIMM, G. & FIESLER, E. “High-Order and Multilayer Perceptron Initialization”, IEEE Transactions on Neural Networks, vol. 8, no. 2, pp. 349-359, 1997.
[22] THIMM, G. & FIESLER, E. “Optimal Setting of weight, learning rate, and gain”, IDIAP Research report 97-04, abril 1997.
[23] W. DUCH, R. ADAMCZAK AND N. JANKOWSKI, “Initialization and optimization of multilayer perceptrons”, Grudziadzka 5, 87-100 Torun, Poland.
[24] L. F. A. Wessels and E. Barnard, “Avoiding false local minima by proper initialization of connections,” IEEE Trans. Neural Networks, vol. 3, pp. 899–905, Nov. 1992.
[25] Y. LEE, S. -H. OH, AND M. W. KIM, “An analysis of premature saturation in backpropagation learning,” Neural Networks, vol. 6, pp. 719–728, 1993.
[26] P. HAFFNER, A. WAIBEL, H. SAWAI, AND K. SHIKANO, “Fast backpropagation learning methods for neural networks in speech,” ATR Interpreting Telephony Res. Lab., Tech. Rep. TR-1-0058, 1988.
[27] R. L. WATROUS AND G. M. KUHN, “Some considerations on the training of recurrent neural networks for time-varying signals,” in Proc. 2nd Wkshp. Neural Networks Speech Processing, M. Gori, Ed. Trieste, Italy: Edizioni LINT, 1993, pp. 5–17.
[28] C. L. CHEN AND R. S. NUTTER, “Improving the training speed of three-layer feedforward neural nets by optimal estimation of the initial weights,” in Proc. Int. Joint Conf. Neural Networks, vol. 3, 1991, pp. 2063–2068.
[29] T. DENOEUX AND R. LENGELL´, “Initializing backpropagation networks with prototypes,” Neural Networks, vol. 6, pp. 351–363, 1993.
[30] J. C. PLATT, “Learning by combining memorization and gradient descent,” in Advances in Neural Information Processing Systems, R. P. Lippman et al., Eds. San Mateo, CA: Morgan Kaufmann, vol. III, 1991, pp. 714–720.
[31] S. E. FAHLMAN, “An empirical study of learning speed in backpropagation networks,” School Comput. Sci., Carnegie Mellon Univ., Pittsburgh, PA, Tech. Rep. CMU-CS-88-162, Sept. 1988.
Palavras-chave: Multilayer Perceptron, Weights, Weight Initialization, artificial neural networks, Multilayer Perceptron Initialization, comparison of weight initialization methods, initial weight distribution, initialization, initial weight, neural network initialization, random weight, genetic algorithms.
Sites de busca: http://www.google.com/ e http://altavista.com/

Sites de venda de livros: http://www.amazon.com

ResearchIndex (CiteSeer): http://citeseer.nj.nec.com/
ANEXO - PAPERS ABSTRACT
Evolution and generalization of a single neurone: I. Single-layer perceptron as seven statistical classifiers
Sarunas Raudys
Institute of Mathematics and Informatics, Akademijos 4, Vilnius 2600, Lithuania

Received 3 January 1997; accepted 5 July 1997


Abstract

Unlike many other investigations on this topic, the present one considers the non-linear single-layer perceptron (SLP) as a process in which the weights of the perceptron are increasing, and the cost function of the sum of squares is changing gradually. During the backpropagation training, the decision boundary of of SLP becomes identical or close to that of seven statistical classifiers: (1) the Euclidean distance classifier, (2) the regularized linear discriminant analysis, (3) the standard Fisher linear discriminant function, (4) the Fisher linear dis-criminant function with a pseudoinverse covariance matrix, (5) the generalized Fisher discriminant function, (6) the minimum empirical error classifier, and (7) the maximum margin classifier. In order to obtain a wider range of classifiers, five new complexity-control techniques are proposed: target value control, moving of the learning data centre into the origin of coordinates, zero weight initialization, use of an additional negative weight decay term called ‘‘anti-regularization’’, and use of an exponentially increasing learning step. Which particular type of classifier will be obtained depends on the data, the cost function to be minimized, the optimization technique and its parameters, and

the stopping criteria.
Keywords: Single-layer perceptron; Statistical classification; Generalization error; Initialization; Overtraining; Dimensionality; Complexity; Sample size; Scissors effect

Neural Networks 11 (1998) 283–296


Evolution and generalization of a single neurone II. Complexity of statistical classifiers and sample size considerations
Sarunas Raudys
Institute of Mathematics and Informatics, Akademijos 4, Vilnius 2600, Lithuania Received 3 January 1997; accepted 5 July 1997
Abstract

Unlike many other investigations on this topic, the present one does not consider the nonlinear SLP as a single special type of the classification rule. In SLP training we can obtain seven statistical classifiers of differing complexity: (1) the Euclidean distance classifier; (2) the standard Fisher linear discriminant function (DF); (3) the Fisher linear DF with pseudo-inversion of the covariance matrix; (4) regularized linear discriminant analysis; (5) the generalized Fisher DF; (6) the minimum empirical error classifier; and (7) the maximum margin classifier. A survey of earlier and new results, referring to relationships between the complexity of six classifiers, generalization error, and the number of learning examples, is presented. These relationships depend on the complexities of both the classifier and the data. This knowledge indicates how to control the SLP classifier complexity purposefully by determining optimal values of the targets, learning-step and its change in the training process, the number of iterations, and addition or subtraction of a regularization term. A correct initialization of weights, and a simplifying data structure can help to reduce the generalization error.


Keywords: Single-layer perceptron; Statistical classification; Generalization error; Initialization; Overtraining; Dimensionality; Complexity; Sample size; Scissors effect

Neural Networks 11 (1998) 297–313



A modified back-propagation method to avoid false local minima
Yutaka Fukuoka a, Hideo Matsuki b , Haruyuki Minamitani b , Akimasa Ishida a
a Institute for Medical and Dental Engineering, Tokyo Medical and Dental University, Chiyoda-ku, Tokyo 101-0062, Japan

b Faculty of Science and Technology, Keio University, Yokohama, Kanagawa, Japan Received 31 August 1994; revised 5 June 1998; accepted 5 June 1998


Abstract

The back-propagation method encounters two problems in practice, i.e., slow learning progress and convergence to a false local minimum. The present study addresses the latter problem and proposes a modified back-propagation method. The basic idea of the method is to keep the sigmoid derivative relatively large while some of the error signals are large. For this purpose, each connecting weight in a network is multiplied by a factor in the range of (0,1], at a constant interval during a learning process. Results of numerical experiments substantiate the validity of the method.


Keywords: Back-propagation; False local minima; Premature saturation; Sigmoid derivative; Weight readjusting; Annealing.

Neural Networks 11 (1998) 1059–1072




Case-based reasoning supported by genetic algorithms for corporate bond rating

Kyung-shik Shin, Ingoo Han


Graduate School of Management, Korea Advanced Institute of Science and Technology, 207-43 Cheongryangri-Dong, Dongdaemoon-Gu, Seoul 130-012, South Korea
Abstract

A critical issue in case-based reasoning (CBR) is to retrieve not just a similar past case but a usefully similar case to the problem. For this reason, the integration of domain knowledge into the case indexing and retrieving process is highly recommended in building a CBR system. However, this task is difficult to carry out as such knowledge often cannot be successfully and exhaustively captured and represented. This article utilizes a hybrid approach using genetic algorithms (GAs) to case-based retrieval process in an attempt to increase the overall classification accuracy. We propose a machine learning approach using GAs to find an optimal or near optimal weight vector for the attributes of cases in case indexing and retrieving. We apply this weight vector to the matching and ranking procedure of CBR. This GA– CBR integration reaps the benefits of both systems. The CBR technique provides analogical reasoning structures for experience-rich domains while GAs provide CBR with knowledge through machine learning. The proposed approach is demonstrated by applications to corporate bond rating. q1999 Elsevier Science Ltd. All rights reserved.


Keywords: Hybrid system; Case-based reasoning; Genetic algorithms; Corporate bond rating.

Expert Systems with Applications 16 (1999) 85–95




Improving backpropagation learning under limited precision

H.A. Babri , Y.Q. Chen, T. Yin


School of Electrical and Electronic Engineering, Block S1, Nanyang Technological University, Nanyang Avenue, Singapore 639798, Singapore Received 10 April 1997; received in revised form 7 July 1998

Abstract


Most of the work to date on learning in neural networks assumes the availability of unlimited precision for implementing weights and the neural transfer functions. Recently some studies have investigated the e•ects of limited precision on the learning and generalisation performance. In this paper, we identify the causes of performance degradation due to limited precision and propose a novel algorithm to improve the performance of Backpropagation. Ó 1998 Elsevier Science B.V. All rights reserved.
Keywords: Limited precision; Modifed BP; Minima

Pattern Recognition Letters 19 (1998) 1007±1016




Interactive initialization of the multilayer perceptron

Aistis Raudys


Institute of Mathematics and Informatics, Akademijos 4, Vilnius 2600, Lithuania

Received 18 May 1999; received in revised form 10 May 2000


Abstract


A new multilayer preceptor initialization method is proposed and compared experimentally with a traditional random initialization method. An operator maps training-set vectors into a
two-variate space, inspects bi-variate training-set vectors and controls the complexity of the decision boundary. Simulations with sixteen real-world pattern classi®cation tasks have shown that in small-scale pattern classi®cation problems, often complex classi®cation rules and non-linear decision boundaries are not necessary. However, in cases where non-linear decision boundaries are required, the proposed weight initialization method is useful.
Keywords: Multilayer perceptron (MLP); Training; Initialization; Data transformation; Feature mapping; Principal components.

Pattern Recognition Letters 21 (2000) 907±916



Modeling and prediction for discharge lifetime of battery systems using hybrid evolutionary algorithms
Hongqing Cao a, Jingxian Yu b , Lishan Kang a , Hanxi Yang b , Xinping Ai b
a State Key Laboratory of Software Engineering, Wuhan Uni6ersity, Wuhan, 430072, People ’s Republic of China

b Institute of Electrochemistry, Department of Chemistry, Wuhan Uni6ersity, Wuhan, 430072, People ’s Republic of China

Received 15 March 2000; received in revised form 26 June 2000; accepted 14 September 2000
Abstract

A hybrid evolutionary modeling algorithm (HEMA) is proposed to build the discharge lifetime models with multiple impact factors for battery systems as well as make predictions. The main idea of the HEMA is to embed a genetic algorithm (GA) into genetic programming (GP), where GP is employed to optimize the structure of a model, while a GA is employed to optimize its parameters. The experimental results on lithium–ion batteries show that the HEMA works effectively, automatically and quickly in modeling the discharge lifetime of battery systems. The algorithm has some advantages compared with most existing modeling methods and can be applied widely to solving the automatic modeling problems in many fields.


Keywords : Discharge lifetime of battery systems; Lithium-ion battery; Hybrid evolutionary modeling; Genetic programming; Genetic algorithm.

Computers and Chemistry 25 (2001) 251–259


Obs.: Todos esses artigos podem ser encontrados em http://e5500.fapesp.br/cgi-bin/search.pl?template_search_form.simple=




©principo.org 2016
enviar mensagem

    Página principal