Aby wyja�ni� powy�sze stwierdzenie, rozpatrzmy efekt, jaki wywo�a dodanie do sieci dodatkowej, wybranej w spos�b niepoprawny, zmiennej wej�ciowej...

Dzieci to nie książeczki do kolorowania. Nie da się wypełnić ich naszymi ulubionymi kolorami.

Sie� liniowa, taka jak MLP, mo�e �ukry�" ten b��dny wyb�r zmiennej wej�ciowej w taki spos�b, �e w trakcie uczenia mo�e nada� wszystkim wagom wychodz�cym od b��dnego wej�cia warto�� zero. Taki wynik uczenia spowoduje, �e b��dna czy zb�dna informacja b�dzie w trakcie pracy sieci ignorowana i nie
StatSoft
Wprowadzenie - 68
Copyright � StatSoft, 2001 Copyright � for the Polish edition StatSoft Polska, 2001
SIECI NEURONOWE
dowiemy si�, �e by�a ona niepotrzebna. W praktyce takie �izolowanie" niekt�rych zmiennych wej�ciowych zachodzi dosy� cz�sto (w spos�b ca�kowicie niezauwa�alny dla u�ytkownika), poniewa� jest bardzo �atwe do realizacji. Po prostu pewne wagi, o niewielkich warto�ciach pocz�tkowych (jak wszystkie wagi po procesie losowej inicjalizacji sieci), pozostaj� po procesie uczenia nadal ma�e, za� inne warto�ci wag (wychodz�cych od wej�� nios�cych istotn� informacj�) b�d� si� w trakcie uczenia systematycznie odchyla� od niewielkich warto�ci pocz�tkowych w kierunku okre�lonych warto�ci ko�cowych - dodatnich albo ujemnych.
Tak bywa w sieciach typu MLP. W odr�nieniu od tego sieci radialne, takie jak PNN lub GRNN, nie dostarczaj� takiego luksusu. Generowane w neuronach radialnych skupienia, kt�re mia�yby okre�lony kszta�t w przestrzeni zmiennych istotnych, posiadaj�cej ni�szy wymiar, zostaj� istotnie zaburzone i zniekszta�cone przez pojawiaj�ce si� w danych wej�ciowych nieistotne sk�adowe, nadaj�ce przestrzeni, w kt�rej budowane s� skupienia, niepotrzebnie i niekorzystnie wi�kszy wymiar. Pokrycie przestrzeni o wi�kszej wymiarowo�ci wymaga wtedy wi�kszej liczby neuron�w, aby uwzgl�dni� (nieistotn�, ale pojawiaj�c� si� w danych) zmienno�� generowan� przez �nadmiarowe" wymiary. Ujawnia si� to natychmiast w postaci z�ych wynik�w uzyskiwanych przez sie�. Je�li usuniemy nadmiarowe zmienne - jako�� dzia�ania sieci radykalnie si� poprawia. Mo�liwo�� dokonania optymalizacji przestrzeni wej�� poznajemy wi�c na tej podstawie, �e �pr�bna" sie�, kt�ra gorzej si� zachowuje w przypadku korzystania z ca�ej zbiorowo�ci sygna��w wej�ciowych (w tym tak�e z tych niepoprawnie dobranych, ale trudnych do wykrycia zmiennych wej�ciowych), radykalnie polepsza swoje dzia�anie przy pr�bie eliminacji pewnych wej�� (kt�re na tej podstawie mog� by� zidentyfikowane jako b��dnie dobrane czy wr�cz niepotrzebne).
Poniewa� takie eksperymenty s� bardzo czasoch�onne (trzeba wielokrotnie ponawia� pr�by
uczenia i oceny sieci, eliminuj�c po kolei r�ne zmienne i ich kombinacje), ST Neural Networks posiada r�wnie� mechanizmy umo�liwiaj�ce ich przeprowadzenie w spos�b automatyczny, bez anga�owania uwagi i wysi�ku u�ytkownika. Mechanizm ten wykorzystuje do wyboru w�a�ciwej kombinacji wej�� tak zwany algorytm genetyczny (Goldberg, 1989) oraz metody krokowe (post�puj�ca i wsteczna).
Algorytmy genetyczne s� technik� globalnej optymalizacji, bardzo dobrze si� sprawdzaj�c� przy takich problemach jak tu opisywane, gdy� posiadaj� zdolno�� przeszukania du�ej liczby kombinacji (w tym przypadku - zestaw�w zmiennych wej�ciowych) w celu znalezienia najlepszego rozwi�zania. Stosowanie algorytm�w genetycznych jest szczeg�lnie korzystne w sytuacji, gdy mog� istnie� wsp�zale�no�ci pomi�dzy optymalizowanymi zmiennymi i przy ich eliminacji trzeba bra� pod uwag� wp�yw ich wzajemnych interakcji.
Innym podej�ciem do rozwi�zania problemu redukcji wymiaru przestrzeni sygna��w wej�ciowych, kt�re stanowi� mo�e alternatyw� lub uzupe�nienie w stosunku do opisanych wy�ej metod wyboru zmiennych, jest redukcja wymiaru przestrzeni wej�� metod� zastosowania odpowiedniej transformacji. W trakcie transformacji pierwotny zbi�r zmiennych jest przetwarzany w celu utworzenia nowego, mniejszego zbioru zmiennych, kt�ry zawiera maksymalnie du�o informacji zawartej w zbiorze pierwotnym. Jako przyk�ad danych dobrze nadaj�cych si� do takiej transformacji rozwa�y� mo�na taki zbi�r danych, w kt�rym wszystkie punkty le�� na pewnej p�aszczy�nie, umieszczonej sko�nie w przestrzeni tr�jwymiarowej. W takim przypadku oryginalne kodowanie danych wymaga, �eby ka�da z nich mia�a trzy sk�adowe (poniewa� ka�dy punkt trzeba jednoznacznie umie�ci� w przestrzeni tr�jwymiarowej), podczas gdy faktyczny wymiar przestrzeni danych wynosi dwa (gdy� wszystkie informacje w rzeczywisto�ci ulokowane s� na p�aszczy�nie, czyli w dwuwymiarowej podprzestrzeni oryginalnej
Wprowadzenie - 69
Copyright � StatSoft, 2001
Copyright � for the Polish edition StatSoft Polska, 2001
StatSoft
SIECI NEURONOWE
przestrzeni tr�jwymiarowej). Je�li p�aszczyzna ta zostanie okre�lona, to sie� neuronowa mo�e posiada� mniejszy wymiar danych wej�ciowych, dzi�ki czemu posiada wi�ksz� szans� na poprawna prac�.
Najpopularniejszym sposobem redukcji wymiaru przestrzeni sygna��w wej�ciowych jest analiza g��wnych sk�adowych (Bishop, 1995; por�wnaj r�wnie� opis STATISTICA w rozdziale Analiza czynnikowa). Jak wiadomo, analiza g��wnych sk�adowych jest to transformacja liniowa, kt�ra wyznacza kierunki maksymalnej zmienno�ci pierwotnych danych wej�ciowych i dokonuje rotacji uk�adu wsp�rz�dnych w taki spos�b, �eby maksymalna zmienno�� danych zachodzi�a po transformacji wzd�u� tych nowych, obr�conych osi. Zwykle dokonuje si� przy tym takiego uporz�dkowania numeracji wykrytych nowych osi (sk�adowych g��wnych), �eby pocz�tkowe (maj�ce najni�sze numery) g��wne sk�adowe zawiera�y najwi�cej informacji. Mo�na wtedy oprze� dzia�anie sieci jedynie na kilku pocz�tkowych sk�adowych g��wnych, co radykalnie zmniejsza wysi�ek zwi�zany z operowaniem wej�ciowym zbiorem sygna��w.
Poniewa� analiza g��wnych sk�adowych (kt�r� dalej nazywa� b�dziemy w skr�cie PCA; od angielskiej nazwy Principal Components Analysis) jest matematycznie opisywana transformacj� liniow�, wi�c mo�e by� wykonywana przez liniow� sie� neuronow�. ST Neural Networks posiada mo�liwo�� uczenia sieci liniowej w taki spos�b, aby uzyskana sie� realizowa�a PCA. Opcja ta jest ch�tnie stosowana, poniewa� cz�sto PCA jest w stanie wyodr�bni� z danych wej�ciowych bardzo ma�� liczb� sk�adowych g��wnych o tak du�ej zawarto�ci informacyjnej, �e podanie ich na wej�cie sieci modeluj�cej badan� zale�no�� z powodzeniem mo�e zast�pi� podawanie wszystkich oryginalnych danych wej�ciowych. W ten spos�b z pomoc� PCA dokonuje si� �rzutowanie" wszystkich, charakteryzuj�cych si� wysokim wymiarem przestrzeni danych pierwotnych do przestrzeni o wygodnie ma�ym rozmiarze, przy czym odbywa si� to w spos�b
gwarantuj�cy zachowanie w �skompresowanej" przestrzeni wszystkich wa�nych informacji na temat badanych struktur danych.