Sieć liniowa, taka jak MLP, może „ukryć" ten błędny wybór zmiennej wejściowej w taki sposób, że w trakcie uczenia może nadać wszystkim wagom wychodzącym od błędnego wejścia wartość zero. Taki wynik uczenia spowoduje, że błędna czy zbędna informacja będzie w trakcie pracy sieci ignorowana i nie StatSoft Wprowadzenie - 68 Copyright © StatSoft, 2001 Copyright © for the Polish edition StatSoft Polska, 2001 SIECI NEURONOWE dowiemy się, że była ona niepotrzebna. W praktyce takie „izolowanie" niektórych zmiennych wejściowych zachodzi dosyć często (w sposób całkowicie niezauważalny dla użytkownika), ponieważ jest bardzo łatwe do realizacji. Po prostu pewne wagi, o niewielkich wartościach początkowych (jak wszystkie wagi po procesie losowej inicjalizacji sieci), pozostają po procesie uczenia nadal małe, zaś inne wartości wag (wychodzących od wejść niosących istotną informację) będą się w trakcie uczenia systematycznie odchylać od niewielkich wartości początkowych w kierunku określonych wartości końcowych - dodatnich albo ujemnych. Tak bywa w sieciach typu MLP. W odróżnieniu od tego sieci radialne, takie jak PNN lub GRNN, nie dostarczają takiego luksusu. Generowane w neuronach radialnych skupienia, które miałyby określony kształt w przestrzeni zmiennych istotnych, posiadającej niższy wymiar, zostają istotnie zaburzone i zniekształcone przez pojawiające się w danych wejściowych nieistotne składowe, nadające przestrzeni, w której budowane są skupienia, niepotrzebnie i niekorzystnie większy wymiar. Pokrycie przestrzeni o większej wymiarowości wymaga wtedy większej liczby neuronów, aby uwzględnić (nieistotną, ale pojawiającą się w danych) zmienność generowaną przez „nadmiarowe" wymiary. Ujawnia się to natychmiast w postaci złych wyników uzyskiwanych przez sieć. Jeśli usuniemy nadmiarowe zmienne - jakość działania sieci radykalnie się poprawia. Możliwość dokonania optymalizacji przestrzeni wejść poznajemy więc na tej podstawie, że „próbna" sieć, która gorzej się zachowuje w przypadku korzystania z całej zbiorowości sygnałów wejściowych (w tym także z tych niepoprawnie dobranych, ale trudnych do wykrycia zmiennych wejściowych), radykalnie polepsza swoje działanie przy próbie eliminacji pewnych wejść (które na tej podstawie mogą być zidentyfikowane jako błędnie dobrane czy wręcz niepotrzebne). Ponieważ takie eksperymenty są bardzo czasochłonne (trzeba wielokrotnie ponawiać próby uczenia i oceny sieci, eliminując po kolei różne zmienne i ich kombinacje), ST Neural Networks posiada również mechanizmy umożliwiające ich przeprowadzenie w sposób automatyczny, bez angażowania uwagi i wysiłku użytkownika. Mechanizm ten wykorzystuje do wyboru właściwej kombinacji wejść tak zwany algorytm genetyczny (Goldberg, 1989) oraz metody krokowe (postępująca i wsteczna). Algorytmy genetyczne są techniką globalnej optymalizacji, bardzo dobrze się sprawdzającą przy takich problemach jak tu opisywane, gdyż posiadają zdolność przeszukania dużej liczby kombinacji (w tym przypadku - zestawów zmiennych wejściowych) w celu znalezienia najlepszego rozwiązania. Stosowanie algorytmów genetycznych jest szczególnie korzystne w sytuacji, gdy mogą istnieć współzależności pomiędzy optymalizowanymi zmiennymi i przy ich eliminacji trzeba brać pod uwagę wpływ ich wzajemnych interakcji. Innym podejściem do rozwiązania problemu redukcji wymiaru przestrzeni sygnałów wejściowych, które stanowić może alternatywę lub uzupełnienie w stosunku do opisanych wyżej metod wyboru zmiennych, jest redukcja wymiaru przestrzeni wejść metodą zastosowania odpowiedniej transformacji. W trakcie transformacji pierwotny zbiór zmiennych jest przetwarzany w celu utworzenia nowego, mniejszego zbioru zmiennych, który zawiera maksymalnie dużo informacji zawartej w zbiorze pierwotnym. Jako przykład danych dobrze nadających się do takiej transformacji rozważyć można taki zbiór danych, w którym wszystkie punkty leżą na pewnej płaszczyźnie, umieszczonej skośnie w przestrzeni trójwymiarowej. W takim przypadku oryginalne kodowanie danych wymaga, żeby każda z nich miała trzy składowe (ponieważ każdy punkt trzeba jednoznacznie umieścić w przestrzeni trójwymiarowej), podczas gdy faktyczny wymiar przestrzeni danych wynosi dwa (gdyż wszystkie informacje w rzeczywistości ulokowane są na płaszczyźnie, czyli w dwuwymiarowej podprzestrzeni oryginalnej Wprowadzenie - 69 Copyright © StatSoft, 2001 Copyright © for the Polish edition StatSoft Polska, 2001 StatSoft SIECI NEURONOWE przestrzeni trójwymiarowej). Jeśli płaszczyzna ta zostanie określona, to sieć neuronowa może posiadać mniejszy wymiar danych wejściowych, dzięki czemu posiada większą szansę na poprawna pracę. Najpopularniejszym sposobem redukcji wymiaru przestrzeni sygnałów wejściowych jest analiza głównych składowych (Bishop, 1995; porównaj również opis STATISTICA w rozdziale Analiza czynnikowa). Jak wiadomo, analiza głównych składowych jest to transformacja liniowa, która wyznacza kierunki maksymalnej zmienności pierwotnych danych wejściowych i dokonuje rotacji układu współrzędnych w taki sposób, żeby maksymalna zmienność danych zachodziła po transformacji wzdłuż tych nowych, obróconych osi. Zwykle dokonuje się przy tym takiego uporządkowania numeracji wykrytych nowych osi (składowych głównych), żeby początkowe (mające najniższe numery) główne składowe zawierały najwięcej informacji. Można wtedy oprzeć działanie sieci jedynie na kilku początkowych składowych głównych, co radykalnie zmniejsza wysiłek związany z operowaniem wejściowym zbiorem sygnałów. Ponieważ analiza głównych składowych (którą dalej nazywać będziemy w skrócie PCA; od angielskiej nazwy Principal Components Analysis) jest matematycznie opisywana transformacją liniową, więc może być wykonywana przez liniową sieć neuronową. ST Neural Networks posiada możliwość uczenia sieci liniowej w taki sposób, aby uzyskana sieć realizowała PCA. Opcja ta jest chętnie stosowana, ponieważ często PCA jest w stanie wyodrębnić z danych wejściowych bardzo małą liczbę składowych głównych o tak dużej zawartości informacyjnej, że podanie ich na wejście sieci modelującej badaną zależność z powodzeniem może zastąpić podawanie wszystkich oryginalnych danych wejściowych. W ten sposób z pomocą PCA dokonuje się „rzutowanie" wszystkich, charakteryzujących się wysokim wymiarem przestrzeni danych pierwotnych do przestrzeni o wygodnie małym rozmiarze, przy czym odbywa się to w sposób gwarantujący zachowanie w „skompresowanej" przestrzeni wszystkich ważnych informacji na temat badanych struktur danych.
|