Konferencja Naukowa Studentów » 2004 » Informatyka - zastosowania
Strony: « 1 | 2 |

Zastosowanie wirtualnego super komputera do znajdowania reguł związku cd.

Sobota, 14 marca

2. OPIS ARCHITEKTURY

2.1. Opis ogólny

Na rysunku 1. przedstawiona została ogólna architektura systemu.

Całe środowisko zarządzające działa w ramach serwera aplikacyjnego JBoss i intensywnie wykorzystuje infrastrukturę J2EE. Menedżer zadań jest odpowiedzialny za przydzielanie porcji danych klientom, kontrolowanie stabilności działania systemu oraz przesyłanie przetworzonych przez klientów danych do kolejki JMS (Java Messaging Service) w celu asynchronicznego przetwarzania w ramach modułu integrującego. Pełną kontrolę nad działaniem menedżera daje aplikacja WWW zintegrowana z systemem za pośrednictwem mechanizmu JMX (Java Management Extension).

Zadaniem modułu integracyjnego jest przechowywanie stworzonych przez poszczególnych klientów reguł w bazie danych oraz dokonywanie procesu złączenia reguł na żądanie użytkownika. Możliwość wymuszenia procesu integracji oraz obejrzenia stworzonych reguł daje aplikacja WWW.

Klienci kontaktują się ze środowiskiem za pośrednictwem web-service’u. Za jego pośrednictwem pobierają dane do przetwarzania, a następnie zwracają stworzone reguły. Aplikacja kliencka napisana przez nas wykonana jest w technologii Java – teoretycznie jednak klient może być napisany w dowolnej technologii, jeśli tylko wspiera ona wymianę danych przez web-service.


Rys. 1. Architektura wirtualnego superkomputera

2.2. Menedżer zadań

W przypadku przetwarzania rozproszonego kluczowym problemem jest zachowanie spójności procesu. Awaria jednego z komputerów uczestniczących w przetwarzaniu mogłaby zaburzyć stabilność całego systemu, a tym samym wpłynąć na wiarygodność danych wynikowych.

Menedżer zadań jest odpowiedzialny za zapewnienie stabilności systemu w tym zakresie. W tym celu zapamiętuje każdą wysłaną klientowi do przetwarzania porcję danych, przypisując jej unikalny identyfikator. Ten sam identyfikator – zwany synchronizatorem – podawany jest również klientowi. Dodatkowo ustala się, że każdy klient ma określony czas na realizację przetwarzania. Jeśli ten czas zostanie przekroczony a dane wynikowe nie wpłyną, menedżer utworzy nowy synchronizator dla porcji danych i przekaże ją do przetwarzania innemu klientowi. Dane wynikowe dla danej porcji akceptowane są tylko wtedy, kiedy synchronizator przesłany przez klienta i synchronizator przypisany do tej porcji są identyczne. Takie rozwiązanie zapewnia stabilność systemu.

Dodatkowo wykorzystywana jest technologia JMS, dzięki czemu menedżer nie przetwarza otrzymanych reguł, a jedynie kolejkuje je do asynchronicznego przetwarzania przez moduł integrujący. Takie rozwiązanie zwiększa dostępność menedżera oraz wpływa na bardziej równomierne obciążenie systemu.

2.3. Moduł integrujący

Moduł integrujący pobiera z kolejki JMS porcje reguł i odpowiednio zapisuje je w bazie danych. Na żądanie użytkownika dokonuje też złączenia danych.

Złączenie danych opiera się na następujących, zaproponowanych przez nas zależnościach matematycznych:



gdzie:
supp – całkowite poparcie reguły
suppi – poparcie reguły w i-tym fragmencie bazy danych
Xi – liczba rekordów w i-tym fragmencie bazy danych
conf – całkowita pewność reguły
suppL – poparcie poprzednika (lewej strony) reguły

Jednym z podstawowych celów stworzonego przez nas systemu jest wykazać poprawność tych zależności i pokazać, przy jakich parametrach wyniki przetwarzania rozproszonego są najbardziej zbliżone do wyników uzyskanych przy przetwarzaniu jednostanowiskowym.

2.4. Sesje

Aby umożliwić wielokrotne wykorzystanie tych samych danych do generowania reguł dla różnych parametrów, stworzona została koncepcja sesji. W ramach sesji użytkownik systemu określa m.in. minimalne wartości poparcia i pewności dla tworzonych reguł, minimalną i maksymalną liczbę elementów po lewej stronie reguły, wielkość porcji danych i maksymalny dozwolony czas przetwarzania danych przez klienta. Do sesji przypisywane są następnie kolejne porcje reguł wygenerowanych przez klientów przy ustalonych parametrach. Takie rozwiązanie umożliwia użytkownikowi systemu porównywanie jakości uzyskanych wyników w zależności od parametrów.

Autorzy: Michał Kubisz, Piotr Martyniak, Bartosz Podsiadły

LITERATURA

[1] AGRAWAL R., IMIELINSKI T., SWAMI A., Mining association rules between sets of items in large databases,
[in:]Proceedings of ACM SIGMOD Conference on Management of DATA (SIGMOD ’93), May 1993, pp. 207-216.
Czytaj dalej

Artykuły z tej samej kategorii
1. Implementing a multiple-database xquery system
2. Informatyka, komputery i kryptografia kwantowa
3. The College of Engineering and Technology’s Design4Practice Program at Northern Arizona University
4. System ekspertowy wspomagania decyzji wirtualnego zawodnika ligi symulacyjnej RoboCup

powrót »

Kategorie


projekt i wykonanie: smetek.biz