Katalog przedmiotów
Eksploracja danych
CeleCelem kształcenia jest przekazanie studentom wiedzy z obecnie bardzo intensywnie rozwijanej dziedziny eksploracji danych. Prezentowane techniki i algorytmy mają istotne znaczenie praktyczne – dobrze nadają się do wydobywania wzorców ukrytych w olbrzymich zasobach danych rzeczywistych. Przewiduje się, że prezentowane metody będą miały pierwszorzędne znaczenie dla ewolucji systemów baz danych do postaci efektywnych systemów baz wiedzy. W rezultacie studenci powinni posiąść umiejętność tworzenia efektywnych systemów odkrywania nowej, nietrywialnej, użytecznej wiedzy z dużych zasobów danych.
Zakres
Rozwój, zadania i główne wyzwania w dziedzinie eksploracji danych. Odkrywania wiedzy a eksploracja danych. Pojęcie wzorca częstego i reguły asocjacyjnej. Algorytm Apriori odkrywania wzorców częstych i reguł asocjacyjnych z transakcyjnych baz danych. Wykorzystanie tablicy i/lub drzewa mieszającego do efektywnego wyszukiwania zbiorów kandydujących zawartych w transakcjach. Odkrywanie wzorców częstych i reguł asocjacyjnych z relacyjnych baz danych, z uwzględnieniem pozycji zanegowanych oraz z uwzględnieniem taksonomii. Strategie wyszukiwania wzorców częstych i reguł interesujących poprzez efektywne wykorzystanie narzuconych ograniczeń do redukcji bazy danych i przestrzeni rozwiązań. Lift i wspólczynnik pewności jako parametry charakteryzujące wagę reguły asocjacyjnej. Częste zbiory zamknięte i model generatorowy jako bezstratne reprezentacje wzorców częstych. Wyznaczanie modelu generatorowego za pomocą zmodyfikowanego algorytmu Apriori, przechodzenie z modelu generatorowego do częstych zbiorów zamkniętych za pomocą algorytmu Closures, bezpośrednie odkrywanie częstych zbiorów zamkniętych z bazy danych za pomocą algorytmu Charm. Bezstratne reprezentacje wzorców częstych oparte na zbiorach niedysjunkcyjnych. Wyprowadzanie wzorców częstych i wyznaczanie ich wsparć na podstawie reprezentacji. Techniki bezstratnej redukcji granicy reprezentacji. Mechanizmy wnioskowania regułowego i ich własności: operator pokrycia, „przechodniość” zaufania, aksjomaty Armstronga, wnioskowanie oparte na domknięciach. Zwięzłe reprezentacje reguł asocjacyjnych: reguły reprezentatywne, reguły o minimalnych poprzednikach i maksymalnych następnikach, baza generyczna i baza informacyjna. Wyznaczanie reprezentacji regułowych bezpośrednio z reprezentacji wzorców częstych (generatorów i zbiorów zamkniętych). Wzorce sekwencyjne: definicje i własnosci. Odkrywanie wzorców sekwencyjnych za pomocą algorytmu AprioriAll. Odkrywanie wzorców sekwencyjnych za pomocą algorytmu SPAM. Zasady redukcji przestrzeni poszukiwań. Reprezentacja binarna wzorców sekwencyjnych. Wyznaczanie reprezentacji binarnej sekwencji z reprezentacji binarnej podsekwencji. Uogólnione wzorce sekwencyjne: pojęcie okna, minimalnego odstępu pomiędzy elementami sekwencji, maksymalnego odstępu pomiędzy elementami sekwencji, podsekwencji ciągłej. Odkrywanie uogólnionych wzorców sekwencyjnych za pomocą algorytmu GSP. Segmentacja danych z wykorzystaniem algorytmu DBSCAN. Wykorzystanie UB-drzewa do efektywnego wyznaczania sąsiedztw obiektów. Odkrywanie zależności funkcyjnych z dużych baz danych za pomocą algorytmu TANE: 1) z wykorzystaniem niezredukowanych podziałów, 2) z wykorzystaniem zredukowanych podziałów. Odkrywanie przybliżonych zależności pomiędzy zbiorami atrybutów z dużych baz danych. Tworzenie klasyfikatora w postaci drzewa decyzyjnego na podstawie dużej bazy danych za pomocą algorytmu SPRINT. DeEPS jako metoda klasyfikowania obiektów na podstawie wzorców wyłaniających się. Zbiory przybliżone: definicje przybliżenia dolnego i górnego, reduktu pewnego, możliwego i uogólnionego; wyznaczanie reduktów i reguł z wykorzystaniem 1) macierzy rozróżnialności, 2) metod na bazie algorytmu Apriori.
Literatura podstawowa
1.Han J., Kamber M.: Data Mining. Concepts and Techniques, The MorganKaufmann Series in Data Management Systems, Morgan KaufmannPublishers, 2000.
Literatura uzupełniająca
1. Advances in Knowledge Discovery and Data Mining, eds. U.M.Fayyad, G. Piatetsky Shapiro, P. Smyth, R. Uthurusamy, AAAI, Menlo Park, California, 1996.
2. Kryszkiewicz M.: Concise Representations of Frequent Patterns and Association Rules, Oficyna WydawniczaPolitechniki Warszawskiej, 2002.
3. Pawlak Z.: Rough Sets: Theoretical Aspects of Reasoning about Data. Kluwer Academic Publishers, Vol. 9 (1991)
4. Agrawal R., Srikant R.: Mining Sequential Patterns. In:Proc. of the Eleventh International Conference on DataEngineering (ICDE), Taipei, Taiwan, 1995. IEEE ComputerSociety (1995) 3–14.
5. Berzal F., Blanco I., Sánchez D., Vila M.A.: A New Framework to Assess Association Rules. In: Proc. of The Fourth International Symposium on Intelligent Data Analysis(IDA), Lisbon, Portugal, 2001. Springer (2001) 95–104.
6. Ester M., Kriegel H.P., Sander J., Xu X.: A Density-BasedAlgorithm for Discovering Clusters in Large SpatialDatabases with Noise. KDD 1996: 226-231.
7. Huhtala Y., Kärkkäinen J., Porkka P., Toivonen H.: TANE: An Efficient Algorithm for Discovering Functional and Approximate Dependencies. The Computer Journal 42 (2),1999, pp. 100-111.
8. Kryszkiewicz M., Rough Set Approach to Rules Generation from Incomplete Information Systems, The Encyclopedia of Computer Science and Technology, vol. 44, 2001, pp. 319-346.
9. Li J., Dong G., Ramamohanarao K., Wong L/. DeEPs: A New Instance-based Discovery and Classification System. Machine Learning 54(2): 99-124 (2004)
10. Pasquier N., Bastide Y., Taouil R., Lakhal L.: Closed Set Based Discovery of Small Covers for Association Rules. In:Proc. 15èmes Journées Bases de Données Avancées, (BDA)(1999) 361–381
11. Shafer J.C., Agrawal R., Mehta M.: SPRINT: A Scalable Parallel Classifier for Data Mining. VLDB 1996: 544-555
12. Skowron A., Rauszer C: The Discernibility Matrices and Functions in Information Systems. In: Slowiński R. (ed.): Intelligent Decision Support: Handbook of Applications andAdvances of Rough Sets Theory. Kluwer Academic Publisher(1992) 331–362
13. Srikant R., Agrawal R.: Mining Sequential Patterns: Generalizations and Performance Improvements. EDBT 1996: 3-17
14. Zaki M.J., Hsiao C.J.: CHARM: An Efficient Algorithm for Closed Itemset Mining. In: Proc. of 2nd SIAM InternationalConference on Data Mining, Arlington (2002).
Punkty ECTS
5 - niestacjonarne,
6 - stacjonarne
Rodzaje studiów, na których przedmiot jest realizowany
niestacjonarne - 2-go stopnia (mgr uzup.),
niestacjonarne - jednolite magisterskie,
stacjonarne - 2-go stopnia (mgr uzup.),
stacjonarne - jednolite magisterskie
Specjalności, na których przedmiot jest realizowany
Inteligencja komputerowa
Prowadzący
dr hab. inż. Marzena Kryszkiewicz, mgr inż. Rafał Kowalski


