Τίτλος Μαθήματος Αποθήκες Δεδομένων και Εξόρυξη Γνώσης από Δεδομένα
Κωδικός Μαθήματος 321-9253
Εξάμηνο 8
ECTS 5
Ώρες (Θεωρία) 3
Ώρες (Εργαστηρίο) 2
Διδάσκοντας Πόθα Νεκταρία

Ύλη μαθήματος

1. Εισαγωγή στις Τεχνικές Εξόρυξης Δεδομένων: (α) δεδομένα, (β) προβλήματα, (γ) εφαρμογές, (δ) γενικές τεχνικές ανάλυσης και επεξεργασίας δεδομένων.
2. Προ-επεξεργασία δεδομένων: (α) καθαρισμός δεδομένων, (β) μετασχηματισμός, (γ) τεχνικές μείωσης διαστάσεων.
3. Συσταδοποίηση Ι: (α) εισαγωγή στη συσταδοποίηση, (β) αποστάσεις, (γ) k-means, (δ) ιεραρχική συσταδοποίηση.
4. Συσταδοποίηση ΙI: (α) DBSCAN, (β) εκτίμηση ποιότητας, (γ) BIRCH.
5. Κανόνες Συσχέτισης Ι: (α) ορισμός προβλήματος, (β) ο αλγόριθμος a-priori για συχνά στοιχειοσύνολα, (γ) δημιουργία κανόνων συσχέτισης, (δ) αντιπροσωπευτικά στοιχειοσύνολα.
6. Κανόνες Συσχέτισης IΙ: (α) ανακεφαλαίωση, (β) άλλοι τρόποι υπολογισμού συχνών στοιχειοσυνόλων, (γ) o αλγόριθμος FP-Growth, (δ) αποτίμηση κανόνων συσχέτισης.
7. Ταξινόμηση Ι: (α) εισαγωγή, (β) δέντρα απόφασης (εντροπία, Gini, λάθος ταξινόμησης).
8. Ταξινόμηση IΙ: (α) ανακεφαλαίωση, (β) overfitting, (γ) τιμές που λείπουν, (δ) αποτίμηση μοντέλου, (ε) άλλα είδη ταξινομητών (ταξινομητές με κανόνες, k-κοντινότεροι γείτονες).
9. Τεχνικές για ανεύρεση συσχετισμών σε πολυδιάστατα δεδομένα και σε σχεσιακά δεδομένα. Αποθήκες Δεδομένων και ΟLAP τεχνικές: (α) ορισμοί-διαφορές ROLAP, MOLAP, HOLAP (πότε χρησιμοποιείται το καθένα), (β) ορισμός κυβοειδούς, (γ) υλοποίηση κυβοειδών.

Επιδιωκόμενα μαθησιακά αποτελέσματα

Με την επιτυχή ολοκλήρωση του μαθήματος, ο φοιτητής/τρια θα:

  • Έχει την γνώση της Κριτικής αντιμετώπισης των προβλημάτων και ερευνητικών διαστάσεων της Εξόρυξης Δεδομένων. Θα κατέχει την περιεκτική κατανόηση των τρεχουσών εννοιών που διέπουν το χώρο της Εξόρυξης Δεδομένων και του πώς αυτές μπορούν να συνεισφέρουν στον αποτελεσματικό σχεδιασμό και την υλοποίηση εφαρμογών Εξόρυξης Δεδομένων.
  • Επίσης, θα κατέχει την ικανότητα άριστης χρήσης λογισμικών Εξόρυξης Γνώσης όπως το RapidMiner, το Weka και το Business Intelligence του MS SQL server.
  • Επιπλέον, θα έχει την ικανότητα να γνωρίζει το πώς μπορεί να εφαρμοστεί μια μεγάλη γκάμα αλγορίθμων ταξινόμησης, συσταδοποίησης, κανόνων συσχέτισης όπως τα δέντρα απόφασης, η παλινδρόμηση, ο Κ-πλησιέστερος γείτονας, ο K-Means, κ.τ.λ.
  • Θα κατέχει γνώση και ικανότητα εφαρμογής των πλέον πρόσφατων τεχνικών Εξόρυξης Δεδομένων σε περιοχές όπως η εξόρυξη γνώσης από κείμενα, από εικόνες, από βιολογικά και άλλα δεδομένα, κ.τ.λ. Επιπλέον θα κατέχει ουσιαστική κατανόηση των μαθηματικών/στατιστικών θεμελιώσεων των παραπάνω αλγορίθμων Εξόρυξης Δεδομένων.

Προαπαιτούμενα

Δεν απαιτούνται.

Εγχειρίδια του μαθήματος

1. Data Mining-Introductory and Advanced Topics, Margaret H. Dunham, Pearson Education, ISBN: 9780130888921,2002.
2. Data Mining, A Knowledge Discovery Approach, Krzysztof J. Cios et al., Springer Verlag, ISBN: 9780387333335, 2007.

Συμπληρωματική βιβλιογραφία

1. Data Mining-Foundations and Practice, Lin, Xie, Wasilewska and Liau, Springer-Verlag Berlin and Heidelberg GmbH & Co. KG, ISBN10: 354078487X, 2008.

Διδακτικές και μαθησιακές μέθοδοι

Δραστηριότητα Φόρτος Εργασίας Εξαμήνου
Διαλέξεις 39 ώρες
Εργαστηριακές ώρες 26 ώρες
Προσωπική μελέτη 57 ώρες
 
Τελική εξέταση 3 ώρες
Σύνολο Μαθήματος 125 ώρες (5 ECTS)

Μέθοδοι αξιολόγησης / βαθμολόγησης

Διδασκαλία σε αίθουσα, ομαδικές δραστηριότητες, ηλεκτρονική πλατφόρμα μάθησης.

Γλώσσα διδασκαλίας

Ελληνικά (Αγγλικά αν υπάρχουν φοιτητές/φοιτήτριες ERASMUS)

Τρόπος παράδοσης μαθήματος

Φυσική Παρουσία.