ΜΥΕ012/ΠΛΕ059 – Εξόρυξη Δεδομένων

Χειμερινό Εξάμηνο, 2025

 

Αρχική

Υλικό

Διαλέξεις

Φροντιστήρια

Ασκήσεις

 

 



Υλικό

Βιβλία και Διαφάνειες

·        Υλικό από το βιβλίο Introduction to Data Miningτων Tan, Steinbach, Kumar.

·        Mining Massive Datasets by Anand Rajaraman, Jeff Ullman, and Jure Leskovec. Δωρεάν online βιβλίο. Περιλαμβάνει και διαφάνειες από το μάθημα.

·        All of Statistics by Larry A. WassermanAll of Statistics by Larry A. WassermanAll of Statistics by Larry A. Wasserman

·        Introduction to Information Retrieval των C. Manning, P. Raghavan, H. Schutze. Δωρεάν online βιβλίο.

·        Networks Crowds and Markets των D. Easley, J. Kleinberg. Δωρεάν online βιβλίο.

·        Social Media Mining των R. Zafarani, M. Ali Abbasi, H. Liu. Δωρεάν online βιβλίο.

·        Υλικό από το βιβλίο Data Mining: Concepts and Techniques”, των Jiawei Han and Micheline Kamber.

·        The Data Science Design Manual του Steven Skiena.

·        All of Statistics του Larry A. Wasserman

 

Springer Online Books

Πρόσφατα η Springer έδωσε μια λίστα με δωρεάν online βιβλία σε Machine Learning και Data Mining.

Μερικά από τα πιο ενδιαφέροντα και σχετικά με το μάθημα:

·        The Elements of Statistical Learning, των Trevor Hastie, Robert Tibshirani, Jerome Friedman

·        Data Mining του Charu C. Aggarwal

·        The Data Science Design Manual του Steven S. Skiena

·        The Python Workbook του Ben Stephenson

 

Python

·        Σημειώσεις από το μάθημα Computational Tools for Data Science στο Boston University.

Χρήσιμες εντολές Unix

Οι παρακάτω unix εντολές μπορεί να σας φανούν χρήσιμες για το pre-processing των δεδομένων,:

·        cut: επιτρέπει να πάρουμε συγκεκριμένες κολώνες από ένα αρχείο με διαχωριζόμενες τιμές

·        sort: ταξινομεί τις  γραμμές ενός αρχείου σε αλφαβητική σειρά . –n for αριθμητική σειρά

·        uniq: αφαιρεί συνεχόμενες γραμμές που είναι ίδιες.

·        grep: βρίσκει μια έκφραση μέσα σε ένα αρχείο.

Κάνετε “man <εντολή>” σε unix/linux για περισσότερες πληροφορίες για κάθε εντολή.

Λογισμικό

·        WEKA Data Mining Software: Software πακέτο που υλοποιεί διάφορους αλγόριθμους εξόρυξης δεδομένων.

·        FIMI: Frequent Itemsets Mining Implementation: Μία σελίδα με πολλαπλές υλοποιήσεις αλγορίθμων για εξόρυξη συχνών στοιχειοσυνόλων. Όλοι οι αλγόριθμοι υποθέτουν είσοδο στο format των παραδειγμάτων στη σελίδα: κάθε γραμμή είναι ένα «καλάθι» από ακεραίους που χωρίζονται με κενό.

·        Liblinear: Software πακέτο για κατηγοριοποίηση. Υλοποιεί Logistic Regression και SVM classifier.

 

Δεδομένα

·        Yelp data

·        The Yelp Academic Challenge dataset

·        UCI Machine Learning Repository

o   Το Iris dataset (ARFF αρχείο).Το link στο UCI repository.

o   To SpamBase dataset (ARFF αρχείο). Το link στο UCI repository.

o   Το Mushroom dataset (ARFF file). Το link στο UCI repository.

·        Movie Lens Datasets από το GroupLens Research

·        FourSquare tips on Restaurants: μια συλλογή από foursquare tips για εστιατόρια της Νέας Υόρκης (Ευχαριστίες στον Γιάννη Κοτρώτσιο).

·        FourSquare tips with categories: μια συλλογή από foursquare tips με την κατηγορία της επιχείρησης για εστιατόρια, κέντρα νυχτερινής διασκέδασης και καταστήματα από την Νέας Υόρκη (Ευχαριστίες στον Γιάννη Κοτρώτσιο).

·        FourSquare users and venues: μια συλλογή από ζεύγη από user ids και venue names στην περιοχή της Νέας Υόρκης, όπου ο χρήστης με το συγκεκριμένο id έχει αφήσει tip στο συγκεκριμένο venue στο Foursquare (Ευχαριστίες στον Γιάννη Κοτρώτσιο).

·        Twitter data από το paper “What is Twitter, a Social Network, or a News Media?των Haewoon Kwak, Changhyun Lee, Hosung Park, and Sue Moon.

·        English Stopwords. Txt αρχείο με λίστα από συχνές αγγλικές λέξεις (stopwords).

·        SpamAssassin.

·        Stanford Network Analysis Project Datasets.

·        Movie-Actor Graph. Κάθε γραμμή στο αρχείο είναι ένα ζεύγος ταινία, ηθοποιός, χωρισμένο με tab, δηλαδή αντιστοιχεί σε μια ακμή του γράφου.