ΜΥΕ012/ΠΛΕ059 – Εξόρυξη Δεδομένων

Χειμερινό Εξάμηνο, 2025

Υλικό

Βιβλία και Διαφάνειες

· The Data Science Design Manual, του Steven S. Skiena

· Υλικό από το βιβλίο “Introduction to Data Mining” των Tan, Steinbach, Kumar.

· Mining Massive Datasets by Anand Rajaraman, Jeff Ullman, and Jure Leskovec. Δωρεάν online βιβλίο. Περιλαμβάνει και διαφάνειες από το μάθημα.

· All of Statistics by Larry A. WassermanAll of Statistics by Larry A. WassermanAll of Statistics by Larry A. Wasserman

· Introduction to Information Retrieval των C. Manning, P. Raghavan, H. Schutze. Δωρεάν online βιβλίο.

· Networks Crowds and Markets των D. Easley, J. Kleinberg. Δωρεάν online βιβλίο.

· Social Media Mining των R. Zafarani, M. Ali Abbasi, H. Liu. Δωρεάν online βιβλίο.

· Υλικό από το βιβλίο “Data Mining: Concepts and Techniques”, των Jiawei Han and Micheline Kamber.

· The Data Science Design Manual του Steven Skiena.

· All of Statistics του Larry A. Wasserman

Springer Online Books

Πρόσφατα η Springer έδωσε μια λίστα με δωρεάν online βιβλία σε Machine Learning και Data Mining.

Μερικά από τα πιο ενδιαφέροντα και σχετικά με το μάθημα:

· The Elements of Statistical Learning, των Trevor Hastie, Robert Tibshirani, Jerome Friedman

· Data Mining του Charu C. Aggarwal

· The Data Science Design Manual του Steven S. Skiena

· The Python Workbook του Ben Stephenson

Python

· Σημειώσεις από το μάθημα Computational Tools for Data Science στο Boston University.

Χρήσιμες εντολές Unix

Οι παρακάτω unix εντολές μπορεί να σας φανούν χρήσιμες για το pre-processing των δεδομένων,:

· cut: επιτρέπει να πάρουμε συγκεκριμένες κολώνες από ένα αρχείο με διαχωριζόμενες τιμές

· sort: ταξινομεί τις γραμμές ενός αρχείου σε αλφαβητική σειρά . –n for αριθμητική σειρά

· uniq: αφαιρεί συνεχόμενες γραμμές που είναι ίδιες.

· grep: βρίσκει μια έκφραση μέσα σε ένα αρχείο.

Κάνετε “man <εντολή>” σε unix/linux για περισσότερες πληροφορίες για κάθε εντολή.

Λογισμικό

· WEKA Data Mining Software: Software πακέτο που υλοποιεί διάφορους αλγόριθμους εξόρυξης δεδομένων.

· FIMI: Frequent Itemsets Mining Implementation: Μία σελίδα με πολλαπλές υλοποιήσεις αλγορίθμων για εξόρυξη συχνών στοιχειοσυνόλων. Όλοι οι αλγόριθμοι υποθέτουν είσοδο στο format των παραδειγμάτων στη σελίδα: κάθε γραμμή είναι ένα «καλάθι» από ακεραίους που χωρίζονται με κενό.

· Liblinear: Software πακέτο για κατηγοριοποίηση. Υλοποιεί Logistic Regression και SVM classifier.

Δεδομένα

· Yelp data

· The Yelp Academic Challenge dataset

· UCI Machine Learning Repository

o Το Iris dataset (ARFF αρχείο).Το link στο UCI repository.

o To SpamBase dataset (ARFF αρχείο). Το link στο UCI repository.

o Το Mushroom dataset (ARFF file). Το link στο UCI repository.

· Movie Lens Datasets από το GroupLens Research

· FourSquare tips on Restaurants: μια συλλογή από foursquare tips για εστιατόρια της Νέας Υόρκης (Ευχαριστίες στον Γιάννη Κοτρώτσιο).

· FourSquare tips with categories: μια συλλογή από foursquare tips με την κατηγορία της επιχείρησης για εστιατόρια, κέντρα νυχτερινής διασκέδασης και καταστήματα από την Νέας Υόρκη (Ευχαριστίες στον Γιάννη Κοτρώτσιο).

· FourSquare users and venues: μια συλλογή από ζεύγη από user ids και venue names στην περιοχή της Νέας Υόρκης, όπου ο χρήστης με το συγκεκριμένο id έχει αφήσει tip στο συγκεκριμένο venue στο Foursquare (Ευχαριστίες στον Γιάννη Κοτρώτσιο).

· Twitter data από το paper “What is Twitter, a Social Network, or a News Media?” των Haewoon Kwak, Changhyun Lee, Hosung Park, and Sue Moon.

· English Stopwords. Txt αρχείο με λίστα από συχνές αγγλικές λέξεις (stopwords).

· SpamAssassin.

· Stanford Network Analysis Project Datasets.

· Movie-Actor Graph. Κάθε γραμμή στο αρχείο είναι ένα ζεύγος ταινία, ηθοποιός, χωρισμένο με tab, δηλαδή αντιστοιχεί σε μια ακμή του γράφου.