ΠΛΕ059 – Εξόρυξη Δεδομένων

Χειμερινό Εξάμηνο, 2012

Αρχική

Υλικό

Διαφάνειες

Ασκήσεις

Υλικό

Βιβλία και Διαφάνειες

· Mining Massive Datasets by Anand Rajaraman and Jeff Ullman. Διατίθεται δωρεάν online. Διαφάνειες από το μάθημα.

· Υλικό από το βιβλίο “Data Mining: Concepts and Techniques”, των Jiawei Han and Micheline Kamber.

· Υλικό από το βιβλίο “Introduction to Data Mining” των Tan, Steinbach, Kumar.

· Υλικό από το βιβλίο "Introduction to Information Retrieval" των C. Manning, P. Raghavan, H. Schutze

· Υλικό από το βιβλίο "Networks Crowds and Markets" των D. Easley, J. Kleinberg

Λογισμικό

· WEKA Data Mining Software: Software πακέτο που υλοποιεί διάφορους αλγόριθμους εξόρυξης δεδομένων.

· FIMI: Frequent Itemsets Mining Implementation: Μία σελίδα με πολλαπλές υλοποιήσεις αλγορίθμων για εξόρυξη συχνών στοιχειοσυνόλων. Όλοι οι αλγόριθμοι υποθέτουν είσοδο στο format των παραδειγμάτων στη σελίδα: κάθε γραμμή είναι ένα «καλάθι» από ακεραίους που χωρίζονται με κενό.

· Liblinear: Software πακέτο για κατηγοριοποίηση. Υλοποιεί Logistic Regression και SVM classifier.

Datasets

· UCI Machine Learning Repository

o Δεδομένα για την Άσκηση 4:

§ Το Iris dataset (ARFF αρχείο).Το link στο UCI repository.

§ To Mushroom dataset (ARFF αρχείο). Το link στο UCI repository.

§ To SpamBase dataset (ARFF αρχείο). Το link στο UCI repository

· Movie Lens Datasets από το GroupLens Research

· Twitter data από το paper “What is Twitter, a Social Network, or a News Media?” των Haewoon Kwak, Changhyun Lee, Hosung Park, and Sue Moon. Για την πρώτη άσκηση θα χρειαστείτε το Restricted User Profiles αρχέιο. Τα πεδία του αρχείου εξηγούνται στην ίδια σελίδα, θα χρειαστείτε το ενδέκατο πεδίο που έχει το description.

· English Stopwords. Txt αρχείο με λίστα από συχνές αγγλικές λέξεις (stopwords).

· SpamAssassin.

· Stanford Network Analysis Project Datasets.

· Movie-Actor Graph. Κάθε γραμμή στο αρχείο είναι ένα ζεύγος ταινία, ηθοποιός, χωρισμένο με tab, δηλαδή αντιστοιχεί σε μια ακμή του γράφου.