ΜΥΕ012/ΠΛΕ059
– Εξόρυξη
Δεδομένων
Χειμερινό
Εξάμηνο, 2024
|
|
|
Υλικό
Βιβλία και
Διαφάνειες
·
Υλικό από το
βιβλίο “Introduction to
Data Mining” των Tan, Steinbach, Kumar. ·
Mining Massive Datasets by Anand Rajaraman, Jeff Ullman, and Jure Leskovec. Δωρεάν online βιβλίο. Περιλαμβάνει
και
διαφάνειες
από το μάθημα. ·
All of
Statistics by Larry A. WassermanAll of
Statistics by Larry A. WassermanAll of
Statistics by Larry A. Wasserman ·
Introduction to Information Retrieval
των C. Manning, P. Raghavan, H. Schutze. Δωρεάν online βιβλίο. ·
Networks Crowds
and Markets των D. Easley, J. Kleinberg. Δωρεάν online βιβλίο. ·
Social Media Mining των R. Zafarani, M. Ali Abbasi, H.
Liu. Δωρεάν online βιβλίο. ·
Υλικό από το βιβλίο “Data Mining: Concepts and
Techniques”, των Jiawei
Han and Micheline Kamber. ·
The Data Science Design Manual του
Steven Skiena. ·
All of
Statistics του Larry A. Wasserman Springer Online Books
Πρόσφατα η
Springer έδωσε
μια λίστα με δωρεάν online βιβλία
σε Machine
Learning και Data
Mining. Μερικά από
τα πιο
ενδιαφέροντα
και σχετικά με
το μάθημα: ·
The Elements of Statistical
Learning, των
Trevor Hastie, Robert Tibshirani,
Jerome Friedman ·
Data
Mining του Charu
C. Aggarwal ·
The
Data Science Design Manual του Steven
S. Skiena ·
The
Python Workbook του Ben
Stephenson Python
·
Σημειώσεις
από το μάθημα Computational
Tools for Data Science στο Boston
University. ·
Cookbooks:
Περιλαμβάνει
παραδείγματα
χρήσης του Iron Python, κώδικα
και δεδομένα. Χρήσιμες
εντολές Unix
Οι
παρακάτω unix
εντολές
μπορεί να σας
φανούν χρήσιμες
για το pre-processing των
δεδομένων,: ·
cut:
επιτρέπει να
πάρουμε
συγκεκριμένες
κολώνες από ένα
αρχείο με
διαχωριζόμενες
τιμές ·
sort:
ταξινομεί
τις
γραμμές ενός
αρχείου σε αλφαβητική
σειρά . –n for
αριθμητική
σειρά ·
uniq:
αφαιρεί
συνεχόμενες
γραμμές που
είναι ίδιες. ·
grep:
βρίσκει μια
έκφραση μέσα
σε ένα αρχείο. Κάνετε “man
<εντολή>” σε unix/linux
για
περισσότερες
πληροφορίες
για κάθε
εντολή. Λογισμικό
·
WEKA Data Mining Software: Software πακέτο
που υλοποιεί
διάφορους
αλγόριθμους
εξόρυξης
δεδομένων. ·
FIMI:
Frequent Itemsets Mining Implementation: Μία
σελίδα με
πολλαπλές
υλοποιήσεις
αλγορίθμων για
εξόρυξη
συχνών
στοιχειοσυνόλων.
Όλοι οι αλγόριθμοι
υποθέτουν
είσοδο στο format των
παραδειγμάτων
στη σελίδα:
κάθε γραμμή
είναι ένα
«καλάθι» από
ακεραίους που
χωρίζονται με
κενό. ·
Liblinear: Software πακέτο
για
κατηγοριοποίηση.
Υλοποιεί Logistic Regression και SVM
classifier. Δεδομένα
·
The Yelp Academic Challenge
dataset ·
UCI Machine Learning Repository o Το Iris dataset (ARFF αρχείο).Το link στο UCI repository. o To SpamBase dataset (ARFF
αρχείο).
Το link
στο
UCI repository. o Το Mushroom dataset (ARFF
file). Το link
στο UCI repository. ·
Movie Lens Datasets από το GroupLens Research ·
FourSquare tips on Restaurants: μια
συλλογή από foursquare tips για
εστιατόρια
της Νέας
Υόρκης
(Ευχαριστίες
στον Γιάννη
Κοτρώτσιο). ·
FourSquare tips with categories: μια
συλλογή από foursquare tips με την
κατηγορία της
επιχείρησης
για
εστιατόρια,
κέντρα
νυχτερινής
διασκέδασης
και
καταστήματα από
την Νέας Υόρκη
(Ευχαριστίες
στον Γιάννη
Κοτρώτσιο). ·
FourSquare users and venues: μια
συλλογή από
ζεύγη από user ids και venue names στην
περιοχή της
Νέας Υόρκης,
όπου ο χρήστης
με το συγκεκριμένο
id έχει
αφήσει tip στο
συγκεκριμένο venue στο Foursquare
(Ευχαριστίες στον
Γιάννη
Κοτρώτσιο). ·
Twitter data από το
paper “What is Twitter, a Social Network, or a News
Media?” των Haewoon Kwak, Changhyun Lee, Hosung Park, and Sue Moon. Για την
πρώτη άσκηση
θα
χρειαστείτε
το Restricted User Profiles αρχείο.
Τα πεδία του
αρχείου
εξηγούνται
στην ίδια
σελίδα, θα
χρειαστείτε το
ενδέκατο
πεδίο που
έχει το description. ·
English Stopwords. Txt
αρχείο με
λίστα από
συχνές
αγγλικές
λέξεις (stopwords). ·
SpamAssassin. ·
Stanford Network Analysis
Project Datasets. ·
Movie-Actor Graph. Κάθε γραμμή
στο αρχείο
είναι ένα
ζεύγος ταινία,
ηθοποιός,
χωρισμένο με tab, δηλαδή
αντιστοιχεί
σε μια ακμή του
γράφου. |