ΜΥΕ012/ΠΛΕ059
– Εξόρυξη
Δεδομένων
Χειμερινό
Εξάμηνο, 2025
|
|
|
Υλικό
Βιβλία και
Διαφάνειες
·
Υλικό από το
βιβλίο “Introduction to
Data Mining” των Tan, Steinbach, Kumar. ·
Mining Massive Datasets by Anand Rajaraman, Jeff Ullman, and Jure Leskovec. Δωρεάν online βιβλίο. Περιλαμβάνει
και
διαφάνειες
από το μάθημα. ·
All of
Statistics by Larry A. WassermanAll of
Statistics by Larry A. WassermanAll of
Statistics by Larry A. Wasserman ·
Introduction to Information Retrieval
των C. Manning, P. Raghavan, H.
Schutze. Δωρεάν online βιβλίο. ·
Networks Crowds
and Markets των D. Easley, J.
Kleinberg. Δωρεάν online βιβλίο. ·
Social Media Mining των R. Zafarani, M. Ali Abbasi, H.
Liu. Δωρεάν online βιβλίο. ·
Υλικό από το
βιβλίο “Data
Mining: Concepts and Techniques”, των Jiawei Han and Micheline Kamber. ·
The Data Science Design Manual του Steven Skiena. ·
All of
Statistics του Larry A. Wasserman Springer Online Books
Πρόσφατα η Springer έδωσε μια λίστα με δωρεάν online βιβλία σε Machine Learning και Data Mining. Μερικά από
τα πιο
ενδιαφέροντα
και σχετικά με
το μάθημα: ·
The Elements of Statistical
Learning, των Trevor Hastie, Robert Tibshirani, Jerome Friedman ·
Data
Mining του Charu C. Aggarwal ·
The
Data Science Design Manual του Steven S. Skiena ·
The
Python Workbook του Ben Stephenson Python
·
Σημειώσεις από το μάθημα Computational
Tools for Data Science στο Boston University. Χρήσιμες
εντολές Unix
Οι
παρακάτω unix
εντολές
μπορεί να σας
φανούν
χρήσιμες για
το pre-processing των
δεδομένων,: ·
cut:
επιτρέπει να
πάρουμε
συγκεκριμένες
κολώνες από ένα
αρχείο με
διαχωριζόμενες
τιμές ·
sort:
ταξινομεί
τις
γραμμές ενός
αρχείου σε αλφαβητική
σειρά . –n for
αριθμητική
σειρά ·
uniq:
αφαιρεί
συνεχόμενες
γραμμές που
είναι ίδιες. ·
grep:
βρίσκει μια
έκφραση μέσα
σε ένα αρχείο. Κάνετε “man
<εντολή>” σε unix/linux
για
περισσότερες
πληροφορίες
για κάθε
εντολή. Λογισμικό
·
WEKA Data Mining Software: Software πακέτο
που υλοποιεί
διάφορους
αλγόριθμους
εξόρυξης
δεδομένων. ·
FIMI:
Frequent Itemsets Mining Implementation: Μία
σελίδα με
πολλαπλές
υλοποιήσεις
αλγορίθμων για
εξόρυξη
συχνών στοιχειοσυνόλων.
Όλοι οι
αλγόριθμοι
υποθέτουν
είσοδο στο format των
παραδειγμάτων
στη σελίδα:
κάθε γραμμή
είναι ένα
«καλάθι» από
ακεραίους που
χωρίζονται με
κενό. ·
Liblinear: Software πακέτο
για
κατηγοριοποίηση.
Υλοποιεί Logistic Regression και SVM
classifier. Δεδομένα
·
The Yelp Academic Challenge
dataset ·
UCI Machine Learning Repository o Το Iris dataset (ARFF αρχείο).Το link
στο UCI repository. o To SpamBase dataset (ARFF
αρχείο).
Το link
στο
UCI repository. o Το Mushroom dataset (ARFF
file). Το link
στο UCI repository. ·
Movie Lens Datasets από το GroupLens
Research ·
FourSquare tips on Restaurants: μια
συλλογή από foursquare tips για
εστιατόρια
της Νέας
Υόρκης
(Ευχαριστίες
στον Γιάννη Κοτρώτσιο). ·
FourSquare tips with categories: μια
συλλογή από foursquare tips με την
κατηγορία της
επιχείρησης
για
εστιατόρια,
κέντρα
νυχτερινής
διασκέδασης
και
καταστήματα από
την Νέας Υόρκη
(Ευχαριστίες
στον Γιάννη Κοτρώτσιο). ·
FourSquare users and venues: μια
συλλογή από
ζεύγη από user ids και venue names στην
περιοχή της
Νέας Υόρκης,
όπου ο χρήστης
με το συγκεκριμένο
id έχει
αφήσει tip στο
συγκεκριμένο venue στο Foursquare
(Ευχαριστίες
στον Γιάννη Κοτρώτσιο). ·
Twitter data από το paper “What is Twitter, a Social Network, or a News
Media?” των Haewoon Kwak, Changhyun Lee, Hosung Park, and Sue Moon. ·
English Stopwords. Txt
αρχείο με
λίστα από
συχνές
αγγλικές
λέξεις (stopwords). ·
SpamAssassin. ·
Stanford Network Analysis
Project Datasets. ·
Movie-Actor Graph. Κάθε γραμμή
στο αρχείο
είναι ένα
ζεύγος ταινία,
ηθοποιός, χωρισμένο
με tab,
δηλαδή
αντιστοιχεί
σε μια ακμή του
γράφου. |