Ώρες Διδασκαλίας: Τρίτη 14:00-16:00, Τετάρτη 10:00-12:00
(την Τετάρτη θα γίνεται μόνο η 1η ώρα, εκτός περιπτώσεων αναπλήρωσης)
Ύλη Μαθήματος
Το μάθημα καλύπτει τις βασικές αρχές, αλγόριθμους και εφαρμογές της ανάκτησης πληροφορίας από συλλογές κειμένων και στις μηχανές αναζήτησης.
Εργασία
Θα δοθεί μια εργασία (project) που θα αφορά την υλοποίηση ενός συστήματος ανάκτησης πληροφορίας με χρήση
lucene
Κάποιες πιθανές συλλογές
Προκαταρκτικό Χρονοδιάγραμμα
31/3/2014 | Εκφώνηση Εργασίας | εδώ |
11/4/2014 | Παράδοση περιγραφής αρχικού σχεδιασμού | Οδηγίες |
20/5/2014, 11:59μμ | Παράδοση 1ου Μέρους | Οδηγίες |
3-4/6/2014 | Εξέταση τελικής εργασίας | Πρόγραμμα |
Υπολογισμός Βαθμού
Ο βαθμός στο μάθημα θα υπολογιστεί ως εξής: 0,65 Βαθμός Εργασίας + 0,35 Βαθμός Τελικής Εξέτασης
Δεν υπάρχει απαιτούμενο κάτω όριο για το βαθμό στην εργασία ή στην εξέταση.
Ημερομηνία | Θεματική Περιοχή | Περιγραφή | Λέξεις-κλειδιά | Διαφάνειες |
17 Φεβ | Εισαγωγή | Εισαγωγή στην Ανάκτηση Πληροφορίας. Ανάκτηση Boole | Σύστημα Ανάκτησης Πληροφορίας (ΣΑΠ) (Information Retrieval System), Συλλογή Εγγράφων (Document Collection), Ανάγκη ΠΛηροφόρησης (Information Need), Αναστραμμένο Ευρετήριο (Invereted Index) | pptx pdf |
25 Φεβ | Κατασκευή Ευρετηρίου και Είδη Ερωτήσεων | Προ-επεξεργασία για την Κατασκευή Ευρετηρίου, Λίστες Καταχωρήσεων και Ερωστήσεις Φράσεων | Λεξιλόγιο Όρων (Term vocabulary), Λίστες Καταχωρήσεων (Posting Lists), Token, Διακοπτόμενες λέξεις (Stop Words), Λημματοποίηση, Περιστολή (Stemming), Ερωτήσεις Φράσεων (Phrase Queries), Ερωτήσεις Γειτονικότητας (Proximity Queries) | pptx pdf |
26 Φεβ | Κατασκευή Ευρετηρίου και Είδη Ερωτήσεων | Δομές Αναζήτησης για Λεξικά. Ανάκτηση Aνεκτική σε Σφάλματα: Ερωτήσεις με `*' | Λεξικό (Dictionary), Ευρετήριο Αντιμετατεθειμένων Όρων (Permuterm Index), Ευρετήρια k-γραμμάτων (k-gram Indexes) | pptx pdf |
5 Μαρ | Κατασκευή Ευρετηρίου και Είδη Ερωτήσεων | Ανάκτηση ανεκτική σε Σφάλματα: Ορθογραφικά λάθη, Απόσταση όρων, Φωνητική διόρθωση. | Απόσταση Διόρθωσης (Edit distance), Φωνητική διόρθωση (Soundex) | pptx pdf |
26 Μαρ | Κατασκευή Ευρετηρίου | Αλγόριθμοι για την Aποδοτική Κατασκευή του Ευρετηρίου. Στατιστικά Συλλογής. | MapReduce, Νόμος του Heaps, Νόμος του Zipf | pptx pdf |
1 Απρ | Συμπίεση Ευρετηρίου. | Αλγόριθμοι για τη Συμπίεση του Λεξικού και του Ανεστραμμένου Ευρετηρίου | Mη Aπωλεστική Συμπίεση (Lossless Compression), Απωλεστική Συμπίεση (Lossy Compression), Blocking, Εμπρόσθια Κωδικοποίηση (Front Coding) Κωδικοποίηση Μεταβλητού Μεγέθους (Variable Length Encoding) | pptx pdf |
2 Απρ | Διαβαθμισμένη Ανάκτηση | Βαθμολόγηση. Στάθμιση όρων. Το διανυσματικό μοντέλο. | Συχνότητα Όρου (Term Frequency) Συχνότητα Εγγράφων (Document Frequency), Στάθμιση tf-idf | pptx pdf |
8 Απρ | Υλοποίηση | Θέματα υλοποίησης. Περίληψη αποτελεσμάτων. | Υπολογισμός ανά Όρο (term-at-a-time), Υπολογισμός ανά Έγγραφο (document-at-a-time), Βαθμιδωτά Ευρετήρια | pptx pdf |
29 Απρ | Αξιολόγηση | Αξιολόγηση στην Ανάκτηση Πληροφορίας I. | Συνάφεια (Relevance), Ακρίβεια (Precision), Ανάκληση (Recall), Καμπύλη Ακρίβειας/Ανάκλησης, Μέση Aκρίβεια 11-σημείων με Παρεμβολή, Ακρίβεια στα k | pptx pdf |
6 Μαϊου | Αξιολόγηση |
Αξιολόγηση στην Ανάκτηση Πληροφορίας II. | Μέση Aντιπροσωπευτική Aκρίβεια (Mean Αverage Precision, MAP), R-ακρίβεια, Μειούμενο Συγκεντρωτικό Κέρδος (Discounted Cumulative Gain), clickthrough, Μέτρο Κάπα | pptx pdf |
6 Μαϊου | Υλοποίηση | Εισαγωγή στη Lucene. | Field, IndexWriter, Directory, Analyzer, IndexSearcher, QueryParser, TopDocs, ScoreDoc | pptx pdf |
13 Μαϊου | Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό | Βασικές Αρχές Ανάκτησης στον Παγκόσμιο Ιστό (web). | Ο γράφος του web, Κείμενο Άγκυρας, PageRank, HITS. | pptx pdf |
20 Μαϊου | Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό | Άλλα Θέματα Ανάκτησης στον Ιστό: ανάγκες χρηστών, διαφημίσεις, spam, εκτίμηση του μεγέθους του web. | Μοντέλο κόστους per mil (CPM), Μοντέλο κόστους per click (CPC), Search Engine Optimization (SEO) | pptx pdf |
Διαφάνειες Προηγούμενου Έτους εδώ