Σεμινάριο Τμήματος με τίτλο ‘Αξιοποίηση Large Language Models(LLMs) για Εργασίες Δομημένης Γνώσης: Από τη Δημιουργία Λέξεων Κλειδιών(Keyphrases) έως το Συλλογισμό(Reasoning) με Knowledge Graphs’
Περιγραφή
Στο πλαίσιο της διοργάνωσης των σεμιναρίων του τμήματος θα πραγματοποιηθεί την Τρίτη 21/10/2025 και ώρα 11:00, ομιλία με τίτλο «Αξιοποίηση Large Language Models (LLMs) για Εργασίες Δομημένης Γνώσης: Από τη Δημιουργία Λέξεων Κλειδιών (Keyphrases) έως το Συλλογισμό (Reasoning) με Knowledge Graphs» στην αίθουσα Σεμιναρίων του ΤΜΗΥΠ. Ομιλητής θα είναι ο κ. Κώστας Τσιουτσιουλικλής, Chief Scientist στην Augment Me.
ΠΕΡΙΛΗΨΗ
Τα Large Language Models έχουν μεταμορφώσει δραματικά την επεξεργασία φυσικής γλώσσας (natural language processing), αλλά η αποτελεσματική αξιοποίησή τους για εργασίες δομημένης γνώσης παραμένει πρόκληση. Στην ομιλία αυτή εξερευνούμε δύο συμπληρωματικές ερευνητικές κατευθύνσεις που εξετάζουν την καλύτερη ενσωμάτωση δομημένης γνώσης με LLMs σε πρακτικές εφαρμογές.
Μέρος 1: Δημιουργία Keyphrases για Contextual Targeting
Στην εποχή των κανονισμών προστασίας προσωπικών δεδομένων (GDPR, CCPA), οι διαφημιστές δεν μπορούν πλέον να βασίζονται στην παρακολούθηση χρηστών. Διερευνούμε την αξιοποίηση LLMs για τη δημιουργία υψηλής ποιότητας keyphrases από ιστοσελίδες για contextual targeting διαφημίσεων. Μέσω συστηματικής σύγκρισης προσεγγίσεων zero-shot, few-shot και fine-tuning με knowledge distillation, αποδεικνύουμε ότι τα LLMs μπορούν να βελτιώσουν δραματικά τη δημιουργία keyphrases διατηρώντας παράλληλα web-scale performance. Το σύστημα που αναπτύξαμε αυξάνει την εμβέλεια χρηστών στο Yahoo DSP κατά 17.3%.
Μέρος 2: Knowledge Graph Reasoning με τη χρήση Γλωσσών Προγραμματισμού
Τα LLMs παρουσιάζουν συχνά δυσκολίες με σύνθετους συλλογισμούς και παράγουν hallucinations. Στο δεύτερο μέρος προτείνουμε μια νέα προσέγγιση που αναπαριστά knowledge graphs (KGs) χρησιμοποιώντας γλώσσες προγραμματισμού (Python) αντί για φυσική γλώσσα ή JSON. Ενσωματώνοντας στενά τις δομές των KG στις αναπαραστάσεις των LLM μέσω κώδικα, πετυχαίνουμε καλύτερο grounding και μειώνουμε τα hallucinations. Fine-tuned μοντέλα μεγέθους 8B με αναπαράστασή σε Python ξεπερνούν τα βασικά μοντέλα μεγέθους 70B κατά 19.9% σε multi-hop reasoning και μπορούν να γενικευτούν από 2 hops σε 3.