Abstract:
Η παρούσα διατριβή πραγματεύεται την αυτοματοποιημένη κατηγοριοποίηση δυναμικών δεδομένων, και ειδικότερα την αυτοματοποιημένη κατηγοριοποίηση σελίδων διαδικτύου μέσα από μία συνδυαστική προσέγγιση. Πρόκειται για ένα πεδίο που απασχολεί τη διεθνή ερευνητική κοινότητα από τότε που εμφανίστηκε το διαδίκτυο, καθώς βασικές πλευρές της επιστήμης των υπολογιστών, όπως είναι η διαχείριση και ανάκτηση πληροφοριών, η διαλειτουργικότητα των πηγών πληροφόρησης, αλλά και τα μοντέλα εξαγωγής πληροφοριών, μοντέλα φιλτραρίσματος περιεχομένου και αφαίρεσης διαφημίσεων, στηρίζονται στην κατηγοριοποίηση των σελίδων διαδικτύου. Τα τελευταία χρόνια, η συγκλονιστική αύξηση της απόδοσης και του χώρου μνήμης των υπολογιστών, σε συνδυασμό με την εξειδίκευση μοντέλων μηχανικής μάθησης για την ταξινόμηση κειμένων και εικόνων, αποτελούν επιπλέον λόγους για τους οποίους το ζήτημα της κατηγοριοποίησης σελίδων διαδικτύου παραμένει στο επίκεντρο του ερευνητικού ενδιαφέροντος. Ενώ, η πολυπλοκότητα που χαρακτηρίζει την αυτοματοποιημένη κατηγοριοποίηση σελίδων διαδικτύου ως διαδικασία, η ποικιλομορφία του περιεχομένου των σελίδων διαδικτύου (εικόνες διαφορετικών μεγεθών, κείμενο, υπερσύνδεσμοι κ.λπ.) και το υπολογιστικό κόστος, συνιστούν επιπρόσθετες προκλήσεις. Κατόπιν μελέτης των προσεγγίσεων που παρουσιάζονται στη διεθνή βιβλιογραφία για τη διαχείριση του περιεχομένου του Παγκόσμιου Ιστού, διαπιστώνουμε πως οι περισσότερες από αυτές στηρίζονται κυρίως σε τεχνικές κατηγοριοποίησης κειμένων, και ορισμένες άλλες αξιοποιούν τη δομή των σελίδων. Ζητούμενο μέσα από την παρούσα διατριβή είναι να σχεδιάσουμε μια υβριδική προσέγγιση του προβλήματος της κατηγοριοποίησης σελίδων διαδικτύου, στηριζόμενοι τόσο σε κειμενικής φύσης στοιχεία όσο και σε δομικά χαρακτηριστικά. Με άλλα λόγια, η προτεινόμενη προσέγγιση στηρίζεται σε υπάρχουσες σχετικές μεθόδους, συνδυάζοντας τις τεχνικές που αξιοποιούνται στο πλαίσιό τους έτσι, ώστε οι σελίδες να κατηγοριοποιούνται ως προς το θέμα τους, αλλά και ως προς τον τύπο τους. Αυτό σημαίνει ότι η προτεινόμενη προσέγγιση αποτελεί μια συνδυαστική ενιαία μεθοδολογία κατηγοριοποίησης σελίδων διαδικτύου, η οποία στηρίζεται σε κειμενικής και δομικής φύσης στοιχεία, γνωρίσματα και χαρακτηριστικά των υπό εξέταση σελίδων διαδικτύου. Στόχος, μέσα από την προτεινόμενη μεθοδολογία, είναι να αντιστοιχηθεί κάθε σελίδα που εξετάζεται στην κατάλληλη κατηγορία αφότου ελεγχθούν διάφορες παράμετροι που σχετίζονται με το περιεχόμενο και τη δομή της σελίδας. Από αυτή τη σκοπιά, στο πλαίσιο της παρούσας διατριβής, σχεδιάζουμε έναν πολυδιάστατο αλγόριθμο κατηγοριοποίησης, ο οποίος αποφασίζει για τον τύπο και το θέμα κάθε σελίδας που εξετάζει. Συμπληρωματικά, παρατηρώντας ευρύτερα τις σελίδες διαδικτύου και τη δυναμική τους φύση, διευρύνουμε την «ισχύ» της προτεινόμενης μεθοδολογίας συμπεριλαμβάνοντας δύο επιπλέον αλγορίθμους, προκειμένου να παρακολουθούμε, να εντοπίζουμε και να ελέγχουμε την ανάγκη επανα-κατηγοριοποίησης των σελίδων διαδικτύου, όπου αυτό κρίνεται απαραίτητο, με βάση τις αλλαγές σε περιεχόμενο ή/και δομή που μπορεί να έχουν προκύψει. Με αυτόν τον τρόπο, καθιερώνεται ένας τακτικός έλεγχος των κατηγοριοποιημένων σελίδων, με σκοπό το αποτέλεσμα της κατηγοριοποίησης να είναι πάντα επικαιροποιημένο. Όσον αφορά την αποτελεσματικότητα και την απόδοση της μεθοδολογίας μας, πραγματοποιούμε δοκιμαστική πειραματική αξιολόγησή της, η οποία δείχνει ότι οι σελίδες διαδικτύου κατηγοριοποιούνται ορθώς με διττό τρόπο, δηλαδή σύμφωνα με το θέμα του περιεχομένου τους και τον δομικό τους τύπο, όπως αυτός προκύπτει από τη δομή τους. Για την πληρέστερη αξιολόγηση της προτεινόμενης μεθοδολογίας, συμπληρωματικά πραγματοποιούμε συγκριτική μελέτη μεταξύ των αποτελεσμάτων του προτεινόμενου αλγορίθμου κατηγοριοποίησης και αυτών που προκύπτουν από την εφαρμογή ενός k-NN αλγορίθμου. Από αυτή τη συγκριτική μελέτη προκύπτει ότι η απόδοση του προτεινόμενου αλγορίθμου μπορεί να συγκριθεί και είναι αντίστοιχη αυτής ενός κλασικού αλγόριθμου κατηγοριοποίησης κειμένων.