Memex: ο φακός του Σκοτεινού Ιστού
Τον γύρο του κόσμου έκανε πριν από λίγες εβδομάδες η είδηση ότι ο ιδιοκτήτης μιας ιστοσελίδας καταδικάστηκε σε ισόβια. Πρόκειται για τον Αμερικανό Ρος Ούλμπριχτ, δημιουργό του διαδικτυακού τόπου Silk Road που επέτρεπε στους χρήστες να αγοράζουν και να πουλάνε ανώνυμα από ναρκωτικά έως συμβόλαια για δολοφονίες! Το Silk Road λειτουργούσε στον λεγόμενο «Σκοτεινό Ιστό» ή «Βαθύ Ιστό».
To Deep Web, όπως είναι η επίσημη ονομασία του, είναι ένα δίκτυο που λειτουργεί αθέατα μέσα στο «συμβατικό» Διαδίκτυο, αφού οι ιστοσελίδες του δεν καταχωρίζονται και δεν γίνονται αντιληπτές από τις υπάρχουσες μηχανές αναζήτησης. Αποτελεί ένα ψηφιακό καταφύγιο για όσους για διαφόρους λόγους δεν θέλουν οι online δραστηριότητές τους να είναι ορατές από την κοινότητα του Internet.
Όπως είναι ευνόητο, το Deep Web μετατράπηκε σε παράδεισο για τους κάθε λογής παρανόμους και εγκληματίες του πλανήτη. Μέσα στον Σκοτεινό Ιστό βρήκαν χώρο δράσης λαθρέμποροι, έμποροι ναρκωτικών, όσοι ασχολούνται με την παράνομη διακίνηση ανθρώπων, την παιδική πορνογραφία και ούτω καθεξής.
Διάφοροι φορείς, με πρώτη την Υπηρεσία Ανάπτυξης Προωθημένων Τεχνολογιών του στρατού των ΗΠΑ (DARPA), προσπαθούν τα τελευταία χρόνια να φτιάξουν νέες προηγμένες μηχανές αναζήτησης για να εντοπίζουν τις ιστοσελίδες του Deep Web. Σύμμαχός τους είναι μια νέα τεχνολογία ονόματι Memex πάνω στην οποία μπορούν να δημιουργηθούν διάφορα εργαλεία.
Πρόκειται για εργαλεία όπως μηχανές αναζήτησης εξειδικευμένες στο ψάξιμο του Deep Web ώστε να εντοπίζονται οι εγκληματίες που δρουν διαδικτυακά, αλλά και εργαλεία καλύτερης επεξεργασίας και κατηγοριοποίησης στοιχείων που υπάρχουν σε μεγάλου μεγέθους αρχεία ή βάσεις δεδομένων.
Αυτό το τελευταίο θα μπορούσε να βοηθήσει πολύ τους απλούς χρήστες υπολογιστών και του Internet αλλά και τους επιστήμονες στις έρευνες που πραγματοποιούν. Πριν από λίγες ημέρες μάλιστα η NASA ανακοίνωσε ότι το διάσημο Εργαστήριο Αεριώθησης (JPL) έχει ξεκινήσει την προσπάθεια ανάπτυξης διαφόρων εργαλείων Memex, τα οποία ανάμεσα στα άλλα θα βοηθήσουν και στη διαστημική έρευνα.
«Το Βήμα» επικοινώνησε με τον Κρις Μάτμαν, στέλεχος του JPL και επικεφαλής της ομάδας που αναπτύσσει τα συστήματα Memex στα εργαστήρια του τμήματος.
Δηλώσατε πρόσφατα ότι η ομάδα σας αναπτύσσει «την επόμενη γενιά τεχνολογιών αναζήτησης δεδομένων οι οποίες μπορούν να ξεχωρίσουν και να καταλάβουν ανθρώπους, τόπους, πράγματα αλλά και τις συνδέσεις (ή συσχετίσεις) μεταξύ τους». Τι ακριβώς προσπαθείτε να φτιάξετε;
«Αυτό που κάνουμε είναι να βελτιώνουμε και να εξελίσσουμε αυτές τις τεχνολογίες με βάση το Memex. Πρόκειται στην ουσία για υπάρχουσες τεχνολογίες προερχόμενες από το Apache Software Foundation, στο οποίο είμαι μέλος του διοικητικού συμβουλίου. Ο Apache είναι ο μεγαλύτερος οργανισμός ανοιχτού κώδικα (Open Source) με πάνω από 4.000 συνεισφέροντες (ή συμμετέχοντες), προσφέροντας δωρεάν λογισμικό το οποίο τρέχει στους περισσότερους διασυνδεδεμένους υπολογιστές-servers του Internet (για παράδειγμα, ο Apache Web Server είναι η βάση του web σήμερα, μια και διαμοιράζει πάνω από το 53% του περιεχομένου web, ενώ η δωρεάν σουίτα εφαρμογών Open Office έχει δεκάδες εκατομμύρια κατεβάσματα κάθε μέρα. Τέλος, ο οργανισμός Apache μπορεί να θεωρηθεί εξ ορισμού το επίκεντρο των τεχνολογιών Big Data, μια και έχει αναπτύξει τα σχετικά εργαλεία Hadoop, Spark κ.ά.
Συγκεκριμένα, έχουμε εξελίξει το εργαλείο αναζητήσεων του Apache σε μια ξεχωριστή οντότητα με την ονομασία Apache Tika. Πρόκειται για ένα σύστημα εντοπισμού και ανάλυσης δεδομένων και περιεχομένου γενικά, το οποίο ειδικεύεται στην αναγνώριση οποιουδήποτε τύπου αρχείων ενώ μπορεί να εξάγει πολλές πληροφορίες από τα αρχεία, όπως για παράδειγμα κείμενο, metadata, γλώσσα, διάφορες συσχετίσεις κ.ά. Αν έχετε επισκεφθεί ένα site όπως για παράδειγμα το whitehouse.gov, το επίσημο site του Λευκού Οίκου, έχετε χρησιμοποιήσει το εργαλείο Tika. Πρόκειται για ένα site που έχει δημιουργηθεί στην πλατφόρμα Drupal η οποία χρησιμοποιεί τον server αναζήτησης δεδομένων Apache Solr, ο οποίος με τη σειρά του ενσωματώνει το Tika».
Υπάρχουν και άλλα εργαλεία που υπηρετούν τον ίδιο σκοπό;
«Συμπληρωματικά λειτουργούν το Apache Nutch (πρόκειται για μια μηχανή αναζήτησης web, ανοιχτού κώδικα, την οποία ήδη χρησιμοποιούν χιλιάδες sites) και το Apache Solr – πρόκειται για ένα σύστημα ταξινόμησης και εύρεσης κειμένων-δεδομένων το οποίο έχει χτιστεί πάνω στο Apache Lucene που χρησιμοποιείται ως server αναζητήσεων για διάφορες πλατφόρμες δημιουργίας website, όπως για παράδειγμα Drupal, Plone, Alfresco κ.ά.».
Μας περιγράψατε μια σειρά από τεχνολογίες και εργαλεία. Πώς τα χρησιμοποιείτε;
«Η NASA χρησιμοποιεί αυτές τις τεχνολογίες αναζήτησης στις μεγάλες βάσεις δεδομένων της. Οπως καταλαβαίνετε, οι βελτιώσεις που κάνουμε σε αυτά τα συστήματα αυτόματα τα βάζουν σε ένα μεταβατικό μονοπάτι ενσωμάτωσής τους στα συστήματα της NASA.
Πιο αναλυτικά, βελτιώνουμε τις παραπάνω τεχνολογίες μέσω του Memex:
Tika – την εξελίσσουμε έτσι ώστε να μπορεί να εξάγει ακόμη περισσότερες πληροφορίες από εικόνες, βίντεο και ήχο αλλά και άλλους τύπους περιεχομένου από το Deep Web και τα Big Data.
Nutch – την εξελίσσουμε έτσι ώστε να μπορεί να ψάξει και να ταξινομήσει φόρμες web, εργαλεία εμφάνισης δεδομένων Ajax/Javascript αλλά και ετερογενές περιεχόμενο μέσω της Tika (κάτι που δεν μπορεί να κάνει μια συμβατική μηχανή αναζήτησης).
Solr – την εξελίσσουμε έτσι ώστε να υποστηρίζει την ανάλυση των σχέσεων που αποκαλύπτονται στα αποτελέσματα των αναζητήσεων και περιεχομένου που έρχονται στην επιφάνεια μέσω των Nutch και Tika».
Ποιες άλλες τεχνολογίες και συστήματα βασισμένα στο Memex βρίσκονται υπό ανάπτυξη στο JPL;
«Αυτή τη στιγμή έχουμε εστιάσει στην ανάλυση εικόνων και βίντεο και αργότερα θα ασχοληθούμε περισσότερο με τον ήχο και την επεξεργασία της ανθρώπινης ομιλίας».
Πώς αυτές οι τεχνολογίες θα βοηθήσουν στην έρευνα του Διαστήματος; Διαβάζουμε σχετικά με μερικά εργαλεία τα οποία βοηθούν στην καλύτερη επεξεργασία των δεδομένων που συλλέγουν τα διαστημόπλοια και τα διαστημικά τηλεσκόπια. Εξετάζετε την ανάπτυξη κάποιας άλλης τεχνολογίας βασισμένης στο Memex σχετικά με την έρευνα του Διαστήματος;
«Ο συνδετικός κρίκος εδώ είναι τα δεδομένα στις βάσεις δεδομένων της NASA, όπως το Earth Observing System Data and Information System, που αποθηκεύουν έναν τεράστιο όγκο δεδομένων από δορυφόρους, εναέρια όργανα μετρήσεων και πειράματα εντός εργαστηρίου. Αυτά τα αρχεία δεν είναι ορατά από τις μηχανές αναζήτησης του web μια και κρύβονται πίσω από φόρμες, εργαλεία εμφάνισης δεδομένων Ajax/Javascript αλλά και ετερογενές περιεχόμενο. Η δουλειά που κάνουμε πάνω στο Memex έχει στόχο να εκμεταλλευθούμε τις τεχνολογίες Tika, Nutch και Solr έτσι ώστε να χειριστούμε καλύτερα το περιεχόμενο Deep Web, αλλά παράλληλα θα τις χρησιμοποιήσουμε έτσι ώστε να επεξεργαστούμε και τα μεγάλα αρχεία της NASA, αφού οι Tika, Nutch και Solr προ Memex δεν μπορούσαν να δουν το πολύπλοκο και ετερογενές περιεχόμενο ούτε να εντοπίσουν, να εξαγάγουν και να συσχετίσουν τα διάφορα δεδομένα».
Ποιες τεχνολογίες και συστήματα βασισμένα στο Memex είναι θεωρητικά δυνατόν να αναπτυχθούν στον τομέα της διαστημικής έρευνας;
«Το όραμά μου: όταν ολοκληρωθεί το πρόγραμμα, είναι ο καθένας να μπορεί να κατεβάσει όλα τα δωρεάν εργαλεία ανοιχτού κώδικα τα οποία θα μπορούν να «κατανοήσουν» εικόνες, βίντεο, ήχο και άλλο περιεχόμενο και να ψάξουν και να ερευνήσουν εύκολα και απλά τον τομέα που τους ενδιαφέρει».
Ποιες τεχνολογίες και συστήματα βασισμένα στο Memex είναι θεωρητικά δυνατόν να αναπτυχθούν σε άλλους τομείς της τεχνολογίας;
«Οι εξελιγμένες μηχανές αναζήτησης χρησιμοποιούνται ήδη στις αστυνομικές υπηρεσίες με σκοπό να αποκαλύψουν τη κρυμμένη στο Internet σωματεμπορία, την εμπορία ναρκωτικών και άλλες παράνομες ενέργειες.
Οι εφαρμογές, οι τεχνολογίες και τα συστήματα τα οποία βασίζονται στο Memex ήδη βοηθούν τις Αρχές να πολεμήσουν το έγκλημα και να σώσουν ζωές και πρόσφατα έχουν περάσει στη NASA με σκοπό να βοηθήσουν την επιστήμη και την έρευνα του Διαστήματος».
To Deep Web, όπως είναι η επίσημη ονομασία του, είναι ένα δίκτυο που λειτουργεί αθέατα μέσα στο «συμβατικό» Διαδίκτυο, αφού οι ιστοσελίδες του δεν καταχωρίζονται και δεν γίνονται αντιληπτές από τις υπάρχουσες μηχανές αναζήτησης. Αποτελεί ένα ψηφιακό καταφύγιο για όσους για διαφόρους λόγους δεν θέλουν οι online δραστηριότητές τους να είναι ορατές από την κοινότητα του Internet.
Όπως είναι ευνόητο, το Deep Web μετατράπηκε σε παράδεισο για τους κάθε λογής παρανόμους και εγκληματίες του πλανήτη. Μέσα στον Σκοτεινό Ιστό βρήκαν χώρο δράσης λαθρέμποροι, έμποροι ναρκωτικών, όσοι ασχολούνται με την παράνομη διακίνηση ανθρώπων, την παιδική πορνογραφία και ούτω καθεξής.
Διάφοροι φορείς, με πρώτη την Υπηρεσία Ανάπτυξης Προωθημένων Τεχνολογιών του στρατού των ΗΠΑ (DARPA), προσπαθούν τα τελευταία χρόνια να φτιάξουν νέες προηγμένες μηχανές αναζήτησης για να εντοπίζουν τις ιστοσελίδες του Deep Web. Σύμμαχός τους είναι μια νέα τεχνολογία ονόματι Memex πάνω στην οποία μπορούν να δημιουργηθούν διάφορα εργαλεία.
Πρόκειται για εργαλεία όπως μηχανές αναζήτησης εξειδικευμένες στο ψάξιμο του Deep Web ώστε να εντοπίζονται οι εγκληματίες που δρουν διαδικτυακά, αλλά και εργαλεία καλύτερης επεξεργασίας και κατηγοριοποίησης στοιχείων που υπάρχουν σε μεγάλου μεγέθους αρχεία ή βάσεις δεδομένων.
Αυτό το τελευταίο θα μπορούσε να βοηθήσει πολύ τους απλούς χρήστες υπολογιστών και του Internet αλλά και τους επιστήμονες στις έρευνες που πραγματοποιούν. Πριν από λίγες ημέρες μάλιστα η NASA ανακοίνωσε ότι το διάσημο Εργαστήριο Αεριώθησης (JPL) έχει ξεκινήσει την προσπάθεια ανάπτυξης διαφόρων εργαλείων Memex, τα οποία ανάμεσα στα άλλα θα βοηθήσουν και στη διαστημική έρευνα.
«Το Βήμα» επικοινώνησε με τον Κρις Μάτμαν, στέλεχος του JPL και επικεφαλής της ομάδας που αναπτύσσει τα συστήματα Memex στα εργαστήρια του τμήματος.
Δηλώσατε πρόσφατα ότι η ομάδα σας αναπτύσσει «την επόμενη γενιά τεχνολογιών αναζήτησης δεδομένων οι οποίες μπορούν να ξεχωρίσουν και να καταλάβουν ανθρώπους, τόπους, πράγματα αλλά και τις συνδέσεις (ή συσχετίσεις) μεταξύ τους». Τι ακριβώς προσπαθείτε να φτιάξετε;
«Αυτό που κάνουμε είναι να βελτιώνουμε και να εξελίσσουμε αυτές τις τεχνολογίες με βάση το Memex. Πρόκειται στην ουσία για υπάρχουσες τεχνολογίες προερχόμενες από το Apache Software Foundation, στο οποίο είμαι μέλος του διοικητικού συμβουλίου. Ο Apache είναι ο μεγαλύτερος οργανισμός ανοιχτού κώδικα (Open Source) με πάνω από 4.000 συνεισφέροντες (ή συμμετέχοντες), προσφέροντας δωρεάν λογισμικό το οποίο τρέχει στους περισσότερους διασυνδεδεμένους υπολογιστές-servers του Internet (για παράδειγμα, ο Apache Web Server είναι η βάση του web σήμερα, μια και διαμοιράζει πάνω από το 53% του περιεχομένου web, ενώ η δωρεάν σουίτα εφαρμογών Open Office έχει δεκάδες εκατομμύρια κατεβάσματα κάθε μέρα. Τέλος, ο οργανισμός Apache μπορεί να θεωρηθεί εξ ορισμού το επίκεντρο των τεχνολογιών Big Data, μια και έχει αναπτύξει τα σχετικά εργαλεία Hadoop, Spark κ.ά.
Συγκεκριμένα, έχουμε εξελίξει το εργαλείο αναζητήσεων του Apache σε μια ξεχωριστή οντότητα με την ονομασία Apache Tika. Πρόκειται για ένα σύστημα εντοπισμού και ανάλυσης δεδομένων και περιεχομένου γενικά, το οποίο ειδικεύεται στην αναγνώριση οποιουδήποτε τύπου αρχείων ενώ μπορεί να εξάγει πολλές πληροφορίες από τα αρχεία, όπως για παράδειγμα κείμενο, metadata, γλώσσα, διάφορες συσχετίσεις κ.ά. Αν έχετε επισκεφθεί ένα site όπως για παράδειγμα το whitehouse.gov, το επίσημο site του Λευκού Οίκου, έχετε χρησιμοποιήσει το εργαλείο Tika. Πρόκειται για ένα site που έχει δημιουργηθεί στην πλατφόρμα Drupal η οποία χρησιμοποιεί τον server αναζήτησης δεδομένων Apache Solr, ο οποίος με τη σειρά του ενσωματώνει το Tika».
Υπάρχουν και άλλα εργαλεία που υπηρετούν τον ίδιο σκοπό;
«Συμπληρωματικά λειτουργούν το Apache Nutch (πρόκειται για μια μηχανή αναζήτησης web, ανοιχτού κώδικα, την οποία ήδη χρησιμοποιούν χιλιάδες sites) και το Apache Solr – πρόκειται για ένα σύστημα ταξινόμησης και εύρεσης κειμένων-δεδομένων το οποίο έχει χτιστεί πάνω στο Apache Lucene που χρησιμοποιείται ως server αναζητήσεων για διάφορες πλατφόρμες δημιουργίας website, όπως για παράδειγμα Drupal, Plone, Alfresco κ.ά.».
Μας περιγράψατε μια σειρά από τεχνολογίες και εργαλεία. Πώς τα χρησιμοποιείτε;
«Η NASA χρησιμοποιεί αυτές τις τεχνολογίες αναζήτησης στις μεγάλες βάσεις δεδομένων της. Οπως καταλαβαίνετε, οι βελτιώσεις που κάνουμε σε αυτά τα συστήματα αυτόματα τα βάζουν σε ένα μεταβατικό μονοπάτι ενσωμάτωσής τους στα συστήματα της NASA.
Πιο αναλυτικά, βελτιώνουμε τις παραπάνω τεχνολογίες μέσω του Memex:
Tika – την εξελίσσουμε έτσι ώστε να μπορεί να εξάγει ακόμη περισσότερες πληροφορίες από εικόνες, βίντεο και ήχο αλλά και άλλους τύπους περιεχομένου από το Deep Web και τα Big Data.
Nutch – την εξελίσσουμε έτσι ώστε να μπορεί να ψάξει και να ταξινομήσει φόρμες web, εργαλεία εμφάνισης δεδομένων Ajax/Javascript αλλά και ετερογενές περιεχόμενο μέσω της Tika (κάτι που δεν μπορεί να κάνει μια συμβατική μηχανή αναζήτησης).
Solr – την εξελίσσουμε έτσι ώστε να υποστηρίζει την ανάλυση των σχέσεων που αποκαλύπτονται στα αποτελέσματα των αναζητήσεων και περιεχομένου που έρχονται στην επιφάνεια μέσω των Nutch και Tika».
Ποιες άλλες τεχνολογίες και συστήματα βασισμένα στο Memex βρίσκονται υπό ανάπτυξη στο JPL;
«Αυτή τη στιγμή έχουμε εστιάσει στην ανάλυση εικόνων και βίντεο και αργότερα θα ασχοληθούμε περισσότερο με τον ήχο και την επεξεργασία της ανθρώπινης ομιλίας».
Πώς αυτές οι τεχνολογίες θα βοηθήσουν στην έρευνα του Διαστήματος; Διαβάζουμε σχετικά με μερικά εργαλεία τα οποία βοηθούν στην καλύτερη επεξεργασία των δεδομένων που συλλέγουν τα διαστημόπλοια και τα διαστημικά τηλεσκόπια. Εξετάζετε την ανάπτυξη κάποιας άλλης τεχνολογίας βασισμένης στο Memex σχετικά με την έρευνα του Διαστήματος;
«Ο συνδετικός κρίκος εδώ είναι τα δεδομένα στις βάσεις δεδομένων της NASA, όπως το Earth Observing System Data and Information System, που αποθηκεύουν έναν τεράστιο όγκο δεδομένων από δορυφόρους, εναέρια όργανα μετρήσεων και πειράματα εντός εργαστηρίου. Αυτά τα αρχεία δεν είναι ορατά από τις μηχανές αναζήτησης του web μια και κρύβονται πίσω από φόρμες, εργαλεία εμφάνισης δεδομένων Ajax/Javascript αλλά και ετερογενές περιεχόμενο. Η δουλειά που κάνουμε πάνω στο Memex έχει στόχο να εκμεταλλευθούμε τις τεχνολογίες Tika, Nutch και Solr έτσι ώστε να χειριστούμε καλύτερα το περιεχόμενο Deep Web, αλλά παράλληλα θα τις χρησιμοποιήσουμε έτσι ώστε να επεξεργαστούμε και τα μεγάλα αρχεία της NASA, αφού οι Tika, Nutch και Solr προ Memex δεν μπορούσαν να δουν το πολύπλοκο και ετερογενές περιεχόμενο ούτε να εντοπίσουν, να εξαγάγουν και να συσχετίσουν τα διάφορα δεδομένα».
Ποιες τεχνολογίες και συστήματα βασισμένα στο Memex είναι θεωρητικά δυνατόν να αναπτυχθούν στον τομέα της διαστημικής έρευνας;
«Το όραμά μου: όταν ολοκληρωθεί το πρόγραμμα, είναι ο καθένας να μπορεί να κατεβάσει όλα τα δωρεάν εργαλεία ανοιχτού κώδικα τα οποία θα μπορούν να «κατανοήσουν» εικόνες, βίντεο, ήχο και άλλο περιεχόμενο και να ψάξουν και να ερευνήσουν εύκολα και απλά τον τομέα που τους ενδιαφέρει».
Ποιες τεχνολογίες και συστήματα βασισμένα στο Memex είναι θεωρητικά δυνατόν να αναπτυχθούν σε άλλους τομείς της τεχνολογίας;
«Οι εξελιγμένες μηχανές αναζήτησης χρησιμοποιούνται ήδη στις αστυνομικές υπηρεσίες με σκοπό να αποκαλύψουν τη κρυμμένη στο Internet σωματεμπορία, την εμπορία ναρκωτικών και άλλες παράνομες ενέργειες.
Οι εφαρμογές, οι τεχνολογίες και τα συστήματα τα οποία βασίζονται στο Memex ήδη βοηθούν τις Αρχές να πολεμήσουν το έγκλημα και να σώσουν ζωές και πρόσφατα έχουν περάσει στη NASA με σκοπό να βοηθήσουν την επιστήμη και την έρευνα του Διαστήματος».