Η χαρτογράφηση του περιβάλλοντός των ρομπότ βελτιώνει τους υπάρχοντες αλγόριθμους αναγνώρισης αντικείμενων

Από Egno Editorial στις 24 Ιουλίου 2015

Την περασμένη εβδομάδα, στο συνέδριο για τις Ρομποτικές Επιστήμες και Συστήματα, μέλη της ομάδας του Leonard παρουσίασαν μια νέα εργασία που αποδεικνύει πώς μπορεί να χρησιμοποιηθεί η τεχνική SLAM για να βελτιώσει τα συστήματα αναγνώρισης αντικείμενων, που θα είναι ένα βασικό συστατικό των μελλοντικών ρομπότ που πρέπει να διαχειρίζονται τα γύρω τους αντικείμενα με αυθαίρετο τρόπο. Η ομάδα του John Leonard στο Τμήμα Μηχανολόγων Μηχανικών του MIT ειδικεύεται στο SLAM ή στον ταυτόχρονο εντοπισμό και τη χαρτογράφηση (simultaneous localization and mapping), την τεχνική με την οποία τα κινούμενα αυτόνομα ρομπότ χαρτογραφούν το περιβάλλον τους και καθορίζουν τις θέσεις τους.

Το σύστημα χρησιμοποιεί τις πληροφορίες SLAM για να διευρύνει τους υπάρχοντες αλγόριθμους αναγνώρισης αντικείμενων. Επομένως, η απόδοσή του θα μπορούσε να συνεχίζει να βελτιώνεται καθώς οι ερευνητές της περιοχής των υπολογιστών θα αναπτύσσουν καλύτερα λογισμικά αναγνώρισης και αυτοί της περιοχής της ρομποτικής θα αναπτύσσουν καλύτερα το λογισμικό SLAM.

«Αν θεωρηθεί η αναγνώριση αντικειμένων σαν ένα μαύρο κουτί και το SLAM σαν ένα μαύρο κουτί, πώς θα ενσωματωθούν αυτά τα δυο με έναν ωραίο τρόπο;», διερωτάται ο Sudeep Pillai, μεταπτυχιακός φοιτητής στην επιστήμη των υπολογιστών και της μηχανικής και πρώτος στη σειρά των συγγραφέων της νέας εργασίας. «Πώς μπορείς να ενσωματώσεις τις πιθανότητες της κάθε οπτικής γωνίας, κατά την πάροδο του χρόνου; Αυτό είναι που θέλαμε πραγματικά να πετύχουμε».

Ωστόσο, παρότι εργαστήκαμε με το υπάρχον SLAM και τους υπάρχοντες αλγορίθμους αναγνώρισης αντικείμενων και παρά τη χρήση μόνο της εξόδου μιας συνηθισμένης βιντεοκάμερας, η απόδοση του συστήματος είναι ήδη συγκρίσιμη με εκείνη ρομποτικών συστημάτων αναγνώρισης αντικείμενων, ειδικού σκοπού, που χειρίζονται μετρήσεις βάθους καθώς και οπτικές πληροφορίες. Και φυσικά, επειδή το σύστημα μπορεί να συνενώνει πληροφορίες που λαμβάνονται από διαφορετικές γωνίες της κάμερας, πορεύεται πολύ καλύτερα από ότι τα συστήματα αναγνώρισης αντικειμένων που προσπαθούν να ταυτίσουν τα αντικείμενα με ακίνητες εικόνες.

Πριν «αποτολμήσουν» μια εικασία σχετικά με το ποια αντικείμενα περιέχει μια εικόνα, λέει ο Pillai, τα νεότερα συστήματα αναγνώρισης αντικειμένων πρώτα προσπαθούν να προσδιορίσουν τα όρια μεταξύ των αντικειμένων. Στη βάση μιας προκαταρκτικής ανάλυσης αλλαγής χρωμάτων, θα χωρίσουν μια εικόνα σε ορθογώνιες περιοχές που πιθανώς περιέχουν κάποιου είδους αντικείμενα. Στη συνέχεια θα τρέξουν έναν αλγόριθμο αναγνώρισης μόνο στα pixels στο εσωτερικό του κάθε ορθογώνιου.

Για να έχει ένα καλό αποτέλεσμα, ένα κλασσικό σύστημα αναγνώρισης αντικειμένων μπορεί να χρειαστεί να επανασχεδιάσει εκείνα τα ορθογώνια χιλιάδες φορές. Από ορισμένες προοπτικές, για παράδειγμα όταν τα δύο αντικείμενα βρίσκονται το ένα δίπλα στο άλλο, μπορεί να μοιάζουν σαν ένα, ιδιαίτερα αν είναι παρόμοια χρωματισμένα. Το σύστημα θα πρέπει να ελέγξει την υπόθεση ότι οι όγκοι είναι μαζί, καθώς και υποθέσεις που τους αντιμετωπίζουν ως ξεχωριστούς.

Όμως, επειδή ένας χάρτης SLAM είναι τρισδιάστατος, κάνει καλύτερα τη δουλειά της διάκρισης των αντικειμένων που βρίσκονται κοντά το ένα στο άλλο από αυτή που μπορεί η μονής-προοπτικής ανάλυση. Το σύστημα, που επινοήθηκε από τους Pillai και Leonard (ο δεύτερος είναι καθηγητής μηχανικής και μηχανικής των ωκεανών) χρησιμοποιεί το χάρτη SLAM για να καθοδηγήσει την κατάτμηση των εικόνων που λήφθηκαν από την κάμερα του πριν να τις τροφοδοτήσουν στον αλγόριθμο αναγνώρισης αντικείμενων. Έτσι, σπαταλά λιγότερο χρόνο σε αναληθείς υποθέσεις. Πιο σημαντικό: τα δεδομένα SLAM αφήνουν το σύστημα να συσχετίσει την κατάτμηση των εικόνων που λήφθηκαν από διαφορετικές οπτικές γωνίες. Αναλύοντας τα τμήματα της εικόνας που πιθανότατα απεικονίζουν τα ίδια αντικείμενα από διαφορετικές οπτικές γωνίες βελτιώνει την απόδοση του συστήματος.

Χρησιμοποιώντας μηχανή μάθησης, άλλοι ερευνητές έχουν δημιουργήσει συστήματα αναγνώρισης αντικειμένων που δρουν απευθείας σε λεπτομερείς τρισδιάστατους χάρτες SLAM που δημιουργούνται από δεδομένα που λαμβάνονται από τις κάμερες, όπως το Microsoft Kinect, που κάνουν επίσης μετρήσεις βάθους. Αλλά σε αντίθεση με αυτά τα συστήματα, το σύστημα των Pillai και Leonard μπορεί να αξιοποιήσει το τεράστιο σώμα της έρευνας στα συστήματα αναγνώρισης αντικειμένων που
«εκπαιδεύονται» με εικόνες μονής προοπτικής που λαμβάνονται από τις συνήθεις κάμερες.

Επιπλέον, η απόδοση του συστήματος των Pillai και Leonard είναι ήδη συγκρίσιμη με εκείνη των συστημάτων που χρησιμοποιούν πληροφορίες βάθους. Και είναι πολύ πιο αξιόπιστη σε εξωτερικούς χώρους, όπου οι αισθητήρες βάθους, όπως του Kinect, που εξαρτάται από το υπέρυθρο φως, είναι σχεδόν άχρηστοι.

Η νέα εργασία των Pillai και Leonard περιγράφει τον τρόπο με τον οποίο το SLAM μπορεί να συμβάλλει στη βελτίωση της ανίχνευσης αντικειμένων, αλλά στο πλαίσιο των εργασιών, ο Pillai διερευνά κατά πόσον η ανίχνευση αντικειμένων μπορεί ομοίως να βοηθήσει το SLAM. Μία από τις κύριες προκλήσεις στο SLAM είναι αυτό που οι ρομποτιστές αποκαλούν «κλειστό βρόχο». Καθώς ένα ρομπότ δημιουργεί ένα χάρτη του περιβάλλοντός του, μπορεί να βρίσκει τον εαυτό του κάπου που είναι ήδη, ας πούμε εισέρχεται σε μια αίθουσα, από μια άλλη πόρτα. Το ρομπότ πρέπει να είναι σε θέση να αναγνωρίσει περιοχές που έχει επισκεφθεί προηγουμένως, έτσι ώστε να μπορεί να συγχωνεύσει τα δεδομένα της χαρτογράφησης που αποκτώνται από διαφορετικές οπτικές γωνίες.

Η αναγνώριση αντικειμένων θα μπορούσε να βοηθήσει σε αυτό το πρόβλημα. Εάν ένα ρομπότ μπει σε ένα δωμάτιο για να βρει ένα τραπέζι συσκέψεων με ένα laptop, μια κούπα καφέ και ένα σημειωματάριο στο ένα άκρο του, θα μπορούσε να συναγάγει ότι είναι η ίδια αίθουσα όπου προηγουμένως εντοπίσει ένα laptop, μια κούπα καφέ και σημειωματάριο σε κοντινή απόσταση.

«Η ικανότητα να εντοπίζει αντικείμενα είναι εξαιρετικά σημαντική για τα ρομπότ που θα πρέπει να εκτελέσουν χρήσιμες εργασίες σε καθημερινά περιβάλλοντα», λέει ο Dieter Fox, καθηγητής της επιστήμης των υπολογιστών και της μηχανικής στο Πανεπιστήμιο της Ουάσιγκτον. «Η εργασία αυτή δείχνει πολύ ελπιδοφόρα αποτελέσματα για το πώς ένα ρομπότ μπορεί να συνδυάσει πληροφορίες που παρατηρούνται από πολλαπλές οπτικές γωνίες για να επιτευχθεί αποτελεσματική και ισχυρή
ανίχνευση αντικειμένων».

Πηγή: Massachusetts Institute of Technology