Μηχανές που αναγνωρίζουν συναισθήματα: επιστημονική φαντασία ή σύγχρονη πραγματικότητα;

 Created on Tuesday 27 Nov 2007
by Κώστας Καρπούζης
Author home page
Κώστας Καρπούζης's picture
Pin It
1191
voted

Μια σκηνή από την ταινία 2001: Η Οδύσσεια του ΔιαστήματοςΗ πρώτη μας επαφή με αυτήν την τεχνολογία έγινε στην ταινία «2001, η οδύσσεια του διαστήματος». Σε αυτήν την μνημειώδη ταινία του 1968, ο HAL, ένας υπολογιστής, παρακολουθεί τους αστροναύτες, εκφράζει συναισθήματα, παίρνει ακόμα και αποφάσεις για την τύχη μιας διαστημικής αποστολής.

Τι είναι όμως αυτό που κάνει τόσο δύσκολη την υλοποίηση τέτοιων υπολογιστών; Σκεφτείτε μόνο ότι πρέπει να συνδυάσουμε ιδέες από τρία διαφορετικά επιστημονικά πεδία:

  • αναγνώριση, που σημαίνει ότι πρέπει να χρησιμοποιήσουμε μεθόδους μηχανικής μάθησης για να εκπαιδεύσουμε τους υπολογιστές μας να καταλαβαίνουν αυτά που βλέπουν με την κάμερά τους ή ακούν με το μικρόφωνό τους
  • συναισθήματα, έννοιες τόσο υποκειμενικές και ασαφείς που ακόμα και οι ίδιοι συχνά δε μπορούμε να ξεδιαλύνουμε, αλλά για τις οποία έχουμε στη διάθεσή μας εμπειρία και γνώση χιλιετιών
  • υλοποίηση σε υπολογιστές, πράγμα που σημαίνει πως όλα όσα θεωρούμε δεδομένα όταν κοιτάμε το πρόσωπο ενός ανθρώπου ή ακούμε τη φωνή του, πρέπει να περάσουν μέσα από μια κάμερα ή ένα μικρόφωνο, να εκφραστούν με pixels και κυματομορφές ή, ακόμα χειρότερα, με αριθμούς και εξισώσεις, και τελικά να μετατραπούν σε μια λέξη που έχει νόημα μόνο για εμάς.

Ειδικά αυτό το τελευταίο, το να ταξινομούν αριθμούς, χρώματα, ήχους ή οτιδήποτε άλλο σε κατηγορίες που εμείς οι ίδιοι θα ορίσουμε, οι υπολογιστές το κάνουν αρκετά αποτελεσματικά. Το πρόβλημα της ταξινόμησης υλοποιείται συνήθως σε υπολογιστές εκπαιδεύοντάς τους με πολυάριθμα παραδείγματα κάθε κατηγορίας (για παράδειγμα, φωτογραφίες από χαρούμενα ή λυπημένα πρόσωπα). Από τη μεριά του υπολογιστή, τα παραδείγματα αυτά μετατρέπονται σε αριθμούς που περιγράφουν τα χαρακτηριστικά τους (π.χ. η απόσταση ανάμεσα στο μάτι και το φρύδι ή η μετακίνηση των χειλιών όταν χαμογελάμε) - αυτοί οι αριθμοί, σε συνδυασμό με το τι βλέπουμε σε κάθε εικόνα (χαρούμενο ή λυπημένο πρόσωπο) μεταβάλλουν προοδευτικά αυτό που έχει ήδη μάθει να αναγνωρίζει ο υπολογιστής, αλλάζοντας απειροελάχιστα κάθε φορά τους συντελεστές ενός συνόλου εξισώσεων. Η λειτουργία αυτών των εξισώσεων και των συντελεστών τους συνδέει ουσιαστικά τα χαρακτηριστικά κάθε εικόνας με την τελική απόφαση για το συναίσθημα: αυτή η σχέση μοιάζει αρκετά με το πώς τα κύτταρα του εγκεφάλου μας αναπαριστούν τη γνώση, μαθαίνουν και προσαρμόζονται, κι έτσι μια τέτοια αρχιτεκτονική μηχανικής μάθησης ονομάστηκε "νευρωνικό δίκτυο".

Τα βασικά συναισθήματα όπως αποδίδονται στην ταινία Inside OutΧρειάζεται λοιπόν να αποφασίσουμε ποιες θα είναι αυτές οι κατηγορίες που αναγνωρίζουμε. Σε ό,τι αφορά στα συναισθήματα, η πιο δημοφιλής θεωρία, αυτή του Paul Ekman, αναφέρει πως υπάρχουν έξι καθολικά (universal) συναισθήματα (χαρά, λύπη, έκπληξη, φόβος, απέχθεια, θυμός), τα οποία είναι αναγνωρίσιμα από όλους τους ανθρώπους, ανεξάρτητα από πολιτισμικό ή κοινωνικό υπόβαθρο. Έτσι, αρκεί να εκπαιδεύσουμε τους υπολογιστές μας να ταξινομούν αυτά που ακούν και βλέπουν σε μια από αυτές τις έξι κατηγορίες. Αυτό σε καμιά περίπτωση δε σημαίνει ότι μόνο αυτές οι έξι κατηγορίες υπάρχουν ή ότι ο μόνος τρόπος να εκφράσουμε τη λύπη μας είναι να σουφρώσουμε φρύδια και στόμα και να χαμηλώσουμε τα μάτια - αυτό που ουσιαστικά λέει ο Ekman είναι ότι οι συγκεκριμένες κατηγορίες συναισθημάτων (τις οποίες στην πορεία εμπλούτισε με κάποιες ακόμα, όπως η περιφρόνηση, εκφράζονται στο πρόσωπο των ανθρώπων με τέτοιο τρόπο, ώστε να γίνονται αντιληπτές με το ίδιο νόημα, πάντα, παντού και από όλους, ακόμα και από τα μωρά.

Ο υπολογιστής μπορεί να εντοπίσει τα χαρακτηριστικά ενός εκφραστικού προσώπου

Μετά από είκοσι σχεδόν χρόνια που οι επιστήμονες υπολογιστών ασχολούνται με τον τομέα της συναισθηματικής υπολογιστικής (affective computing), έχουμε πια φτάσει σε σημείο να αναλύουμε με πολύ μεγάλη επιτυχία τις φωτογραφίες, τα βίντεο, την ομιλία, ακόμα και τα κείμενα που γράφουμε στο twitter και τα υπόλοιπα κοινωνικά δίκτυα. Στην τελευταία περίπτωση μάλιστα, αυτό που φαινόταν κάποτε σαν κάτι που θα ταίριαζε περισσότερο σε ταινίες επιστημονικής φαντασίας ή σε ένα δυστοπικό σενάριο, δηλαδή το να γίνεται αυτόματη ανάλυση μεγάλου αριθμού από γνώμες, χαρακτηρισμούς ή κείμενα που γράφονται από χρήστες του διαδικτύου, έχει μετατραπεί σε ένα πανίσχυρο εργαλείο μάρκετινγκ και ανάλυσης πολιτικής γνώμης. Έτσι, οι εταιρίες που παράγουν ένα καινούριο προϊόν μπορούν άμεσα και γρήγορα να ελέγξουν τις αντιδράσεις των καταναλωτών στα κοινωνικά δίκτυα ή τα πολιτικά κόμματα να μετρήσουν τον αντίκτυπο που έχουν οι θέσεις τους (μέρες που είναι τώρα...). Σε κάποιο επόμενο και όχι πολύ μακρινό στάδιο, θα είναι εφικτό να δημιουργείται ένα ηλεκτρονικό προφίλ με τις προτιμήσεις, τις διαθέσεις μας, αλλά και τις πολιτικές μας θέσεις, το οποίο θα τροφοδοτείται σε πραγματικό χρόνο από τα tweets, τα posts, ακόμα και από το ποια μέρη, εστιατόρια και χώρους εργασίας επισκεπτόμαστε. Αντίστοιχα, οι υπολογιστικές εργασίες που κάποτε απαιτούσαν αρκετές ώρες για να ολοκληρωθουν, όπως η ανάλυση μιας εικόνας ή ενός ηχητικού κλιπ σε ό,τι αφορά το συναίσθημα που εκφράζουν, πλέον γίνονται σε κλάσματα του δευτερολέπτου από τα κινητά μας τηλέφωνα ή ακόμα και τις φωτογραφικές μας μηχανές (θυμηθείτε το smile shutter, τη δυνατότητα αυτόματης λήψης φωτογραφίας μόνο όταν όλοι οι εικονιζόμενοι χαμογελούν). Ήδη, στις Η.Π.Α. και στην Ευρώπη αναπτύσσονται εφαρμογές σε κινητά τηλέφωνα που θα εκμεταλλεύονται τους αισθητήρες ήχου, εικόνας, αφής και τα κείμενα που γράφουμε ή τον τόνο της ομιλίας μας, για να υποστηρίξουν χρήστες με κατάθλιψη ή νοητικές διαταραχές. Η ιδέα εδώ είναι ότι οι συσκευές θα μπορούν να παρακολουθούν τη χρήστη ανά πάσα στιγμή και να ενημερώσουν τους οικείους τους ή τον γιατρό τους, αν προβλέψουν ότι ο χρήστης τους θα χρειαστεί άμεσα βοήθεια ή υποστήριξη.

Ελπίζω μόνο να μην προσπαθήσουν να αναλάβουν δράση "για το καλό μας", όπως έκαν ο HAL όταν κατάλαβε ότι οι αστροναύτες πάνε να τον "βγάλουν από την πρίζα"...