Έριδες γύρω από την Τεχνητή Νοημοσύνη

Apr 13, 2024

Στη διαμάχη ανάμεσα στους New York Times και την OpenAI έχουμε αναφερθεί στο παρελθόν. Ας θυμηθούμε απλώς ότι η εφημερίδα έχει καταθέσει μήνυση εναντίον της εταιρείας για λογοκλοπή. Για το ό,τι δηλαδή επιστρέφει ως αποτέλεσμα ολόκληρα αποσπάσματα από άρθρα της χωρίς ν’ αναφέρει την πηγή και χωρίς ν’ αποζημιώνει τους δημιουργούς. Η OpenAI, από την πλευρά της, υποστηρίζει ότι η εφημερίδα «ξεγέλασε» το Chat GPT για να κάνει κάτι τέτοιο.

The New York Times v. OpenAI: The Biggest IP Case Ever | Sunstein LLP - JDSupra

Οι New York Times, όμως, χρησιμοποιούν το βαρύ τους όπλο, τις αποκαλύψεις, για να μην αφήσουν την OpenAI σε ησυχία. Την περασμένη Δευτέρα παρουσίασαν λεπτομερώς ορισμένες πρακτικές με τις οποίες οι εταιρείες ΤΝ εξασφάλισαν υψηλής ποιότητας δεδομένα για να εκπαιδεύσουν το λογισμικό τους. Και οι πρακτικές αυτές βρίσκονται στη θολή γκρίζα περιοχή του νόμου περί πνευματικών δικαιωμάτων.

Έτσι, η OpenAI, προσπαθώντας να εξασφαλίσει δεδομένα εκπαίδευσης, φέρεται να ανέπτυξε το 2021 το μοντέλο μεταγραφής ήχου Whisper και να χρησιμοποίησε πάνω από ένα εκατομμύριο ώρες βίντεο στο YouTube για να εκπαιδεύσει το GPT-4, το πιο προηγμένο μεγάλο γλωσσικό μοντέλο της. Οι New York Times υποστηρίζουν ότι η εταιρεία γνώριζε ότι αυτό ήταν νομικά αμφισβητήσιμο.

Η εκπρόσωπος της OpenAI, Λίντσεϊ Χελντ, δήλωσε στον ιστότοπο The Verge, που έκανε μια σχετική έρευνα, ότι η εταιρεία επιμελείται «μοναδικά» σύνολα δεδομένων για κάθε ένα από τα μοντέλα της για να «βοηθήσει στην κατανόηση του κόσμου» και να διατηρήσει την παγκόσμια ερευνητική της ανταγωνιστικότητα. Η Χελντ πρόσθεσε ότι η εταιρεία χρησιμοποιεί «πολυάριθμες πηγές, συμπεριλαμβανομένων των δημόσια διαθέσιμων δεδομένων αλλά και των δεδομένων που δεν είναι δημόσια αλλά της διατίθονται μέσω συμφωνιών» και ότι εξετάζει τη δημιουργία δικών της συνθετικών δεδομένων.

Η ιδέα πίσω από τα συνθετικά δεδομένα είναι ότι τα μοντέλα τεχνητής νοημοσύνης μπορούν να δημιουργήσουν νέα κείμενα κι αυτά στη συνέχεια μπορούν να χρησιμοποιηθούν για την εκπαίδευση των μοντέλων. Όμως τέτοια δεδομένα είναι πιθανόν να αποβούν επικίνδυνα καθώς η ΤΝ μπορεί να κάνουν λάθη, ακόμα και όταν στηρίζεται σε κείμενα που έχουν παραχθεί από ανθρώπους. Όταν στηριχθεί σε μετα-κείμενα δεν θα είναι τα λάθη πολύ περισσότερα; Κι επίσης, νομικά, το παράγωγο κείμενο δεν υπόκειται, άραγε, και αυτό στους νόμους περί πνευματικής ιδιοκτησίας;

Απαντώντας σε ερώτηση του The Verge, ο εκπρόσωπος της Google, Ματ Μπράιαντ δήλωσε ότι η εταιρεία έχει «δει ανεπιβεβαίωτες αναφορές» για τη δραστηριότητα της OpenAI, προσθέτοντας ότι οι Όροι Χρήσης της Google απαγορεύουν την μη εξουσιοδοτημένη απόσπαση περιεχομένου από το YouTube. Ο Μπράιαντ εξήγησε επίσης ότι η Google λαμβάνει «τεχνικά και νομικά μέτρα» για να αποτρέψει μια τέτοια χρήση.

Ποιος όμως μπορεί ν’ αποτρέψει την ίδια την Google να χρησιμοποιήσει δεδομένα από το YouTube ή τις άλλες της υπηρείες; Σύμφωνα με τους New York Times κανείς. Η εταιρεία αναθεώρησε μάλιστα την πολιτική απορρήτου της, πέρυσι, ώστε να μπορεί να χρησιμοποιεί δημόσια διαθέσιμο υλικό για την ανάπτυξη περισσότερων προϊόντων ΤΝ. Ο Μπράιαντ, βέβαια, δήλωσε ότι η εταιρεία έχει εκπαιδεύσει τα μοντέλα της «σε κάποιο περιεχόμενο του YouTube, σύμφωνα με τις συμφωνίες μας με τους δημιουργούς του YouTube». Άρα η Google υποστηρίζει ότι το έκανε νόμιμα.

Στη Meta, στελέχη και δικηγόροι συζητούσαν πέρυσι πώς να αποκτήσουν περισσότερα δεδομένα για την ανάπτυξη ΤΝ και συζήτησαν την αγορά ενός μεγάλου εκδοτικού οίκου όπως ο Simon & Schuster. Σε κατ' ιδίαν συναντήσεις, στάθμισαν το ενδεχόμενο να βάλουν έργα που προστατεύονται από πνευματικά δικαιώματα στο μοντέλο της τεχνητής νοημοσύνης της Meta, ακόμη και αν αυτό σήμαινε ότι θα τους μηνύσουν αργότερα, σύμφωνα με τις ηχογραφήσεις των συναντήσεων, οι οποίες περιήλθαν στην κατοχή των New York Times.

Όλα τα παραπάνω δείχνουν ότι οι εκδοτικοί οργανισμοί, μετά το φιάσκο που έπαθαν από τα social media, έχουν πια βάλει μυαλό και προσπαθούν να κατοχυρώσουν τα δικαιώματά τους όσο είναι ακόμα νωρίς. Βεβαιως, οι εταιρείες τεχνολογίας πάλι προηγήθηκαν αλλά τουλάχιστον τώρα μπορεί οι εκδότες να ξύπνησαν αργά αλλά δεν πιάστηκαν στον ύπνο.

Από το Παράθυρο του «Πολίτη της Κυριακής»

Στο ραδιόφωνο

Ψηφιακές Κυριακές

Κάθε Κυριακή, στη μία το μεσημέρι, μας ακούτε από τις συχνότητες του Πρώτου Προγράμματος της ΕΡΤ σε όλη την Ελλάδα αλλά και από το το ertecho.gr

✔️Καλεσμένος στις «Ψηφιακές Κυριακές» του Πρώτου, ο Καθηγητής και Αντιπρόεδρος του Τμήματος Ιστορίας του Ιονίου Πανεπιστημίου, Κώστα Αγγελάκος με θέμα το συνέδριο Ψηφιακές Ανθρωπιστικές Επιστήμες, Διεπιστημονικές Θεωρήσεις που διοργανώνεται στις 18 Απριλίου στην Κέρκυρα. To link για να το παρακολουθήσετε είναι το https://ionio-gr.zoom.us/j/98965843483

✔️Συναντήσαμε τον Vincent Lowy, διευθυντή της Ανωτάτης Σχολής Κινηματογράφου Louis Lumière που ήρθε στην Αθήνα με την ευκαιρία του 24ου Φεστιβάλ Γαλλόφωνου Κινηματογράφου και μας μίλησε για τον κινηματογράφο στ' αυτιά μας. Ακούμε κι ένα μικρό απόσπασμα από την ηχητική μυθοπλασία Le Complexe du distributeur των Sylvain Carton και Renaud Perret.

Καθρέφτης

Σχεδόν καθημερινά, ο Χρήστος Μιχαηλίδης με φιλοξενεί στον «Καθρέφτη» του Πρώτου. Και η αλήθεια είναι ότι το ευχαριστιόμαστε και οι δύο.

✔️Η δημοφιλής υπηρεσία streaming μουσικής Spotify εισάγει την Τεχνητή Νοημοσύνη στη δημιουργία λίστας αναπαραγωγής. Η νέα επιλογή επιτρέπει στους χρήστες να δημιουργούν μια λίστα αναπαραγωγής με βάση γραπτή υπόδειξη (prompt).

✔️Η ταυτότητα του διοικητή της ισραηλινής μονάδας 8200 είναι ένα καλά φυλασσόμενο μυστικό. Κατέχει έναν από τους πιο ευαίσθητους ρόλους στον στρατό, καθώς ηγείται μιας από τις ισχυρότερες υπηρεσίες παρακολούθησης στον κόσμο. Ωστόσο, μετά από δύο δεκαετίες ηγεσίας του η βρετανική εφημερίδα Guardian αποκάλυψε το όνομά του ακολουθώντας τα ψηφιακά του ίχνη.

Να έχετε μια υπέροχη εβδομάδα και ραντεβού το ερχόμενο Σαββατοκύριακο

Γεύση Καϊμάκη

Έριδες γύρω από την Τεχνητή Νοημοσύνη

Στο ραδιόφωνο

Ψηφιακές Κυριακές

Καθρέφτης