ΝΥΤ: Εκπαιδεύοντας το GPT-4 με ένα εκατομμύριο ώρες βίντεο στο YouTube

7 Απριλίου 2024

0

Νωρίτερα αυτήν την εβδομάδα, η Wall Street Journal ανέφερε ότι οι εταιρείες τεχνητής νοημοσύνης προσκρούουν σε τοίχο στην προσπάθεια να συγκεντρώσουν υψηλής ποιότητας δεδομένα εκπαίδευσης.

Οι New York Times με τη σειρά τους παρουσίασαν λεπτομερώς ορισμένους από τους τρόπους με τους οποίους οι εταιρείες κλήθηκαν να αντιμετωπίσουν το συγκεκριμένο πρόβλημα. Αφού επισημαίνουν πως πρόκειται για μια «βουτιά» στη γκρίζα ζώνη του νόμου περί πνευματικών δικαιωμάτων ξεδιπλώνουν την ιστορία με την OpenAI, η οποία, απελπισμένη για δεδομένα, φέρεται να ανέπτυξε το μοντέλο μηχανικής μάθησης για αναγνώριση και μεταγραφή ομιλίας «Whisper». Με τον τρόπο αυτό κατάφερε να ξεπεράσει το εμπόδιο, μεταγράφοντας πάνω από ένα εκατομμύριο ώρες βίντεο στο YouTube για να εκπαιδεύσει το GPT-4.

Σύμφωνα με τους ΝΥΤ η εταιρεία γνώριζε ότι αυτό ήταν νομικά αμφισβητήσιμο, αλλά πίστευε ότι η χρήση που έκανε είναι θεμιτή. Η εκπρόσωπος της OpenAI, Lindsay Held, δήλωσε στο The Verge ότι η εταιρεία επιμελείται «μοναδικά» σύνολα δεδομένων για κάθε ένα από τα μοντέλα της για να «βοηθήσει στην κατανόηση του κόσμου» και να διατηρήσει την παγκόσμια ερευνητική της ανταγωνιστικότητα. Η Held πρόσθεσε ότι η εταιρεία χρησιμοποιεί «πολυάριθμες πηγές, συμπεριλαμβανομένων των «δημόσια διαθέσιμων δεδομένων».

Όλα για τη μάθηση…

Το άρθρο των Times αναφέρει ότι η εταιρεία εξάντλησε τα αποθέματα χρήσιμων δεδομένων το 2021 και συζήτησε τη μεταγραφή βίντεο από το YouTube, podcasts και ηχητικά βιβλία. Μέχρι τότε, είχε εκπαιδεύσει τα μοντέλα της σε δεδομένα που περιλάμβαναν κώδικα υπολογιστή από το Github, βάσεις δεδομένων με κινήσεις σκακιού και περιεχόμενο σχολικών εργασιών από το Quizlet.

Ο εκπρόσωπος της Google, Matt Bryant, δήλωσε στο The Verge ότι η εταιρεία έχει «δει ανεπιβεβαίωτες αναφορές» για τη δραστηριότητα του OpenAI, προσθέτοντας ότι «τόσο τα αρχεία robots.txt όσο και οι όροι υπηρεσίας μας απαγορεύουν την μη εξουσιοδοτημένη απόσπαση ή λήψη περιεχομένου του YouTube».

Κάτι παρόμοιο δήλωσε και ο διευθύνων σύμβουλος του YouTube, Neal Mohan, σχετικά με την πιθανότητα η OpenAI να χρησιμοποίησε το YouTube.

Ο Bryant δήλωσε επίσης ότι η Google λαμβάνει «τεχνικά και νομικά μέτρα» για να αποτρέψει μια μη εξουσιοδοτημένη χρήση «όταν έχουμε σαφή νομική ή τεχνική βάση για να το κάνουμε».

Η Google, το OpenAI και όχι μόνο «παλεύουν» με τα δεδομένα καθώς αυτά «εξατμίζονται γρήγορα». Πιθανές λύσεις για το πρόβλημα αυτό περιλαμβάνουν την εκπαίδευση των μοντέλων σε «συνθετικά» δεδομένα (παράγονται από έναν αλγόριθμο υπολογιστή) που δημιουργούνται από τα δικά τους μοντέλα, αναφέρει η Journal. Άλλη επιλογή των εταιρειών είναι να χρησιμοποιούν δεδομένα είτε έχουν άδεια είτε όχι όμως οι πολλαπλές αγωγές που κατατέθηκαν τον τελευταίο περίπου χρόνο, ο τρόπος αυτός, μάλλον αρχίζει να εκλείπει.

Προηγούμενο άρθρο

Σασμός: Εξομολογήσεις και αποκαλύψεις – Οι εξελίξεις της εβδομάδας

Επόμενο άρθρο

Ημιαγωγοί: Το κρίσιμο δίλημμα των Ολλανδών για τις εξαγωγές της ASML στην Κίνα

ΝΥΤ: Εκπαιδεύοντας το GPT-4 με ένα εκατομμύριο ώρες βίντεο στο YouTube

Όλα για τη μάθηση…

Τεχνητή νοημοσύνη: Κίνδυνος να πάρει τα ηνία από τον άνθρωπο; Επιστημονική φαντασία ή απλά το εγγύς μέλλον;

Η Ευρώπη κινδυνεύει να γίνει παγκόσμιος ουραγός στην τεχνολογία

Dark web: Πώς καταλήγουν τα δεδομένα μας στο σκοτεινό διαδίκτυο – Πώς θα τα κρατήσουμε μακριά

Most Popular

Οι αισθηματικές προβλέψεις Ταρώ την εβδομάδα 25/11 ως 1/12/2024

Η Αλεξίου για την ατάκα της στο «Maestro» για τους «μ$%^#@* άντρες»: «Δεν είστε, παιδιά είσαστε» (vid)

Μπορεί η υπνηλία κατά την διάρκεια της ημέρας να είναι σημάδι άνοιας;

Δώρα Παντέλη: Έκανε το επόμενο βήμα στη σχέση της με το σύντροφό της, John – Η τρυφερή της αφιέρωση σε εκείνον

Recent Comments

Σχετικά Με Εμάς

FOLLOW US