Boximator. Αλλάζοντας τα δεδομένα στην σύνθεση βίντεο μέσω ai
Το Boximator, ένα μοντέλο σύνθεσης βίντεο με τεχνητή νοημοσύνη από την ByteDance Research, φέρνει επανάσταση στον τομέα της παραγωγής βίντεο. Το καινοτόμο σύστημα διπλών περιορισμών και η διαδικασία εκπαίδευσης πολλαπλών σταδίων του προσφέρουν στους χρήστες ασυναγώνιστο έλεγχο στη δημιουργία περιεχομένου βίντεο.
Σε σύγκριση με άλλα AI video generators, όπως το Runway Gen2 και το Pika 1.0, όπως βλέπετε και στην σχετική εικόνα που παραθέτουμε το Boximator αναδεικνύεται ως ο ξεκάθαρος νικητής όσον αφορά την ποιότητα του βίντεο και τον έλεγχο της κίνησης.
Το εργαλείο αυτό επιτρέπει τον λεπτομερή έλεγχο της κίνησης μέσω μιας καινοτόμου προσέγγισης που χρησιμοποιεί περιορισμούς σε σχήμα κουτιού για τον καθορισμό και τον έλεγχο των κινήσεων των αντικειμένων σε όλα τα καρέ του βίντεο.
Βασικά χαρακτηριστικά και λειτουργικότητα του Boximator
Διαισθητική προδιαγραφή κίνησης: Το Boximator επιτρέπει στους χρήστες να επιλέγουν αντικείμενα σε μια εικόνα αναφοράς σχεδιάζοντας πλαίσια γύρω από αυτά. Οι χρήστες μπορούν στη συνέχεια να ορίσουν την τελική θέση ενός αντικειμένου ή ολόκληρη τη διαδρομή κίνησης σε όλα τα καρέ χρησιμοποιώντας πρόσθετα κουτιά και γραμμές, αποφεύγοντας την ανάγκη για μακροσκελείς περιγραφές κειμένου
Αρχιτεκτονική πρόσθετου: Λειτουργεί ως plug-in, ενσωματώνοντας απρόσκοπτα τα υπάρχοντα μοντέλα σύνθεσης βίντεο χωρίς να μεταβάλλει όμως τις βασικές τους δυνατότητες. Αυτό επιτρέπει τη διατήρηση της ποιότητας του βίντεο, ενώ παράλληλα προσθέτει αξιοσημείωτα χαρακτηριστικά ελέγχου της κίνησης.
Σκληρά και μαλακά κουτιά | Hard and Soft Boxes : Το Boximator χρησιμοποιεί δύο τύπους κουτιών για τον έλεγχο κίνησης. Τα σκληρά κουτιά | hard boxes καθορίζουν ακριβείς θέσεις και σχήματα των αντικειμένων σε καρέ κλειδιών, ενώ τα μαλακά κουτιά | soft boxes υποδεικνύουν χαλαρές περιοχές όπου τα αντικείμενα μπορούν να κινηθούν με την πάροδο του χρόνου, παρέχοντας μια ισορροπία μεταξύ ελέγχου και φυσικής κίνησης
Pretraining that is Self-Supervised | Προεκπαίδευση με αυτοεπίβλεψη : Είναι μια μέθοδο “προπόνησης” για την τεχνητή νοημοσύνη ή μοντέλα μηχανικής μάθησης που είναι “αυτο-επιβλεπόμενη”. Αυτό σημαίνει ότι το εργαλείο δεν χρειάζεται εκ των προτέρων επισημασμένα δεδομένα (δηλαδή, δεδομένα που κάποιος έχει ήδη καταχωρίσει τι αντιπροσωπεύει κάθε παράδειγμα) για να μάθει. Αντ’ αυτού, ανακαλύπτει μόνο του τα μοτίβα και τις δομές μέσα στα δεδομένα που έχει.
Επιπλέον, το εργαλείο δημιουργεί “ορατά πλαίσια περίγραμματος” γύρω από τα αντικείμενα σε κάθε πλαίσιο εικόνας. Αυτό σημαίνει ότι για κάθε εικόνα ή καρέ που βλέπει, μπορεί να προσδιορίσει τα όρια ενός αντικειμένου, σχηματίζοντας ένα περίγραμμα γύρω από αυτό. Αυτό βοηθά το μοντέλο να “καταλαβαίνει” πού βρίσκεται κάθε αντικείμενο και πώς κινείται μέσα στον χώρο της εικόνας.
Αυτή η διαδικασία απλοποιεί σημαντικά τη διαδικασία εκπαίδευσης του μοντέλου, επειδή δεν χρειάζεται να του δώσεις εκ των προτέρων πολύ συγκεκριμένες οδηγίες ή επισημάνσεις για κάθε εικόνα. Επίσης, βελτιώνει την ικανότητα του μοντέλου να κατανοεί την κίνηση των αντικειμένων, καθώς μαθαίνει να αναγνωρίζει πώς τα αντικείμενα μετακινούνται από ένα καρέ στο επόμενο.
Προηγμένες επιδόσεις: Το Boximator επιτυγχάνει κορυφαία ποιότητα βίντεο, μετρούμενη με βάση τις βαθμολογίες Fréchet Video Distance (FVD), και προσφέρει απαράμιλλη δυνατότητα ελέγχου της κίνησης. Έχει αποδειχθεί ότι βελτιώνει την ευθυγράμμιση της κίνησης των βασικών μοντέλων, καθιστώντας το προτιμώμενη επιλογή στις αξιολογήσεις των χρηστών.
Πώς λειτουργεί το Boximator
Πάμε όμως να δούμε μια ανάλυση βήμα προς βήμα του τρόπου λειτουργίας του Boximator για να κατανοήσουμε καλύτερα τον τρόπο λειτουργίας του.
Βήμα 1: Επιλογή αντικειμένου
Οι χρήστες ξεκινούν επιλέγοντας αντικείμενα μέσα σε μια εικόνα αναφοράς σχεδιάζοντας σκληρά κουτιά γύρω τους. Αυτό το βήμα επιτρέπει στους χρήστες αφενός να αναγνωρίσουν και αφετέρουν να εντοπίσουν τα αντικείμενα που θέλουν να τους δώσουν κίνηση μέσα στο βίντεο.
Βήμα 2: Καθορισμός κατάστασης κίνησης
Αφού επιλέξουν τα αντικείμενα, οι χρήστες καθορίζουν την κατάσταση κίνησης αυτών των αντικειμένων. Μπορούν να καθορίσουν τόσο την τελική θέση του αντικειμένου ή ολόκληρη τη διαδρομή κίνησης ,σε όλα τα καρέ, χρησιμοποιώντας πρόσθετα πλαίσια και γραμμές. Αυτό μπορεί να γίνει σχεδιάζοντας hard boxes για ακριβή τοποθέτηση ή soft boxes για πιο ευέλικτες περιοχές όπου το αντικείμενο μπορεί να κινηθεί εντός αυτών.
Βήμα 3: Έλεγχος πολλαπλών αντικειμένων
Το Boximator μπορεί να χειριστεί πολλαπλά αντικείμενα ταυτόχρονα, επιτρέποντας στους χρήστες να κινούν πολλά στοιχεία μέσα σε ένα και μόνο καρέ. Κάθε αντικείμενο μπορεί να συσχετιστεί με μοναδικά αναγνωριστικά αντικειμένου, τα οποία βοηθούν τόσο στην παρακολούθηση όσο και τον έλεγχο των κινήσεών τους σε όλα τα καρέ του βίντεο.
Βήμα 4: Hard and Soft Boxes
Το σύστημα χρησιμοποιεί δύο τύπους κουτιών για τον έλεγχο της κίνησης:
- Σκληρά κουτιά | Hard Boxes: Αυτά καθορίζουν την ακριβή θέση και το σχήμα ενός αντικειμένου σε συγκεκριμένα keyframes.
- Μαλακά κουτιά | Soft Boxes : Αυτά υποδεικνύουν ευρύτερες περιοχές όπου το αντικείμενο μπορεί να κινηθεί με την πάροδο του χρόνου, παρέχοντας μια ισορροπία μεταξύ ακριβούς ελέγχου και φυσικής κίνησης. Τα soft boxes μπορούν να εκληφθούν ως πλαίσια , και όχι αυστηρά προκαθορισμένα σημεία όπως τα hrad boxes που μπορούν να δημιουργηθούν από αλγόριθμο με βάση τα καθορισμένα από τον χρήστη πλαίσια ή από συνδυασμό ενός σκληρού πλαισίου και μιας καθορισμένης από τον χρήστη διαδρομής κίνησης.
Βήμα 5: Αρχιτεκτονική plug-in
Το Boximator λειτουργεί ως πρόσθετο plug-in για τα υπάρχοντα μοντέλα διάχυσης βίντεο. Αυτό σημαίνει ότι ενσωματώνεται σε αυτά τα μοντέλα χωρίς να μεταβάλλει τις βασικές τους δυνατότητες, διατηρώντας την ποιότητα του βίντεο ενώ προσθέτει επιπλέον χαρακτηριστικά ελέγχου κίνησης σε αυτό.
Βήμα 6: Προεκπαίδευση με αυτοεπίβλεψη
Κατά τη διάρκεια της εκπαίδευσης, το Boximator χρησιμοποιεί μια προσέγγιση προεκπαίδευσης με αυτοεπίβλεψη όπως προαναφέραμε. Δημιουργεί ορατά πλαίσια οριοθέτησης γύρω από τα αντικείμενα σε κάθε καρέ, γεγονός που απλοποιεί τη διαδικασία εκπαίδευσης και ενισχύει την ικανότητα του μοντέλου να κατανοεί αλλά και να παρακολουθεί την κίνηση των αντικειμένων εντός του βίντεο.
Βήμα 7: Προηγμένη απόδοση
Το Boximator επιτυγχάνει κορυφαία ποιότητα βίντεο, μετρούμενη με βάση τις βαθμολογίες Fréchet Video Distance (FVD), και προσφέρει απαράμιλλη δυνατότητα ελέγχου της κίνησης. Βελτιώνει την ευθυγράμμιση της κίνησης των βασικών μοντέλων και προτιμάται από τους χρήστες για την ικανότητά του να δημιουργεί λεπτομερή και ελεγχόμενα κινούμενα σχέδια.
Ας δούμε τον τρόπο λειτουργίας του από το ακόλουθο διάγραμμα:
To Boximator λειτουργεί μέσω ενός διαδραστικού και οπτικού τρόπου, όπου ο χρήστης πρώτα επιλέγει ένα αντικείμενο από μια εικόνα. Μετά, καθορίζει την κατάσταση κίνησης του αντικειμένου με δύο διαφορετικούς τρόπους: είτε με ένα “τελικό κουτί” (ending box), που δίνει την τελική θέση του αντικειμένου, είτε με ένα “μονοπάτι κίνησης” (motion path), που δείχνει την τροχιά του αντικειμένου, είτε με και τα δύο.
Μπορείς να ελέγξεις όσα αντικείμενα θέλεις, και όλες οι κινήσεις καθοδηγούνται από “σκληρά κουτιά” και “μαλακά κουτιά”, παρέχοντας έλεγχο τόσο στη θέση όσο και στην κίνηση των αντικειμένων. Αυτό καταδεικνύει τη μοναδική δυνατότητα του Boximator να δημιουργήσει πλούσιες και ελεγχόμενες κινήσεις σε βίντεο που χαρακτηρίζονται από ευελιξία και ακρίβεια.
O αναμενόμενος αντίκτυπος του Boximator.
Η εισαγωγή του Boximator σηματοδοτεί αναντίλεκτα ένα σημαντικό βήμα προς πιο ευέλικτες πλατφόρμες παραγωγής βίντεο. Σε άμεση σύγκριση με άλλες γεννήτριες βίντεο τεχνητής νοημοσύνης, όπως το Runway Gen2 και το Pika 1.0, το Boximator αναδεικνύεται ως ο ξεκάθαρος νικητής. Αυτή η αξιολόγηση δεν βασίζεται μόνο σε πειραματισμούς, αλλά υποστηρίζεται επίσης από μελέτες χρηστών, γεγονός που εδραιώνει περαιτέρω την ανώτερη απόδοση του Boximator στην ποιότητα του βίντεο και τον έλεγχο της κίνησης.
Αυτό το εργαλείο προβλέπεται να γίνει ιδιαίτερα αγαπητό στους δημιουργούς περιεχομένου στο TikTok που επιδιώκουν να δίνουν ζωή στις εικόνες τους με ακριβή έλεγχο των κινήσεων των αντικειμένων, ενισχύοντας τον ρεαλισμό και τη δημιουργικότητα των βίντεο που δημιουργούνται μέσω του συγκεκριμένου εργαλείου τεχνητής νοημοσύνης.
Το Boximator της Κινέζικης Bytedance λοιπόν δεν πρέπει να καταταχθεί ως ένα ακόμη εργαλείο τεχνητής νοημοσύνης τα οποία αυτή την περίοδο γνωρίζουν ιδιαίτερη άνθιση εξάλλου.
Θεωρούμε στο Εργαστήριο ΤΠΕ Ήρων ότι θα είναι μια εξέλιξη – ορόσημο που έχει τη δυνατότητα να φέρει επανάσταση στον τομέα της σύνθεσης βίντεο , προσφέροντας στους χρήστες άμεσο και κυρίως εύκολο έλεγχο στη δημιουργία περιεχομένου τους στα social media. Με τις εξαιρετικές αποδόσεις του εργαλείου, η οποία έχει αποδειχθεί τόσο μέσω πειραμάτων όσο και μέσω μελετών χρηστών, το Boximator είναι έτοιμο να συνδιαμορφώσει το μέλλον της παραγωγής βίντεο με χρήση τεχνητής νοημοσύνης.
Θανάσης Δαβαλάς