Το να κάνεις έναν ψηφιακό χαρακτήρα να εκφράζεται όπως ένα πραγματικό πρόσωπο παραμένει ένα αγκάθι στα πλευρά πολλών τρισδιάστατων παιχνιδιών και εφαρμογών. Με το άνοιγμα του Audio2FaceΗ NVIDIA παρέχει στους προγραμματιστές και τα στούντιο μια άμεση διαδρομή για αξιόπιστο συγχρονισμό φωνής και χειρονομιών προσώπου, τόσο σε πραγματικό χρόνο όσο και σε offline παραγωγή.
Η καινοτομία δεν είναι ο ίδιος ο συγχρονισμός, αλλά η λειτουργία πρόσβασης: το εργαλείο γίνεται ανοιχτού κώδικα (Apache 2.0), έτσι ώστε ο καθένας να μπορεί να αξιολογήσει, να ενσωματώσει και να προσαρμόσει τα στοιχεία χωρίς εμπόδια αδειοδότησης. Αυτό διευκολύνει την οδήγηση από μεγάλες και μικρές ομάδες πιο εκφραστικά avatars χωρίς κουραστικές διαδικασίες χειροκίνητης κίνησης.
Τι είναι το Audio2Face και ποιες αλλαγές κάνει επειδή είναι ανοιχτού κώδικα;

Το Audio2Face χρησιμοποιεί το Audio2Face. Γενετική AI να αναλύσει χαρακτηριστικά ομιλίας—φωνήματα, τονισμό, ακόμη και συναισθηματικές αποχρώσεις—και να τα μετατρέψει σε δεδομένα κίνησης προσώπου. Το σύστημα συγχρονίστε τα χείλη, τα μάγουλα και τα φρύδια με ακρίβεια, είτε πρόκειται για ζωντανές μεταδόσεις είτε για προ-αποδοσμένες σκηνές.
Κατά το άνοιγμα του έργου με Άδεια Apache 2.0, η εταιρεία επιτρέπει την ελεύθερη πρόσβαση σε κώδικα, μοντέλα και εργαλεία, το οποίο επιταχύνει τον πειραματισμό, επιτρέπει τους τεχνικούς ελέγχους και ενθαρρύνει τη συνεισφορά της ακαδημαϊκής και βιομηχανικής κοινότητας. Με άλλα λόγια, λιγότερες τριβές στις δοκιμές, τις επαναλήψεις και την ανάπτυξη.
Ο στόχος είναι σαφής: να προσφέρουμε ποιοτική κίνηση προσώπου σε περισσότερα... βιντεοπαιχνίδια, εφαρμογές 3D και ψηφιακές εμπειρίες, μειώνοντας το κόστος και τον χρόνο παραγωγής χωρίς να θυσιάζεται η εκφραστική λεπτομέρεια.
Όλα όσα έχει κυκλοφορήσει η NVIDIA: SDK, μοντέλα και εκπαίδευση

Η εταιρεία δημοσίευσε το Audio2Face SDK με βιβλιοθήκες και τεκμηρίωση για την εκτέλεση κινούμενων εικόνων στη συσκευή ή στο cloud. Υπάρχουν επίσης πρόσθετα αναφοράς που απλοποιούν τη διαδικασία για μηχανές και λογισμικό που χρησιμοποιούνται ευρέως στον κλάδο.
Η συσκευασία περιλαμβάνει μοντέλα παλινδρόμηση (v2.2) και διάχυση (v3.0) προσανατολισμένος σε συγχρονισμός χειλιών, εκτός από τα μοντέλα Audio2Emotion (παραγωγή έκδοσης 2.2 και πειραματική έκδοση 3.0) ικανό να συναγάγει συναισθηματικές καταστάσεις από τον ήχο.
Για όσους χρειάζεται να το πάρουν στο χωράφι τους, το Πλαίσιο Εκπαίδευσης (v1.0) και δείγματα δεδομένων. Αυτό επιτρέπει την προσαρμογή των μοντέλων σε γλώσσες, προφορές ή στυλ ερμηνείας συγκεκριμένα, ακόμη και σε διαφορετικά «εξέδρες» περιποιήσεις προσώπου.
Η προσφορά ολοκληρώνεται με επίσημα πρόσθετα για Autodesk Maya (έκδοση 2.0) y Unreal Engine 5 (v2.5, συμβατό με UE 5.5 και 5.6), σχεδιασμένο για ενσωμάτωση σε επαγγελματικές ροές εργασίας χωρίς να χρειάζεται να επανεφεύρουμε τον τροχό.
Ενσωμάτωση με UE5 και Maya, απόδοση και απαιτήσεις

Η προσέγγιση της NVIDIA είναι να έτοιμα πρόσθετα και παραδείγματα για να ξεκινήσετε γρήγορα με την Unreal Engine 5 και την Maya, με δοκιμαστικές σκηνές και οδηγούς που βοηθούν στην επικύρωση των αποτελεσμάτων από την πρώτη κιόλας μέρα.
Η εκτέλεση μπορεί να γίνει σε πραγματικό χρόνο ή σε offline λειτουργία, ανάλογα με το έργο. Ενώ συνιστάται η επιτάχυνση της GPU, οι προγραμματιστές μπορούν να εξετάσουν διαφορετικές διαμορφώσεις, δίνοντας προτεραιότητα στην ποιότητα, την καθυστέρηση ή το κόστος ανάλογα με την περίπτωση χρήσης.
Χάρη στο πλαίσιο εκπαίδευσης, οι τεχνικές ομάδες μπορούν να εξειδικεύσουν το σύστημα ώστε να πρόσθετες γλώσσες και παραλλαγές ομιλίας, το οποίο είναι το κλειδί αν ψάχνετε για αξιόπιστο συγχρονισμό χειλιών σε πολλές αγορές.
Ως μέρος του οικοσυστήματος τεχνητής νοημοσύνης της μάρκας —με λύσεις όπως ACE, Edify και τα RTX NIMs—, Το Audio2Face εντάσσεται σε σύγχρονες διαδικασίες που συνδυάζουν τη δημιουργία, την αλληλεπίδραση και την κινούμενη εικόνα.
Υιοθεσία και πραγματικές περιπτώσεις στον κλάδο

Η τεχνολογία υπάρχει ήδη σε εμπορικά έργα και εργαλεία τρίτων. Το Αγρόκτημα 51 Το χρησιμοποιεί στο Chernobilite 2: Exclusion Zone, και Survios έχει βελτιστοποιήσει την επεξεργασία του προσώπου στο Alien: Rogue Incursion Evolved Edition για να πετύχει πιο καθηλωτικές σκηνές.
Στον τομέα του δημιουργικού λογισμικού, Reallusion ενσωμάτωσε το Audio2Face στο iClon και το Character Creator, συνδυάζοντάς το με AccuLip και λειτουργίες μαριονέτας προσώπου για προηγμένη επεξεργασία.
Επιπλέον, μελέτες και πάροχοι όπως Codemasters, NetEase, Perfect World Games, GSC Game World, Convai, Inworld AI, Streamlabs y UneeQ Digital Humans είναι μεταξύ εκείνων που υιοθετούν ή ενσωματώνουν αυτήν τη λύση.
Το πεδίο εφαρμογής του δεν περιορίζεται στα παραδοσιακά παιχνίδια: υπάρχουν περιπτώσεις μέσα ενημέρωσης, ψυχαγωγία και εξυπηρέτηση πελατών, όπου τα εκφραστικά avatar και η αλληλεπίδραση σε πραγματικό χρόνο προσθέτουν αξία και υποστήριξη.
Εναλλακτικές λύσεις, κοινότητα και επόμενα βήματα

Το Audio2Face δεν είναι η μόνη επιλογή στην αγορά. Στο οικοσύστημα Unreal, OVR Lip Sync και η ενσωμάτωσή του με το MetaHuman Creator προσφέρουν έγκυρες διαδρομές, αν και δεν είναι ανοιχτού κώδικα και συνήθως απαιτούν χειροκίνητες ρυθμίσεις για άψογη εφαρμογή σε κάθε έργο.
Η βασική διαφορά είναι στο άνοιγμα: με κώδικας, μοντέλα και διαθέσιμη εκπαίδευση, Η προσφορά της NVIDIA διευκολύνει τις συνεισφορές, τους ελέγχους και τις προσαρμογές, εκτός από έναν οδικό χάρτη που καθοδηγείται από την κοινότητα.
Η εταιρεία ενθαρρύνει τους προγραμματιστές, τους φοιτητές και τους ερευνητές να συνεργαστούν μέσω του Διακομιστής Audio2Face Discord, κοινοποιήστε την πρόοδο και προτείνετε βελτιώσεις για νέες περιπτώσεις χρήσης.
Για τις ομάδες που εξακολουθούν να διστάζουν, το σημείο εκκίνησης είναι σαφές: δοκιμάστε το Πρόσθετα UE5 και Maya, αξιολογήστε την καθυστέρηση και την ποιότητα και, εάν είναι απαραίτητο, εκπαιδεύστε με τα δικά σας δεδομένα για να πετύχετε τον συγχρονισμό χειλιών στις γλώσσες και τα στυλ που απαιτούνται από κάθε παραγωγή.
Με τη μετάβαση στο ανοιχτό κώδικα, αυτή η τεχνολογία ταιριάζει καλύτερα σε περιορισμένους προϋπολογισμούς και επιτρέπει σε περισσότερα στούντιο να οδηγήσουν τους χαρακτήρες τους σε ένα επίπεδο... εκφραστικότητα και συγχρονισμός η οποία προηγουμένως απαιτούσε περισσότερους πόρους. Μια ρεαλιστική κίνηση που θα μπορούσε να επιταχύνει την υιοθέτηση του συγχρονισμού χειλιών με τεχνητή νοημοσύνη σε κάθε είδους διαδραστικές εμπειρίες.