NVIDIA ने यथार्थवादी वीडियो के संश्लेषण के लिए एक तंत्रिका नेटवर्क बनाया है

वीडियो: NVIDIA ने यथार्थवादी वीडियो के संश्लेषण के लिए एक तंत्रिका नेटवर्क बनाया है

वीडियो: NVIDIA ने यथार्थवादी वीडियो के संश्लेषण के लिए एक तंत्रिका नेटवर्क बनाया है
वीडियो: A YEAR IN ARTIFICIAL INTELLIGENCE : AI IN 2019 2023, मई
NVIDIA ने यथार्थवादी वीडियो के संश्लेषण के लिए एक तंत्रिका नेटवर्क बनाया है
NVIDIA ने यथार्थवादी वीडियो के संश्लेषण के लिए एक तंत्रिका नेटवर्क बनाया है
Anonim
Image
Image

अमेरिकी शोधकर्ताओं ने विभिन्न शैलियों के बीच वीडियो स्थानांतरित करने के लिए एक तंत्रिका नेटवर्क एल्गोरिदम बनाया है। उदाहरण के लिए, इसका उपयोग चेहरे के मॉडल वाले वीडियो को एक चलती हुई व्यक्ति की फोटोरिअलिस्टिक छवि वाले वीडियो में बदलने के लिए किया जा सकता है। नए एल्गोरिदम की मुख्य विशेषता आसन्न फ्रेम का विश्लेषण करने की क्षमता है, जो आपको नए वीडियो में फ्रेम का एक अधिक स्थिर और यथार्थवादी अनुक्रम बनाने की अनुमति देता है, डेवलपर्स arXiv.org पर प्रकाशित एक लेख में कहते हैं।

मशीन लर्निंग एल्गोरिदम तीव्र गति से विकसित हो रहे हैं, और शायद सबसे अधिक ध्यान देने योग्य प्रगति छवियों के साथ काम करने के लिए एल्गोरिदम के क्षेत्र में है। विशेष रूप से, पिछले कुछ वर्षों में, कई विकास टीमों ने छवियों के बीच स्थानांतरित करने के लिए नई गुणवत्ता वाली छवियों और एल्गोरिदम को संश्लेषित करने के लिए एल्गोरिदम बनाया है। उदाहरण के लिए, आप इस तरह से प्रसिद्ध कलाकारों की शैली में तस्वीरों और रेखाचित्रों को चित्रों में बदल सकते हैं, या रेखाचित्रों से फोटो-यथार्थवादी चित्र बना सकते हैं।

वीडियो के साथ काम करने के लिए इन एल्गोरिदम को अनुकूलित करने का प्रयास इस तरह की छवि जोड़तोड़ का एक तार्किक विकास बन गया है, लेकिन यह कार्य छवियों के साथ काम करने से मौलिक रूप से अलग है, यही वजह है कि इन एल्गोरिदम की गुणवत्ता अभी भी बहुत कम है। तथ्य यह है कि वीडियो के प्रत्येक फ्रेम को बनाने के लिए, न केवल उस पर वस्तुओं को सही ढंग से फिर से बनाना महत्वपूर्ण है, बल्कि आसन्न फ्रेम में इन वस्तुओं के स्थान, रंग और अन्य विशेषताओं को भी ध्यान में रखना है। आसन्न फ्रेम को ध्यान में रखे बिना, आप एक फोटोरिअलिस्टिक वीडियो बना सकते हैं, लेकिन उस पर स्थिर वस्तुएं लगातार फ्रेम से फ्रेम में बदल जाएंगी, जिससे वीडियो "झटकेदार" हो जाएगा। 2017 में, चीनी शोधकर्ताओं के एक समूह ने फ्रेम के बीच "हिलाने" के बिना वीडियो के बीच उच्च-गुणवत्ता वाले स्थानांतरण की समस्या को हल करने में कामयाबी हासिल की, लेकिन उनके द्वारा बनाए गए एल्गोरिदम को शैलीबद्ध छवियों के साथ काम करने के लिए डिज़ाइन किया गया था।

NVIDIA के ब्रायन कैटानज़ारो के नेतृत्व में डेवलपर्स की एक टीम ने एक नया एल्गोरिदम बनाया है जो वीडियो के बीच स्थानांतरित कर सकता है और इस प्रकार फ्रेम का एक स्थिर और यथार्थवादी अनुक्रम बना सकता है। एल्गोरिथ्म एक जनरेटिव एडवरसैरियल न्यूरल नेटवर्क है जिसमें एक जनरेटर होता है जो चित्र बनाता है और एक विवेचक जो जनरेटर द्वारा बनाए गए "नकली" को प्रशिक्षण डेटासेट से वस्तुओं से अलग करना चाहता है।

जनरेटर मूल वीडियो से वर्तमान और कई पिछले फ्रेम और दूसरे वीडियो के कई पिछले फ्रेम इनपुट के रूप में लेता है। दूसरे वीडियो के नए फ्रेम के लिए पिछले वाले के अनुरूप होने के लिए, एल्गोरिथ्म पिछले फ्रेम के आधार पर ऑप्टिकल प्रवाह की गणना करता है और अंतिम फ्रेम के लिए एक ताना मुखौटा बनाता है। उसके बाद, वह एक नया फ्रेम बनाता है, जिसमें कुछ पिक्सेल पिछले फ्रेम के विरूपण का उपयोग करके बनाए जाते हैं, और कुछ तंत्रिका नेटवर्क द्वारा "आविष्कृत" होते हैं। इस मामले में, जनरेटर दो चरणों में संचालित होता है, जो उनके सार में समान होते हैं, लेकिन विभिन्न संकल्पों के साथ छवियों पर काम करते हैं - पहले कम वाले के साथ, और फिर पूर्ण के साथ।

Image
Image

जेनरेटर ऑपरेशन आरेख

विवेचक के भी दो भाग होते हैं। उनमें से एक मूल और उत्पन्न वीडियो से दो फ़्रेमों की तुलना करता है और निर्धारित करता है कि क्या दूसरा फ़्रेम वास्तविक है। दूसरा भाग छवियों की वास्तविकता की भी जाँच करता है, लेकिन अलग से नहीं, बल्कि कई आसन्न फ़्रेमों के साथ।

Image
Image

डिस्क्रिमिनेटर ऑपरेशन स्कीम

डेवलपर्स ने कार की सवारी के शब्दार्थ खंडित वीडियो, चेहरे के मॉडल वाले वीडियो और लोगों के चलते शरीर के मॉडल वाले वीडियो से फोटोरिअलिस्टिक वीडियो बनाने के लिए कई तंत्रिका नेटवर्क मॉडल को प्रशिक्षित किया। एल्गोरिथ्म का संचालन और दो अन्य समान एल्गोरिदम के साथ तुलना वीडियो में देखी जा सकती है।इसके अलावा, डेवलपर्स ने स्वयंसेवकों पर एक अध्ययन किया, जिसमें उन्होंने पाया कि 80 प्रतिशत या अधिक लोग नए एल्गोरिदम द्वारा संश्लेषित वीडियो को उच्च गुणवत्ता वाले मानते हैं।

NVIDIA के विशेषज्ञों ने यथार्थवादी वीडियो को संश्लेषित करने के लिए पहले तंत्रिका नेटवर्क बनाए हैं। उदाहरण के लिए, पिछले साल उन्होंने एक एल्गोरिदम प्रस्तुत किया जो सर्दियों में एक कार में यात्रा की रिकॉर्डिंग को गर्मियों में समान रिकॉर्डिंग में बदल सकता है या वीडियो पर कुत्तों की नस्ल को बदल सकता है। एल्गोरिथ्म की एक और विशेषता यह है कि यह अप्रशिक्षित शिक्षण पर आधारित है, जो प्रशिक्षण के लिए डेटा के संग्रह को बहुत सरल करता है।

विषय द्वारा लोकप्रिय