
2023 लेखक: Bryan Walter | [email protected]. अंतिम बार संशोधित: 2023-05-21 22:25

अमेरिकी शोधकर्ताओं ने विभिन्न शैलियों के बीच वीडियो स्थानांतरित करने के लिए एक तंत्रिका नेटवर्क एल्गोरिदम बनाया है। उदाहरण के लिए, इसका उपयोग चेहरे के मॉडल वाले वीडियो को एक चलती हुई व्यक्ति की फोटोरिअलिस्टिक छवि वाले वीडियो में बदलने के लिए किया जा सकता है। नए एल्गोरिदम की मुख्य विशेषता आसन्न फ्रेम का विश्लेषण करने की क्षमता है, जो आपको नए वीडियो में फ्रेम का एक अधिक स्थिर और यथार्थवादी अनुक्रम बनाने की अनुमति देता है, डेवलपर्स arXiv.org पर प्रकाशित एक लेख में कहते हैं।
मशीन लर्निंग एल्गोरिदम तीव्र गति से विकसित हो रहे हैं, और शायद सबसे अधिक ध्यान देने योग्य प्रगति छवियों के साथ काम करने के लिए एल्गोरिदम के क्षेत्र में है। विशेष रूप से, पिछले कुछ वर्षों में, कई विकास टीमों ने छवियों के बीच स्थानांतरित करने के लिए नई गुणवत्ता वाली छवियों और एल्गोरिदम को संश्लेषित करने के लिए एल्गोरिदम बनाया है। उदाहरण के लिए, आप इस तरह से प्रसिद्ध कलाकारों की शैली में तस्वीरों और रेखाचित्रों को चित्रों में बदल सकते हैं, या रेखाचित्रों से फोटो-यथार्थवादी चित्र बना सकते हैं।
वीडियो के साथ काम करने के लिए इन एल्गोरिदम को अनुकूलित करने का प्रयास इस तरह की छवि जोड़तोड़ का एक तार्किक विकास बन गया है, लेकिन यह कार्य छवियों के साथ काम करने से मौलिक रूप से अलग है, यही वजह है कि इन एल्गोरिदम की गुणवत्ता अभी भी बहुत कम है। तथ्य यह है कि वीडियो के प्रत्येक फ्रेम को बनाने के लिए, न केवल उस पर वस्तुओं को सही ढंग से फिर से बनाना महत्वपूर्ण है, बल्कि आसन्न फ्रेम में इन वस्तुओं के स्थान, रंग और अन्य विशेषताओं को भी ध्यान में रखना है। आसन्न फ्रेम को ध्यान में रखे बिना, आप एक फोटोरिअलिस्टिक वीडियो बना सकते हैं, लेकिन उस पर स्थिर वस्तुएं लगातार फ्रेम से फ्रेम में बदल जाएंगी, जिससे वीडियो "झटकेदार" हो जाएगा। 2017 में, चीनी शोधकर्ताओं के एक समूह ने फ्रेम के बीच "हिलाने" के बिना वीडियो के बीच उच्च-गुणवत्ता वाले स्थानांतरण की समस्या को हल करने में कामयाबी हासिल की, लेकिन उनके द्वारा बनाए गए एल्गोरिदम को शैलीबद्ध छवियों के साथ काम करने के लिए डिज़ाइन किया गया था।
NVIDIA के ब्रायन कैटानज़ारो के नेतृत्व में डेवलपर्स की एक टीम ने एक नया एल्गोरिदम बनाया है जो वीडियो के बीच स्थानांतरित कर सकता है और इस प्रकार फ्रेम का एक स्थिर और यथार्थवादी अनुक्रम बना सकता है। एल्गोरिथ्म एक जनरेटिव एडवरसैरियल न्यूरल नेटवर्क है जिसमें एक जनरेटर होता है जो चित्र बनाता है और एक विवेचक जो जनरेटर द्वारा बनाए गए "नकली" को प्रशिक्षण डेटासेट से वस्तुओं से अलग करना चाहता है।
जनरेटर मूल वीडियो से वर्तमान और कई पिछले फ्रेम और दूसरे वीडियो के कई पिछले फ्रेम इनपुट के रूप में लेता है। दूसरे वीडियो के नए फ्रेम के लिए पिछले वाले के अनुरूप होने के लिए, एल्गोरिथ्म पिछले फ्रेम के आधार पर ऑप्टिकल प्रवाह की गणना करता है और अंतिम फ्रेम के लिए एक ताना मुखौटा बनाता है। उसके बाद, वह एक नया फ्रेम बनाता है, जिसमें कुछ पिक्सेल पिछले फ्रेम के विरूपण का उपयोग करके बनाए जाते हैं, और कुछ तंत्रिका नेटवर्क द्वारा "आविष्कृत" होते हैं। इस मामले में, जनरेटर दो चरणों में संचालित होता है, जो उनके सार में समान होते हैं, लेकिन विभिन्न संकल्पों के साथ छवियों पर काम करते हैं - पहले कम वाले के साथ, और फिर पूर्ण के साथ।

जेनरेटर ऑपरेशन आरेख
विवेचक के भी दो भाग होते हैं। उनमें से एक मूल और उत्पन्न वीडियो से दो फ़्रेमों की तुलना करता है और निर्धारित करता है कि क्या दूसरा फ़्रेम वास्तविक है। दूसरा भाग छवियों की वास्तविकता की भी जाँच करता है, लेकिन अलग से नहीं, बल्कि कई आसन्न फ़्रेमों के साथ।

डिस्क्रिमिनेटर ऑपरेशन स्कीम
डेवलपर्स ने कार की सवारी के शब्दार्थ खंडित वीडियो, चेहरे के मॉडल वाले वीडियो और लोगों के चलते शरीर के मॉडल वाले वीडियो से फोटोरिअलिस्टिक वीडियो बनाने के लिए कई तंत्रिका नेटवर्क मॉडल को प्रशिक्षित किया। एल्गोरिथ्म का संचालन और दो अन्य समान एल्गोरिदम के साथ तुलना वीडियो में देखी जा सकती है।इसके अलावा, डेवलपर्स ने स्वयंसेवकों पर एक अध्ययन किया, जिसमें उन्होंने पाया कि 80 प्रतिशत या अधिक लोग नए एल्गोरिदम द्वारा संश्लेषित वीडियो को उच्च गुणवत्ता वाले मानते हैं।
NVIDIA के विशेषज्ञों ने यथार्थवादी वीडियो को संश्लेषित करने के लिए पहले तंत्रिका नेटवर्क बनाए हैं। उदाहरण के लिए, पिछले साल उन्होंने एक एल्गोरिदम प्रस्तुत किया जो सर्दियों में एक कार में यात्रा की रिकॉर्डिंग को गर्मियों में समान रिकॉर्डिंग में बदल सकता है या वीडियो पर कुत्तों की नस्ल को बदल सकता है। एल्गोरिथ्म की एक और विशेषता यह है कि यह अप्रशिक्षित शिक्षण पर आधारित है, जो प्रशिक्षण के लिए डेटा के संग्रह को बहुत सरल करता है।