
2023 लेखक: Bryan Walter | [email protected]. अंतिम बार संशोधित: 2023-05-21 22:25

अमेरिकी डेवलपर्स ने सामान्य तस्वीरों को त्रि-आयामी लोगों में बदलने के लिए एक एल्गोरिथ्म बनाया है, जिसमें चित्र में वस्तुओं के पीछे वास्तविक रूप से खींचे गए टुकड़े हैं। एल्गोरिथ्म गुणात्मक रूप से कैमरे से अलग-अलग दूरी पर स्थित वस्तुओं की सीमाओं को निर्धारित करता है, छवि के टुकड़ों को गहराई से अलग करता है और एक तंत्रिका नेटवर्क का उपयोग करके दूर के टुकड़ों पर खाली क्षेत्रों को खींचता है। लेख सीवीपीआर सम्मेलन में प्रस्तुत किया जाएगा, और एल्गोरिदम के कोड और उदाहरण लेखक पृष्ठ पर उपलब्ध हैं।
3D छवियां और वीडियो 2D छवियों की तुलना में विसर्जन और यथार्थवाद की बहुत अधिक भावना देते हैं, लेकिन उन्हें बनाने के लिए आपको या तो कंप्यूटर ग्राफिक्स का उपयोग करने की आवश्यकता होती है, या, जब वास्तविक दुनिया की शूटिंग की बात आती है, तो कैमरों और एल्गोरिदम के जटिल सिस्टम का उपयोग करें जो वस्तुतः हैं सामान्य उपयोगकर्ताओं के लिए दुर्गम। हाल के वर्षों में, छवियों के साथ काम करने के लिए एल्गोरिदम महत्वपूर्ण रूप से विकसित हुए हैं, और, उदाहरण के लिए, फेसबुक एक फ़ंक्शन का उपयोग कर रहा है जो आपको एक साधारण तस्वीर को छद्म -3 डी में बदलने की अनुमति देता है। यह मुख्य विषय को बाकी फोटो से अलग करता है और इसे अग्रभूमि में लाता है।
अन्य एल्गोरिदम एक समान तरीके से काम करते हैं, लेकिन इस पद्धति की एक मौलिक सीमा है - दो-आयामी छवि से टुकड़ों को विश्वसनीय रूप से प्राप्त करना असंभव है जो शूटिंग के समय अन्य वस्तुओं द्वारा अस्पष्ट थे। आमतौर पर इसे गायब हिस्सों को समान रंगों से भरकर हल किया जाता है, लेकिन परिणाम धुंधला होता है और बाकी फोटो के विपरीत केवल दूरस्थ रूप से होता है। इसके अलावा, कैमरे से दूरी के आधार पर वस्तुओं को गुणात्मक रूप से अलग करना काफी मुश्किल है।
वर्जीनिया पॉलिटेक्निक यूनिवर्सिटी और जिया-बिन हुआंग के नेतृत्व में फेसबुक के डेवलपर्स ने एक एल्गोरिदम बनाया है जो आपको फ्रेम में मुख्य वस्तुओं के पीछे पृष्ठभूमि की बेहतर छायांकन प्राप्त करने की अनुमति देता है।

एल्गोरिथ्म की योजना
एल्गोरिथम के लिए प्रारंभिक डेटा गहराई से डेटा के साथ एक द्वि-आयामी रंगीन तस्वीर है, यानी शूटिंग के समय प्रत्येक पिक्सेल में कैमरे से कितनी दूर स्थित थी। आधुनिक स्मार्टफोन में, कैमरे अक्सर पहले से ही शूटिंग के चरण में तस्वीरों के लिए एक गहराई का नक्शा बनाते हैं, अन्यथा गहराई के नक्शे के बाद के निर्माण के लिए पर्याप्त रूप से उच्च-गुणवत्ता वाले एल्गोरिदम होते हैं।
पहले चरण में, एल्गोरिथ्म फ्लैट छवि को अलग-अलग परतों में अलग-अलग गहराई के साथ विभाजित करता है। आमतौर पर, स्मार्टफ़ोन से डेप्थ मैप्स में, उन क्षेत्रों के बीच भी ट्रांज़िशन जो गहराई में बहुत भिन्न होते हैं, काफी स्मूथ होते हैं। इसलिए, लेखकों ने पहले छवि के तीखेपन को बढ़ाने का फैसला किया ताकि वस्तुओं के किनारे गहराई में विपरीत हों। एल्गोरिथ्म तब सीमा क्षेत्रों को गहराई में अंतर के लिए एक सीमा का उपयोग करके हाइलाइट करता है। गहराई के नक्शे की अपूर्ण सटीकता के कारण, न केवल लंबी सीमाएं बनती हैं, बल्कि अलग-अलग भी होती हैं, साथ ही वस्तुओं के अंदर या पृष्ठभूमि में अलग-अलग कलाकृतियां होती हैं, इसलिए, प्रारंभिक अंकन के बाद, एल्गोरिथ्म कलाकृतियों को हटा देता है और आसन्न विलीन हो जाता है सीमाओं के लंबे हिस्से।

एक फोटो में सीमा क्षेत्रों का निर्धारण
नतीजतन, अग्रभूमि में क्षेत्रों का एक समूह बनता है, जो वास्तव में अब अगले चरण के लिए आवश्यक नहीं हैं, और पृष्ठभूमि में खाली क्षेत्रों वाले क्षेत्रों को कम से कम आंशिक रूप से वास्तविक रूप से भरने की आवश्यकता है। पृष्ठभूमि में क्षेत्रों के साथ काम करना, सीमा के प्रत्येक पिक्सेल से शुरू होने वाला एल्गोरिदम, "दूरी में जाता है", एक पड़ोसी पिक्सेल को हाइलाइट करता है, और ऐसा 40 चक्र करता है। नतीजतन, सीमा के दोनों किनारों पर दो क्षेत्र बनते हैं: एक तरफ पहले से ही फोटो के पिक्सल से भरा एक क्षेत्र, जो दूसरी तरफ खाली क्षेत्र को भरने के लिए संदर्भ के रूप में उपयोग किया जाता है।

सीमा के आसपास के क्षेत्रों में बंटवारा
क्षेत्र निर्धारित होने के बाद, एल्गोरिथ्म पहले खाली क्षेत्र के अंदर की सीमाएँ खींचता है, और फिर अलग से रंगीन पिक्सेल और गहराई के पिक्सेल खींचता है। दोनों परतों के लिए, यू-नेट कनवल्शनल नेटवर्क पर आधारित एक तंत्रिका नेटवर्क का उपयोग किया जाता है। उसे COCO डेटासेट से 118,000 छवियों पर प्रशिक्षित किया गया था, जिसमें विभिन्न स्थानों पर कई अलग-अलग वस्तुओं की तस्वीरें शामिल हैं।
नतीजतन, डेवलपर्स ने एक एल्गोरिदम प्राप्त किया जो पर्याप्त गुणवत्ता के साथ तस्वीरों में विभिन्न दूरी पर वस्तुओं को हाइलाइट करता है और अन्य डेवलपर्स से समान एल्गोरिदम की तुलना में उनके पीछे के क्षेत्रों में अधिक वास्तविक रूप से भरता है। लेखकों ने तस्वीरों और एक गतिमान कोण के साथ कई वीडियो प्रकाशित किए, और एक इंटरेक्टिव पेज भी बनाया जहां आप विशिष्ट छवियों का उपयोग करके अन्य लेखकों के समान एल्गोरिदम के साथ-साथ एक दूसरे के साथ एल्गोरिदम के विभिन्न संस्करणों की तुलना कर सकते हैं।
2018 में, Google के डेवलपर्स ने एक एल्गोरिदम पेश किया जो आपको वास्तविक रूप से भरे हुए खाली क्षेत्रों के साथ नए कोणों से तस्वीरें बनाने की अनुमति देता है। यह एक दोहरे कैमरे वाले स्मार्टफोन से कुछ शॉट्स लेता है, छवि को गहराई से क्रमबद्ध वस्तुओं के साथ कई परतों में विभाजित करता है, और फिर एक नए कोण के लिए परतों को "पुन: संयोजित" करता है।