OpenAI ने ChatGPT Images 2.0 हे नवीन इमेज जनरेशन मॉडेल सादर केले असून ते अधिक अचूक, संदर्भ-जाणणारे आणि बहुभाषिक सपोर्टसह येते.
Photo Credit: OpenAI
ChatGPT Images 2.0 is available starting today to all users across ChatGPT and Codex
OpenAI ने मंगळवारी आपले पुढील पिढीचे इमेज जनरेशन मॉडेल लॉन्च केले. ChatGPT Images 2.0 असे नाव देण्यात आलेले हे मॉडेल वापरकर्त्यांनी दिलेल्या प्रॉम्प्ट्सनुसार अधिक अचूक, उपयुक्त आणि संदर्भ-जाणून घेणाऱ्या प्रतिमा तयार करण्याचा दावा करते. या नव्या मॉडेलमध्ये निर्देशांचे पालन, बहुभाषिक रेंडरिंग आणि कॉम्पोझिशनमध्ये सुधारणा करण्यात आली आहे. सॅन फ्रान्सिस्कोस्थित कृत्रिम बुद्धिमत्ता (AI) कंपनीने सांगितले की, यामध्ये अधिक जटिल कामांसाठी reasoning क्षमताही जोडण्यात आल्या आहेत. ChatGPT Images 2.0 हे ChatGPT, Codex आणि API मध्ये रोलआउट केले जात आहे.
Images 2.0 Availability
OpenAI च्या माहितीनुसार, ChatGPT Images 2.0 हे मंगळवारपासून ChatGPT आणि Codex मधील सर्व वापरकर्त्यांसाठी उपलब्ध आहे. Advanced capabilities, ज्यामध्ये reasoning आधारित thinking features समाविष्ट आहेत, त्या ChatGPT Plus, Pro आणि Business सदस्यांसाठी उपलब्ध असतील.
डेव्हलपर्सना gpt-image-2 API च्या माध्यमातून या मॉडेलचा वापर करता येईल. मात्र, किंमत निवडलेल्या इमेज क्वालिटी आणि रिझोल्यूशननुसार बदलू शकते. कंपनीचा दावा आहे की हे नवीन मॉडेल 2K पर्यंत आउटपुट सपोर्ट करते, तर त्यापेक्षा जास्त रिझोल्यूशन सध्या बीटा टप्प्यात आहे.
ChatGPT Images 2.0 Features, Capabilities
OpenAI च्या मते, ChatGPT Images 2.0 हे मागील पिढीच्या मॉडेलपेक्षा अधिक अचूकता आणि नियंत्रण प्रदान करते, ज्यामुळे वापरकर्ते तपशीलवार प्रॉम्प्ट्सनुसार जवळपास तंतोतंत दृश्य तयार करू शकतात. हे मॉडेल जटिल कॉम्पोझिशन्स हाताळण्यासाठी डिझाइन केले आहे. यामध्ये UI एलिमेंट्स, दाट मजकूर आणि स्ट्रक्चर्ड लेआउट्सचा समावेश आहे, जे आधीच्या इमेज जनरेशन सिस्टीमसाठी आव्हानात्मक होते.
एक महत्त्वाची सुधारणा म्हणजे बहुभाषिक सपोर्ट. हे मॉडेल हिंदी, बंगाली, चिनी, जपानी आणि कोरियनसारख्या भाषांमध्ये अधिक अचूक मजकूर रेंडर करू शकते. त्यामुळे वापरकर्ते पोस्टर्स, डायग्राम्स आणि इन्फोग्राफिक्ससारख्या दृश्यांची निर्मिती विविध भाषांमध्ये करू शकतात, जिथे भाषा ही डिझाइनचा महत्त्वाचा भाग असते.
कंपनीच्या म्हणण्यानुसार, ChatGPT Images 2.0 हे photorealistic images, cinematic visuals, pixel art आणि manga यांसारख्या विविध शैलींमध्ये अधिक सुसंगतता देते. तसेच lighting, texture आणि composition मध्येही सुधारणा करण्यात आली आहे. हे मॉडेल ultra-wide (3:1) पासून tall layouts (1:3) पर्यंत विविध aspect ratios सपोर्ट करते.
ChatGPT Images 2.0 सोबत OpenAI ने thinking capabilities देखील सादर केल्या आहेत. कंपनीच्या म्हणण्यानुसार, यामुळे मॉडेल अधिक प्रगत reasoning tasks करू शकते. हे reasoning-enabled ChatGPT मॉडेलसोबत वापरता येते, ज्यामुळे ते वेबवरून real-time माहिती शोधू शकते, आउटपुटची पडताळणी करू शकते आणि एका प्रॉम्प्टवरून इमेज तयार करू शकते. याचे knowledge cutoff डिसेंबर 2025 पर्यंत अपडेट करण्यात आले आहे.
OpenAI चा दावा आहे की हे मॉडेल एकाच वेळी आठ सुसंगत आउटपुट तयार करू शकते, ज्यामध्ये characters, objects आणि इतर घटकांमध्ये सातत्य राखले जाते. कंपनीने ChatGPT Images 2.0 विविध वापरांसाठी उपयुक्त असल्याचे सांगितले आहे. यामध्ये design prototyping, marketing creatives, educational content आणि product development यांचा समावेश आहे. हे मॉडेल माहिती एकत्रित करून ती संरचित पद्धतीने स्पष्ट लेआउटमध्ये सादर करू शकते.
मात्र, कंपनीने हेही नमूद केले आहे की Images 2.0 मध्ये सुधारणा असली तरी त्याला काही मर्यादा आहेत. अत्यंत अचूक भौतिक समज आवश्यक असलेल्या कामांमध्ये, जसे की जटिल puzzles, origami instructions किंवा विचित्र कोनातून पाहिलेल्या वस्तूंमध्ये, हे मॉडेल अडचणीत येऊ शकते.
तसेच, खूप दाट किंवा पुनरावृत्ती असलेल्या दृश्य तपशीलांमध्येही काही अडचणी येऊ शकतात. याशिवाय, diagrams किंवा labelled illustrations तयार करताना अचूकतेसाठी manual verification आवश्यक असू शकते. 2K पेक्षा जास्त रिझोल्यूशन सध्या बीटा टप्प्यात असल्यामुळे त्यामध्येही सातत्य नेहमीच राहील असे नाही.
जाहिरात
जाहिरात
Assassin's Creed Black Flag Resynced Pricing Leaked Ahead of Official Reveal