लंबा संदर्भ

Gemini के कई मॉडल, 10 लाख या इससे ज़्यादा टोकन वाली बड़ी कॉन्टेक्स्ट विंडो के साथ उपलब्ध हैं. पहले, लार्ज लैंग्वेज मॉडल (एलएलएम) में एक बार में सीमित मात्रा में टेक्स्ट (या टोकन) पास किए जा सकते थे. Gemini की लंबी कॉन्टेक्स्ट विंडो की मदद से, कई नए इस्तेमाल के उदाहरण और डेवलपर पैराडाइम का इस्तेमाल किया जा सकता है.

टेक्स्ट जनरेट करने या मल्टीमॉडल इनपुट जैसे मामलों के लिए, पहले से इस्तेमाल किया जा रहा कोड, लंबे कॉन्टेक्स्ट के साथ बिना किसी बदलाव के काम करेगा.

इस दस्तावेज़ में, 10 लाख और उससे ज़्यादा टोकन वाली कॉन्टेक्स्ट विंडो वाले मॉडल का इस्तेमाल करके, किए जा सकने वाले कामों के बारे में खास जानकारी दी गई है. इस पेज पर, कॉन्टेक्स्ट विंडो के बारे में खास जानकारी दी गई है. साथ ही, इसमें यह भी बताया गया है कि डेवलपर को लंबी कॉन्टेक्स्ट विंडो के बारे में कैसे सोचना चाहिए. इसमें लंबी कॉन्टेक्स्ट विंडो के इस्तेमाल के अलग-अलग उदाहरण और लंबी कॉन्टेक्स्ट विंडो के इस्तेमाल को ऑप्टिमाइज़ करने के तरीके भी बताए गए हैं.

कुछ मॉडल की कॉन्टेक्स्ट विंडो के साइज़ के बारे में जानने के लिए, मॉडल पेज देखें.

कॉन्टेक्स्ट विंडो क्या होती है?

Gemini मॉडल का इस्तेमाल करने का बुनियादी तरीका यह है कि मॉडल को जानकारी (कॉन्टेक्स्ट) दी जाए. इसके बाद, मॉडल जवाब जनरेट करेगा. कॉन्टेक्स्ट विंडो की तुलना शॉर्ट टर्म मेमोरी से की जा सकती है. किसी व्यक्ति की शॉर्ट टर्म मेमोरी में सीमित जानकारी सेव की जा सकती है. जनरेटिव मॉडल के साथ भी ऐसा ही होता है.

हमारे जनरेटिव मॉडल गाइड में, मॉडल के काम करने के तरीके के बारे में ज़्यादा जानकारी दी गई है.

लंबे कॉन्टेक्स्ट का इस्तेमाल शुरू करना

जनरेटिव मॉडल के पुराने वर्शन, एक बार में सिर्फ़ 8,000 टोकन प्रोसेस कर सकते थे. नए मॉडल में, 32,000 या 1,28,000 टोकन स्वीकार किए जा सकते हैं. Gemini, 10 लाख टोकन स्वीकार करने वाला पहला मॉडल है.

असल में, 10 लाख टोकन कुछ इस तरह दिखेंगे:

कोड की 50,000 लाइनें (हर लाइन में 80 वर्ण)
पिछले पांच सालों में भेजे गए सभी टेक्स्ट मैसेज
औसत लंबाई के आठ अंग्रेज़ी उपन्यास
औसत अवधि वाले 200 से ज़्यादा पॉडकास्ट एपिसोड की ट्रांसक्रिप्ट

कई अन्य मॉडल में कॉन्टेक्स्ट विंडो छोटी होती है. इसलिए, उनमें अक्सर टोकन बचाने के लिए, पुरानी बातचीत को हटाना, कॉन्टेंट की खास जानकारी देना, वेक्टर डेटाबेस के साथ RAG का इस्तेमाल करना या प्रॉम्प्ट को फ़िल्टर करना जैसी रणनीतियों की ज़रूरत होती है.

कुछ खास स्थितियों में, ये तकनीकें अब भी काम की हैं. हालाँकि, Gemini की बड़ी कॉन्टेक्स्ट विंडो की वजह से, सीधे तौर पर जानकारी देने का तरीका ज़्यादा फ़ायदेमंद है. इसमें, सभी ज़रूरी जानकारी पहले ही दे दी जाती है. Gemini मॉडल को खास तौर पर बड़े कॉन्टेक्स्ट को प्रोसेस करने के लिए बनाया गया है. इसलिए, ये कॉन्टेक्स्ट के हिसाब से सीखने की बेहतर क्षमता दिखाते हैं. उदाहरण के लिए, सिर्फ़ कॉन्टेक्स्ट के हिसाब से निर्देश देने वाले मटीरियल (500 पेज की रेफ़रंस व्याकरण, एक शब्दकोश, और ≈400 समानांतर वाक्य) का इस्तेमाल करके, Gemini ने अंग्रेज़ी से कलामंग में अनुवाद करना सीखा. कलामंग, पापुआ की एक भाषा है, जिसे बोलने वालों की संख्या 200 से भी कम है. Gemini ने उसी क्वालिटी के साथ अनुवाद किया जिस क्वालिटी के साथ कोई व्यक्ति, उसी मटीरियल का इस्तेमाल करके अनुवाद करता है. इससे Gemini के लंबे कॉन्टेक्स्ट की वजह से हुए पैराडाइम शिफ़्ट के बारे में पता चलता है. इससे कॉन्टेक्स्ट के हिसाब से बेहतर तरीके से सीखने की सुविधा मिलती है और नई संभावनाएं मिलती हैं.

लंबी कॉन्टेक्स्ट विंडो के इस्तेमाल के उदाहरण

ज़्यादातर जनरेटिव मॉडल के लिए, अब भी टेक्स्ट इनपुट का इस्तेमाल किया जाता है. हालांकि, Gemini मॉडल फ़ैमिली की मदद से, मल्टीमॉडल के इस्तेमाल के नए उदाहरणों को लागू किया जा सकता है. ये मॉडल, टेक्स्ट, वीडियो, ऑडियो, और इमेज को आसानी से समझ सकते हैं. इनके साथ Gemini API भी उपलब्ध है, जो मल्टीमॉडल फ़ाइल टाइप को इनपुट के तौर पर लेता है, ताकि आपको आसानी हो.

लंबा टेक्स्ट

टेक्स्ट, एलएलएम के विकास में अहम भूमिका निभाता है. जैसा कि पहले बताया गया है, एलएलएम की कई व्यावहारिक सीमाएं इसलिए थीं, क्योंकि कुछ टास्क करने के लिए उनके पास कॉन्टेक्स्ट विंडो काफ़ी बड़ी नहीं थी. इस वजह से, रिट्रीवल ऑगमेंटेड जनरेशन (आरएजी) और अन्य तकनीकों को तेज़ी से अपनाया गया. ये तकनीकें, मॉडल को संदर्भ के हिसाब से काम की जानकारी डाइनैमिक तरीके से उपलब्ध कराती हैं. अब बड़ी और बड़ी कॉन्टेक्स्ट विंडो की मदद से, नई तकनीकें उपलब्ध हो रही हैं. इनसे इस्तेमाल के नए उदाहरण मिलते हैं.

टेक्स्ट पर आधारित लंबे कॉन्टेक्स्ट के लिए, इस्तेमाल के कुछ नए और स्टैंडर्ड उदाहरणों में ये शामिल हैं:

टेक्स्ट के बड़े कॉर्पस की खास जानकारी देना
- कॉन्टेक्स्ट के छोटे मॉडल के साथ टेक्स्ट की खास जानकारी जनरेट करने के पिछले विकल्पों के लिए, स्लाइडिंग विंडो या किसी अन्य तकनीक की ज़रूरत होगी. इससे मॉडल को नए टोकन पास किए जाने पर, पिछले सेक्शन की स्थिति को बनाए रखा जा सकेगा
सवाल पूछना और जवाब देना
- पहले, यह सिर्फ़ आरएजी की मदद से किया जा सकता था. इसकी वजह यह है कि कॉन्टेक्स्ट की सीमित जानकारी उपलब्ध होती थी और मॉडल की तथ्यों को याद रखने की क्षमता कम होती थी
एजेंटिक वर्कफ़्लो
- टेक्स्ट के ज़रिए एजेंट यह जानकारी सेव करते हैं कि उन्होंने क्या काम किया है और उन्हें क्या काम करना है. दुनिया और एजेंट के लक्ष्य के बारे में पूरी जानकारी न होने से, एजेंट के भरोसेमंद होने की संभावना कम हो जाती है

लंबे कॉन्टेक्स्ट वाले मॉडल की मदद से, कई नई सुविधाएं उपलब्ध कराई गई हैं. इनमें से एक है, कई उदाहरणों के साथ इन-कॉन्टेक्स्ट लर्निंग. रिसर्च से पता चला है कि "सिंगल शॉट" या "मल्टी-शॉट" उदाहरण के सामान्य पैराडाइम का इस्तेमाल करने से, मॉडल की नई क्षमताओं का पता लगाया जा सकता है. इसमें मॉडल को किसी टास्क के एक या कुछ उदाहरण दिखाए जाते हैं. इसके बाद, इन उदाहरणों को सैकड़ों, हज़ारों या लाखों तक बढ़ाया जाता है. यह कई-शॉट वाला तरीका, किसी खास टास्क के लिए फ़ाइन-ट्यून किए गए मॉडल की तरह ही काम करता है. अगर किसी इस्तेमाल के मामले में, Gemini मॉडल का परफ़ॉर्मेंस लेवल प्रोडक्शन रोलआउट के लिए अभी तक काफ़ी नहीं है, तो कई उदाहरणों का इस्तेमाल करके मॉडल को ट्रेन किया जा सकता है. कॉन्टेक्स्ट को ऑप्टिमाइज़ करने वाले सेक्शन में, आपको इस बारे में ज़्यादा जानकारी मिलेगी. कॉन्टेक्स्ट को कैश मेमोरी में सेव करने की सुविधा की मदद से, इस तरह के ज़्यादा इनपुट टोकन वर्कलोड को ज़्यादा किफ़ायती बनाया जा सकता है. साथ ही, कुछ मामलों में इंतज़ार के समय को भी कम किया जा सकता है.

लंबी अवधि के वीडियो

वीडियो कॉन्टेंट का इस्तेमाल लंबे समय से सीमित है, क्योंकि यह माध्यम खुद ही सुलभ नहीं है. कॉन्टेंट को सरसरी तौर पर पढ़ना मुश्किल था. साथ ही, ट्रांसक्रिप्ट में अक्सर वीडियो के बारीक़ अंतर को कैप्चर नहीं किया जा पाता था. इसके अलावा, ज़्यादातर टूल इमेज, टेक्स्ट, और ऑडियो को एक साथ प्रोसेस नहीं करते थे. Gemini के साथ, लंबे कॉन्टेक्स्ट वाले टेक्स्ट की क्षमताओं का मतलब है कि यह लगातार बेहतर परफ़ॉर्मेंस के साथ, मल्टीमॉडल इनपुट के बारे में तर्क दे सकता है और सवालों के जवाब दे सकता है.

वीडियो के लंबे कॉन्टेक्स्ट के लिए, इस्तेमाल के कुछ नए और स्टैंडर्ड उदाहरणों में ये शामिल हैं:

वीडियो में सवाल पूछना और जवाब देना
वीडियो मेमोरी, जैसा कि Google के Project Astra में दिखाया गया है
वीडियो में कैप्शन जोड़ना
वीडियो के सुझाव देने वाले सिस्टम, मौजूदा मेटाडेटा को नई मल्टीमॉडल समझ के साथ बेहतर बनाकर
वीडियो को पसंद के मुताबिक बनाने की सुविधा. इसके लिए, डेटा और उससे जुड़े वीडियो के मेटाडेटा का इस्तेमाल किया जाता है. इसके बाद, वीडियो के उन हिस्सों को हटा दिया जाता है जो दर्शक के लिए काम के नहीं हैं
वीडियो कॉन्टेंट को मॉडरेट करना
रीयल-टाइम में वीडियो प्रोसेस करना

वीडियो का इस्तेमाल करते समय, यह जानना ज़रूरी है कि वीडियो को टोकन में कैसे प्रोसेस किया जाता है. इससे बिलिंग और इस्तेमाल की सीमाएं तय होती हैं. प्रॉम्प्टिंग गाइड में, वीडियो फ़ाइलों के साथ प्रॉम्प्ट करने के बारे में ज़्यादा जानें.

लंबी अवधि का ऑडियो

Gemini मॉडल, मूल रूप से मल्टीमॉडल वाले पहले लार्ज लैंग्वेज मॉडल थे. ये ऑडियो को समझ सकते थे. पहले, डेवलपर को ऑडियो प्रोसेस करने के लिए, डोमेन के हिसाब से कई मॉडल को एक साथ इस्तेमाल करना पड़ता था. जैसे, स्पीच-टू-टेक्स्ट मॉडल और टेक्स्ट-टू-टेक्स्ट मॉडल. इसकी वजह से, कई राउंड-ट्रिप अनुरोधों को पूरा करने में ज़्यादा समय लगता है. साथ ही, परफ़ॉर्मेंस में भी कमी आती है. ऐसा आम तौर पर, एक से ज़्यादा मॉडल सेटअप के डिसकनेक्ट किए गए आर्किटेक्चर की वजह से होता है.

ऑडियो कॉन्टेक्स्ट के इस्तेमाल के कुछ नए और स्टैंडर्ड उदाहरण यहां दिए गए हैं:

बोले जा रहे शब्दों को रीयल-टाइम में टेक्स्ट में बदलने और अनुवाद करने की सुविधा
पॉडकास्ट / वीडियो से जुड़े सवाल और जवाब
मीटिंग में बोले गए शब्दों को लेख में बदलने और खास जानकारी जनरेट करने की सुविधा
वॉइस असिस्टेंट

ऑडियो फ़ाइलों के साथ प्रॉम्प्ट करने के बारे में ज़्यादा जानने के लिए, प्रॉम्प्ट करने से जुड़ी गाइड पढ़ें.

लंबे कॉन्टेक्स्ट के लिए ऑप्टिमाइज़ेशन

लंबे कॉन्टेक्स्ट और Gemini मॉडल के साथ काम करते समय, ऑप्टिमाइज़ेशन का मुख्य तरीका कॉन्टेक्स्ट कैशिंग का इस्तेमाल करना है. पहले, एक अनुरोध में कई टोकन प्रोसेस नहीं किए जा सकते थे. इसके अलावा, एक और मुख्य समस्या यह थी कि टोकन प्रोसेस करने में ज़्यादा लागत आती थी. अगर आपके पास "अपने डेटा से चैट करें" ऐप्लिकेशन है, जहां कोई उपयोगकर्ता 10 PDF, एक वीडियो, और कुछ ऑफ़िस के दस्तावेज़ अपलोड करता है, तो आपको इन अनुरोधों को प्रोसेस करने के लिए, ज़्यादा जटिल Retrieval Augmented Generation (RAG) टूल या फ़्रेमवर्क का इस्तेमाल करना होगा. साथ ही, कॉन्टेक्स्ट विंडो में ले जाए गए टोकन के लिए, आपको ज़्यादा शुल्क चुकाना होगा. अब उपयोगकर्ता की अपलोड की गई फ़ाइलों को कैश मेमोरी में सेव किया जा सकता है. साथ ही, उन्हें हर घंटे के हिसाब से सेव करने के लिए पेमेंट किया जा सकता है. उदाहरण के लिए, Gemini Flash के साथ की गई हर क्वेरी के इनपुट / आउटपुट की लागत, स्टैंडर्ड इनपुट / आउटपुट की लागत से ~4 गुना कम होती है. इसलिए, अगर उपयोगकर्ता अपने डेटा के साथ काफ़ी चैट करता है, तो डेवलपर के तौर पर आपके लिए यह लागत में काफ़ी बचत करने वाला विकल्प बन जाता है.

लंबी कॉन्टेक्स्ट विंडो से जुड़ी सीमाएं

इस गाइड के अलग-अलग सेक्शन में, हमने इस बारे में बात की है कि Gemini मॉडल, सुई ढूंढने जैसे सवालों के जवाब देने से जुड़े अलग-अलग टेस्ट में बेहतर परफ़ॉर्मेंस कैसे देते हैं. इन टेस्ट में सबसे बुनियादी सेटअप को ध्यान में रखा जाता है. इसमें आपको एक सुई ढूंढनी होती है. अगर आपको कई "नीडल" या जानकारी के कुछ खास हिस्सों को ढूंढना है, तो मॉडल उतनी सटीक परफ़ॉर्म नहीं करता. कॉन्टेक्स्ट के हिसाब से, परफ़ॉर्मेंस में काफ़ी अंतर हो सकता है. इस बात पर ध्यान देना ज़रूरी है, क्योंकि सही जानकारी पाने और लागत के बीच एक स्वाभाविक समझौता होता है. आपको एक क्वेरी में ~99% तक सटीक जवाब मिल सकते हैं. हालांकि, आपको उस क्वेरी को भेजने पर, हर बार इनपुट टोकन की लागत चुकानी होगी. इसलिए, 100 आइटम की जानकारी पाने के लिए, अगर आपको 99% परफ़ॉर्मेंस चाहिए, तो आपको 100 अनुरोध भेजने होंगे. यह एक अच्छा उदाहरण है. इसमें बताया गया है कि कॉन्टेक्स्ट कैश मेमोरी का इस्तेमाल करके, Gemini मॉडल को इस्तेमाल करने की लागत को काफ़ी हद तक कम किया जा सकता है. साथ ही, परफ़ॉर्मेंस को बेहतर बनाए रखा जा सकता है.

अक्सर पूछे जाने वाले सवाल

क्वेरी को कॉन्टेक्स्ट विंडो में कहां रखना चाहिए?

ज़्यादातर मामलों में, मॉडल की परफ़ॉर्मेंस बेहतर होती है. खास तौर पर, अगर पूरा कॉन्टेक्स्ट लंबा हो. इसके लिए, आपको अपनी क्वेरी / सवाल को प्रॉम्प्ट के आखिर में (अन्य सभी कॉन्टेक्स्ट के बाद) रखना होगा.

क्या किसी क्वेरी में ज़्यादा टोकन जोड़ने पर, मॉडल की परफ़ॉर्मेंस कम हो जाती है?

आम तौर पर, अगर आपको मॉडल को टोकन पास करने की ज़रूरत नहीं है, तो उन्हें पास न करना सबसे अच्छा होता है. हालांकि, अगर आपके पास कुछ जानकारी वाले टोकन का बड़ा हिस्सा है और आपको उस जानकारी के बारे में सवाल पूछने हैं, तो मॉडल उस जानकारी को निकालने में बहुत ज़्यादा सक्षम है. कई मामलों में, यह 99% तक सटीक जानकारी निकाल सकता है.

लंबे कॉन्टेक्स्ट वाली क्वेरी के लिए, लागत कैसे कम की जा सकती है?

अगर आपके पास टोकन / कॉन्टेक्स्ट का ऐसा सेट है जिसका आपको कई बार फिर से इस्तेमाल करना है, तो कॉन्टेक्स्ट कैश मेमोरी का इस्तेमाल करें. इससे उस जानकारी के बारे में सवाल पूछने से जुड़ी लागत को कम किया जा सकता है.

क्या कॉन्टेक्स्ट की लंबाई से मॉडल के रिस्पॉन्स में लगने वाले समय पर असर पड़ता है?

किसी भी अनुरोध में कुछ समय लगता है. यह समय अनुरोध के साइज़ पर निर्भर नहीं करता. हालांकि, आम तौर पर लंबी क्वेरी में ज़्यादा समय लगता है (पहले टोकन के लिए समय).