تتضمّن العديد من نماذج Gemini قدرة استيعاب كبيرة تصل إلى مليون رمز مميّز أو أكثر. في السابق، كانت النماذج اللغوية الكبيرة (LLM) محدودة بشكل كبير بسبب كمية النص (أو الرموز المميزة) التي يمكن تمريرها إلى النموذج في المرة الواحدة. تتيح قدرة الاستيعاب الموسّعة في Gemini العديد من حالات الاستخدام الجديدة ونماذج المطوّرين.
سيعمل الرمز الذي تستخدمه حاليًا في حالات مثل إنشاء النصوص أو المدخلات المتعددة الوسائط بدون أي تغييرات مع السياق الطويل.
يقدّم لك هذا المستند نظرة عامة على ما يمكنك تحقيقه باستخدام نماذج تتضمّن قدرة استيعاب مليون رمز مميّز أو أكثر. تقدّم الصفحة نظرة عامة موجزة حول قدرة الاستيعاب، وتستكشف كيفية تفكير المطوّرين في قدرة الاستيعاب الموسّعة، وحالات الاستخدام المختلفة في العالم الحقيقي لقدرة الاستيعاب الموسّعة، وطرق تحسين استخدام قدرة الاستيعاب الموسّعة.
للاطّلاع على أحجام نافذة السياق الخاصة بنماذج معيّنة، يُرجى الانتقال إلى صفحة النماذج.
ما هي قدرة الاستيعاب؟
الطريقة الأساسية لاستخدام نماذج Gemini هي تمرير المعلومات (السياق) إلى النموذج، الذي سينشئ بعد ذلك ردًا. يمكن تشبيه نافذة السياق بالذاكرة القصيرة المدى. هناك كمية محدودة من المعلومات التي يمكن تخزينها في الذاكرة قصيرة المدى، وينطبق الأمر نفسه على النماذج التوليدية.
يمكنك الاطّلاع على مزيد من المعلومات حول طريقة عمل النماذج في دليل النماذج التوليدية.
بدء استخدام ميزة "القدرة الاستيعابية الموسّعة"
في السابق، كانت الإصدارات الأقدم من النماذج التوليدية قادرة على معالجة 8,000 رمز مميز فقط في المرة الواحدة. وقد تم تحسين هذه الميزة في الطُرز الأحدث من خلال قبول 32,000 أو حتى 128,000 رمز مميز. Gemini هو النموذج الأول القادر على قبول مليون رمز مميّز.
في ما يلي مثال على مليون رمز مميز:
- 50,000 سطر من التعليمات البرمجية (مع 80 حرفًا قياسيًا لكل سطر)
- جميع الرسائل النصية التي أرسلتها في آخر 5 سنوات
- 8 روايات إنجليزية متوسطة الطول
- نصوص لأكثر من 200 حلقة بودكاست بمتوسط طول
تتطلّب نوافذ السياق الأكثر محدودية الشائعة في العديد من النماذج الأخرى غالبًا استراتيجيات مثل حذف الرسائل القديمة بشكل عشوائي أو تلخيص المحتوى أو استخدام RAG مع قواعد بيانات متجهة أو فلترة الطلبات لحفظ الرموز المميزة.
على الرغم من أنّ هذه الأساليب لا تزال مفيدة في سيناريوهات معيّنة، فإنّ قدرة الاستيعاب الكبيرة في Gemini تتيح اتّباع أسلوب أكثر مباشرةً، وهو تقديم جميع المعلومات ذات الصلة مسبقًا. بما أنّ نماذج Gemini مصمّمة خصيصًا لتوفير إمكانات استيعاب سياق واسعة النطاق، فإنّها تقدّم أداءً قويًا في التعلّم ضمن السياق. على سبيل المثال، باستخدام مواد تعليمية ضمن السياق فقط (مرجع نحوي من 500 صفحة وقاموس ونحو 400 جملة متوازية)، تعلّم Gemini الترجمة من الإنجليزية إلى الكالامانج، وهي لغة بابوا يتحدث بها أقل من 200 شخص، وبجودة مماثلة لجودة الترجمة التي يقدمها متعلّم بشري يستخدم المواد نفسها. يوضّح هذا المثال التغيير الجذري الذي أحدثته قدرة Gemini على استيعاب الكثير من المعلومات، ما أتاح إمكانات جديدة من خلال التعلّم الفعّال ضمن السياق.
حالات استخدام السياق الطويل
على الرغم من أنّ حالة الاستخدام العادية لمعظم النماذج التوليدية لا تزال هي إدخال النص، تتيح عائلة نماذج Gemini نموذجًا جديدًا لحالات الاستخدام المتعدّدة الوسائط. يمكن لهذه النماذج فهم النصوص والفيديوهات والصوت والصور بشكلٍ أصلي. وتتضمّن هذه النماذج Gemini API الذي يقبل أنواع ملفات متعدّدة الوسائط لتوفير تجربة أكثر ملاءمة.
نص طويل
وقد أثبت النص أنّه طبقة الذكاء التي تستند إليها معظم الزخم حول النماذج اللغوية الكبيرة. كما ذكرنا سابقًا، كان الكثير من القيود العملية المفروضة على النماذج اللغوية الكبيرة يعود إلى عدم توفّر نافذة سياق كبيرة بما يكفي لتنفيذ مهام معيّنة. وقد أدّى ذلك إلى اعتماد سريع لتقنية "الإنشاء المعزّز بالاسترجاع" (RAG) وغيرها من التقنيات التي تقدّم بشكل ديناميكي معلومات سياقية ذات صلة للنموذج. والآن، مع توفّر قدرة استيعاب أكبر فأكبر، أصبحت هناك تقنيات جديدة تتيح حالات استخدام جديدة.
في ما يلي بعض حالات الاستخدام الناشئة والعادية للنصوص الطويلة المستندة إلى السياق:
- تلخيص مجموعات كبيرة من النصوص
- كانت خيارات التلخيص السابقة التي تستخدم نماذج سياق أصغر تتطلّب نافذة منزلقة أو أسلوبًا آخر للاحتفاظ بحالة الأقسام السابقة عند تمرير رموز مميّزة جديدة إلى النموذج.
- طرح الأسئلة والإجابة عنها
- في السابق، كان ذلك ممكنًا فقط باستخدام RAG بسبب الكمية المحدودة من السياق وانخفاض قدرة النماذج على تذكُّر الحقائق.
- عمليات سير العمل المستندة إلى الذكاء الاصطناعي الوكيل
- يشكّل النص الأساس الذي تستند إليه البرامج في تتبُّع الإجراءات التي اتخذتها والإجراءات التي عليها اتخاذها، ويؤدي عدم توفّر معلومات كافية حول العالم وهدف البرنامج إلى الحد من موثوقيته.
التعلّم السياقي من خلال أمثلة متعددة هو إحدى الإمكانات الفريدة التي تتيحها النماذج ذات السياق الطويل. أظهرت الأبحاث أنّ استخدام النموذج الشائع "اللقطة الواحدة" أو "اللقطات المتعددة"، حيث يتم تزويد النموذج بمثال واحد أو بضعة أمثلة على مهمة ما، وتوسيع نطاق ذلك إلى مئات أو آلاف أو حتى مئات الآلاف من الأمثلة، يمكن أن يؤدي إلى إمكانات جديدة للنموذج. وقد تبيّن أيضًا أنّ هذا النهج الذي يتضمّن العديد من اللقطات يحقّق أداءً مشابهًا للنماذج التي تم ضبطها بدقة لتنفيذ مهمة معيّنة. في حالات الاستخدام التي لا يكون فيها أداء أحد نماذج Gemini كافيًا لطرحه في مرحلة الإنتاج، يمكنك تجربة أسلوب "اللقطات المتعددة". كما قد تستكشف لاحقًا في قسم تحسين السياق الطويل، يتيح التخزين المؤقت للسياق إمكانية تنفيذ هذا النوع من أحمال العمل العالية لرموز الإدخال بشكل أكثر فعالية من حيث التكلفة، وحتى مع وقت استجابة أقل في بعض الحالات.
فيديو طويل
لطالما كانت فائدة محتوى الفيديو محدودة بسبب عدم توفّر إمكانية الوصول إلى الوسيط نفسه. كان من الصعب تصفّح المحتوى، وغالبًا ما كانت النصوص لا تنقل المعنى الدقيق للفيديو، كما أنّ معظم الأدوات لا تعالج الصور والنصوص والصوت معًا. بفضل إمكانات Gemini في التعامل مع النصوص الطويلة، يمكنه الاستنتاج والإجابة عن الأسئلة حول المدخلات المتعددة الوسائط بأداء ثابت.
في ما يلي بعض حالات الاستخدام الناشئة والعادية لسياق الفيديو الطويل:
- طرح الأسئلة والإجابة عنها في الفيديوهات
- ذاكرة الفيديو، كما هو موضّح في Project Astra من Google
- إضافة شرح للفيديوهات
- أنظمة اقتراح الفيديوهات، من خلال إثراء البيانات الوصفية الحالية بفهم جديد متعدد الوسائط
- تخصيص الفيديوهات من خلال تحليل مجموعة من البيانات وبيانات الفيديو الوصفية المرتبطة بها، ثم إزالة أجزاء من الفيديوهات لا صلة لها بالمشاهد
- الإشراف على محتوى الفيديو
- معالجة الفيديو في الوقت الفعلي
عند العمل مع الفيديوهات، من المهم مراعاة طريقة معالجة الفيديوهات وتحويلها إلى رموز مميزة، لأنّ ذلك يؤثر في الفوترة وحدود الاستخدام. يمكنك الاطّلاع على مزيد من المعلومات حول استخدام ملفات الفيديو في الطلبات في دليل الطلبات.
المحتوى الصوتي الطويل
كانت نماذج Gemini أول نماذج لغوية كبيرة متعددة الوسائط بشكل أصلي يمكنها فهم الصوت. في السابق، كان سير عمل المطوّرين النموذجي يتضمّن ربط نماذج متعدّدة خاصة بمجالات معيّنة، مثل نموذج تحويل الكلام إلى نص ونموذج تحويل النص إلى نص، وذلك لمعالجة الصوت. أدّى ذلك إلى زيادة وقت الاستجابة المطلوب من خلال تنفيذ طلبات متعدّدة للذهاب والعودة، وانخفاض الأداء الذي يُعزى عادةً إلى البُنى غير المتصلة لإعداد النماذج المتعدّدة.
في ما يلي بعض حالات الاستخدام الناشئة والعادية لسياق الصوت:
- الترجمة وتحويل الصوت إلى نص في الوقت الفعلي
- طرح الأسئلة والإجابة عنها في البودكاست أو الفيديو
- تحويل الصوت إلى نص في الاجتماع وإنشاء ملخّص
- أدوات المساعدة الصوتية
يمكنك الاطّلاع على مزيد من المعلومات حول تقديم الطلبات باستخدام الملفات الصوتية في دليل تقديم الطلبات.
تحسينات على السياقات الطويلة
تتمثّل عملية التحسين الأساسية عند العمل مع سياق طويل ونماذج Gemini في استخدام التخزين المؤقت للسياق. بالإضافة إلى استحالة معالجة عدد كبير من الرموز المميزة في طلب واحد، كان القيد الرئيسي الآخر هو التكلفة. إذا كان لديك تطبيق "الدردشة مع بياناتك" يتيح للمستخدم تحميل 10 ملفات PDF وفيديو وبعض مستندات العمل، كان عليك في السابق استخدام أداة أو إطار عمل أكثر تعقيدًا لإنشاء الردود المستندة إلى الاسترجاع (RAG) من أجل معالجة هذه الطلبات ودفع مبلغ كبير مقابل الرموز المميزة التي تم نقلها إلى نافذة السياق. يمكنك الآن تخزين الملفات التي يحمّلها المستخدم مؤقتًا والدفع مقابل تخزينها على أساس كل ساعة. على سبيل المثال، تبلغ تكلفة الإدخال / الإخراج لكل طلب باستخدام Gemini Flash حوالي ربع تكلفة الإدخال / الإخراج العادية، لذا إذا أجرى المستخدم محادثات كافية باستخدام بياناته، سيوفّر لك ذلك الكثير من التكاليف بصفتك مطوّرًا.
محدودية قدرة الاستيعاب الموسّعة
في أقسام مختلفة من هذا الدليل، تحدّثنا عن كيفية تحقيق نماذج Gemini أداءً عاليًا في مختلف عمليات التقييم الخاصة باسترجاع المعلومات من مستندات طويلة. تأخذ هذه الاختبارات في الاعتبار الإعداد الأساسي، حيث يكون لديك إبرة واحدة تبحث عنها. في الحالات التي قد يكون لديك فيها عدة "إبر" أو معلومات محددة تبحث عنها، لا يحقّق النموذج الدقة نفسها. يمكن أن يختلف الأداء بشكل كبير حسب السياق. من المهم مراعاة ذلك لأنّ هناك مفاضلة بين الحصول على المعلومات الصحيحة واستردادها وبين التكلفة. يمكنك الحصول على دقة تبلغ% 99 تقريبًا في طلب بحث واحد، ولكن عليك دفع تكلفة الرموز المميزة للإدخال في كل مرة ترسل فيها طلب البحث هذا. لذا، لاسترداد 100 جزء من المعلومات، إذا كنت بحاجة إلى أداء بنسبة% 99، من المحتمل أن تحتاج إلى إرسال 100 طلب. هذا مثال جيد على الحالات التي يمكن أن يؤدي فيها التخزين المؤقت للسياق إلى خفض التكلفة المرتبطة باستخدام نماذج Gemini بشكل كبير مع الحفاظ على مستوى الأداء العالي.
الأسئلة الشائعة
أين هو أفضل مكان لوضع طلبي في قدرة الاستيعاب؟
في معظم الحالات، خاصةً إذا كان السياق الإجمالي طويلاً، سيكون أداء النموذج أفضل إذا وضعت طلبك أو سؤالك في نهاية الطلب (بعد كل السياق الآخر).
هل ينخفض أداء النموذج عند إضافة المزيد من الرموز المميزة إلى طلب البحث؟
بشكل عام، إذا لم تكن بحاجة إلى تمرير الرموز المميّزة إلى النموذج، من الأفضل تجنُّب تمريرها. ومع ذلك، إذا كان لديك عدد كبير من الرموز المميزة تتضمّن بعض المعلومات وأردت طرح أسئلة حول هذه المعلومات، سيكون النموذج قادرًا بشكل كبير على استخراجها (بنسبة دقة تصل إلى% 99 في العديد من الحالات).
كيف يمكنني خفض التكلفة باستخدام طلبات البحث ذات السياق الطويل؟
إذا كان لديك مجموعة مماثلة من الرموز المميزة أو السياق الذي تريد إعادة استخدامه عدة مرات، يمكن أن يساعدك تخزين السياق مؤقتًا في تقليل التكاليف المرتبطة بطرح أسئلة حول هذه المعلومات.
هل يؤثر طول السياق في وقت استجابة النموذج؟
هناك مقدار ثابت من وقت الاستجابة في أي طلب، بغض النظر عن الحجم، ولكن بشكل عام، ستستغرق طلبات البحث الأطول وقت استجابة أطول (الوقت اللازم لظهور الرمز المميز الأول).