في عصر تتسارع فيه التحوّلات التكنولوجية بشكل غير مسبوق، شهدت صناعة الفيديو في السنوات الأخيرة تطورات سريعة، حيث أصبح الذكاء الاصطناعي الركيزة الأساسية في إنتاج المحتوى البصري.

وصارت عملية تحويل الأفكار النصية أو الصور إلى مقاطع مرئية وبجودة عالية أمرا واقعيا بطريقة لم تكن ممكنة من قبل، وما بدأ كسباق للهيمنة على نماذج اللغة مع “شات جي بي تي” و “لاما” (LLaMA) يتحوّل الآن إلى بعد جديد وهو الفيديو.

فشركة “ميتا” العملاقة اليوم لا تدخر جهدا في سعيها الحثيث للسيطرة على مشهد الذكاء الاصطناعي، حيث أعلنت بداية أكتوبر/تشرين الأول الجاري بقيادة “مارك زوكربيرغ” عن إنشائها نموذجا جديدا للذكاء الاصطناعي يسمى “موفي جين” (Movie Gen) يستطيع إنتاج مقاطع فيديو، ومقاطع صوتية واقعية تستجيب للمدخلات النصية.

وقد جاء هذا التطور بعد أشهر من تقديم “أوبن إي آي” نموذج الفيديو “سورا” (Sora) للعالم، والذي أحدثت عروضه التوضيحية جنونا على الإنترنت بسبب لقطاتها وحركتها مفرطة الواقعية والتي بدت كأنها من هوليود، وقالت شركة ميتا إنها تستطيع منافسة بعض أدوات فيديو الذكاء الاصطناعي الأكثر قدرة مثل “أوبن إي آي” و “إلفن لابس” (ElevenLabs).

ما نموذج “ميتا موفي جين”؟

“ميتا جين” (Meta Gen) للأفلام هو نموذج متقدم للذكاء الاصطناعي، تم تطويره لإنشاء مقاطع فيديو بدقة عالية بناء على نصوص أو لقطات موجودة، إذ لا يقتصر هذا النموذج على إنتاج فيديوهات واقعية فحسب، بل يدمج أيضا الصوت المتزامن بما في ذلك المؤثرات الصوتية والموسيقى الخلفية.

وتمتلك “موفي جين” (Movie Gen) التابعة لشركة “ميتا” مجموعة من القدرات المتطورة في مجال إنتاج الأفلام، والتي تجعل منها أداة قوية لإنشاء وتحرير وتخصيص مقاطع الفيديو مع صوت متزامن لتطبيقات متنوعة، وتشمل هذه القدرات:

  • توليد فيديو بجودة عالية: يستطيع نموذج “موفي جين” (Movie Gen) توليد مقاطع فيديو عالية الدقة تصل مدتها إلى 16 ثانية من النصوص، حيث يحقق نتائج متقدمة في جودة الفيديو.
    وهذه النماذج قادرة على التفكير في حركة الأجسام، وتفاعلات الموضوع، وحركة الكاميرا، ويمكنها تعلم حركات معقولة لمجموعة واسعة من المفاهيم، وهذا يجعلها نماذج رائدة في فئتها.
  • توليد صوت متزامن: يستطيع النموذج أيضا توليد صوت متزامن بما في ذلك المؤثرات الصوتية والموسيقى الخلفية التي تتناسب مع المحتوى المرئي، كما يشمل ذلك “الأصوات الديجيتيكية” (diegetic sounds) وهي جزء من عالم الفيلم، و”الموسيقى غير الديجيتيكية” (non-diegetic music) وهي الموسيقى الخلفيّة لدعم المزاج.
  • تحرير الفيديو: يستطيع “موفي جين” إجراء تحرير دقيق للفيديو بناء على تعليمات المستخدم، ويسمح بإجراء تغييرات مثل إضافة كائنات، وتعديل القوام، وتغيير الخلفيات في مقاطع الفيديو الموجودة.
  • توليد فيديو مخصص: يسمح النموذج بإنشاء مقاطع فيديو متخصصة، وذلك من خلال دمج صورة المستخدم في الفيديو، مع الحفاظ على هوية الشخص أثناء اتباع النص.
  • توليد بأبعاد متعددة: يدعم “موفي جين” توليد مقاطع فيديو بأبعاد مختلفة، حيث يكون هذا الأمر مفيدا لمتطلبات المنصات ووسائل الإعلام المتنوعة.

كيف يعمل نموذج “موفي جين” من الجانب التقني؟

يعمل نموذج “موفي جين” من “ميتا” من خلال تقنية مطابقة للتدفق، حيث تمّ تدريب النظام على إزالة الضوضاء من الصور ومقاطع الفيديو باستخدام أوصاف نصية متطابقة.

وقد قام تدريب النموذج على مليار زوج من الصور والنصوص، و100 مليون زوج من مقاطع الفيديو والنصوص، وأثناء عملية الاستدلال، يبدأ النموذج بضوضاء عشوائية، ثم يولّد صورا تفصيلية بناء على النص المقدّم.

وحتى يحسن من أدائه، يعتمد “موفي جين فيديو” (Movie Gen Video)على دمج عدة تمثيلات نصية تساهم في توليد فيديوهات أكثر دقة وتنوعا استنادا إلى مجموعة متنوعة من المدخلات:

  • تمثيلات “يو إل تو” (UL2): يوفر هذا النوع من التمثيلات قدرات استدلالية من خلال تدريبها على بيانات نصية فقط.
  • تمثيلات “ميتا كليب” (MetaCLIP): تساعد هذه التمثيلات في تحسين عملية التوليد عبر الأنماط المختلفة من خلال محاذاة تمثيلات النص مع الصور، وهو ما يظهر تكاملا أفضل بين النص والمحتوى المرئي.
  • تمثيلات “باي تي فايف” (ByT5): تركز هذه التمثيلات على التقاط العناصر النصية الفردية مثل الحروف والأرقام، وتستخدم في الحالات التي يطلب فيها الموجه نصا محددا ضمن الفيديو المنتج.

ويتم تشغيل “موفي جين” بواسطة نماذج الذكاء الاصطناعي الكبيرة المعروفة أيضا باسم نماذج الأساس لإنشاء الوسائط، ولكن المكونات الرئيسة للنموذج هي “موفي جين فيديو” (Movie Gen Video) و”موفي جين أوديو” (Movie Gen Audio).

ويستطيع “موفي جين أوديو” (Movie Gen Audio) إنتاج مؤثرات صوتية وموسيقى سينمائية بجودة عالية تصل إلى 48 كيلوهرتزا متزامنة مع مدخلات الفيديو وتتبع نص الإدخال.

ويدير النموذج أيضا بشكل طبيعي توليد الصوت بطول متغير، ويمكنه إنتاج صوت طويل متماسك لفيديوهات تصل إلى عدة دقائق باستخدام تقنيات تمديد الصوت.

ولا تزال ميزة “موفي جين” من “ميتا” في مرحلة التجريب، ولم يتم إصدارها على نطاق واسع للجمهور بعد، ولم تقدم الشركة بعد تاريخ إصدار محدد للوصول العام، ولكن من المتوقع أن يتم دمج هذا النموذج ضمن منصات “ميتا” الاجتماعية على غرار “إنستغرام” و”فيسبوك” و”واتساب”.

وكتبت “ميتا” على موقعها الرسمي: “نريد التأكد من أننا نخلق أدوات تساعد الناس على تعزيز إبداعهم الفطري بطرق جديدة قد لا تخطر على بالهم، تخيل أن تقوم بتحريك فيديو “يوم في حياة” لمشاركته على ريلز وتحريره باستخدام نصوص، أو إنشاء تحية عيد ميلاد متحركة مخصصة لصديق وإرسالها له عبر واتساب”.

Hand use mobile phone and human head with line brain network technology for global.Data in the global computer social.Digital data,ai,science.Vector Technology background and Artificial intelligence.

منافسة العمالقة.. “سورا إيه آي” و”موفي جين فيديو”

في نفس السياق، تشتد المنافسة للهيمنة على الفيديوهات التي يتمّ إنشاؤها بواسطة الذكاء الاصطناعي، حيث لم يعد هذا الأخير مجرد أداة للمساعدة، بل تحوّل إلى شريك رئيسي في صناعة المحتوى الرقمي المرئي، وإنشاء فيديوهات بدقة عالية وسرعة إنتاج تختلف عن أي وقت آخر.

هذا الأمر فتح أبواب المنافسة على مصراعيها أمام أكبر الشركات من أجل إنتاج محتوى مرئي إبداعي مع الحفاظ على الجودة، فشركة “ميتا” عبر “موفي جين” وشركة “أوبن إي آي” عبر “سورا إيه آي” (Sora AI) العملاقتين في مجال الذكاء الاصطناعي، قد أخذتا التنافس إلى خارج النص والصورة إلى عالم إنتاج الفيديو.

في هذا الجانب، يظهر نموذج “سورا” (Sora) من “أوبن إي آي” و”موفي جين” من “ميتا” كأمثلة رائدة للتطورات الحاصلة في هذا المجال.

وقبل مقارنة ميزات النموذجين، دعونا نقدم مراجعة مبسطة لقدرات “سورا” التابعة لشركة “أوبن إي آي”:

ما “سورا إيه آي”؟

تمّ الإعلان عن نموذج “سورا” لأول مرة من قبل شركة “أوبن إي آي” في فبراير/شباط 2024، وهو نموذج ذكاء اصطناعي توليدي يحول النص إلى فيديو، ويستطيع إنشاء مقاطع فيديو من الصفر، أو تمديد مقاطع الفيديو الحالية، أو ملء الإطارات المفقودة في مقاطع الفيديو.

ويتم تدريب “سورا إيه آي” باستخدام نموذج قائم على الانتشار، وذلك عن طريق إضافة ضوضاء عشوائية إلى إطارات الفيديو، ثم يتعلم النموذج إزالة الضوضاء واستعادة البيانات الأصلية، وتتيح هذه التقنية من خلال النصوص التوجيهية إنشاء مقاطع فيديو عالية الجودة.

وقالت “أوبن إي آي” على موقعها الرسمي: “نحن نعلّم الذكاء الاصطناعي فهم ومحاكاة العالم الفيزيائي في الحركة، بهدف تدريب النماذج لتساعد الناس في حل المشكلات التي تتطلب تفاعلا مع العالم الحقيقي”.

كما يُدرّب النموذج على مزيج من مجموعات الفيديو العامة والترخيص، مع وجود إرشادات الأمان للحد من توليد المحتوى الضار أو المضلل، حيث تدمج “أوبن إي آي” بيانات التحالف من أجل أصل المحتوى وموثوقيته “سي تو بي إيه” (C2PA) بهدف تحسين الشفافية والتحقق من صحة المحتوى الرقمي.

وتدعم هذه البيانات التحقق من صحة المعلومات، وتشمل البيانات التي يتعامل معها “سي تو بي إيه” بيانات الأصل كتاريخ إنشاء المحتوى والأدوات المستخدمة من برمجيات وكاميرا، وبيانات التوثيق كالتحقق من صحة الصورة أو الفيديو ومصدره، وبيانات التعديل كالتعديلات التي تمت على المحتوى بعد إنشائه.

ويتمتع نموذج “سورا” بقدرات متميزة في تحويل النصوص إلى مقاطع فيديو واقعية ومفصّلة تتمثل في:

  • تحويل النص إلى فيديو: يقوم “سورا إيه آي” بإنشاء مقاطع فيديو عالية الجودة تمتد لدقيقة كاملة بناء على مدخلات نصية، الأمر الذي يتيح توليد مشاهد مفصلة واقعية تتناسب بدقة مع المعلومات المقدمة، وتتضمن هذه التقنية القدرة على فهم اللغة الطبيعية، وإنتاج تسلسلات من اللقطات والزوايا من دون الحاجة لتوجيهات محددة.
  • الدقة المتغيرة ونسب الارتفاع: يتيح “سورا” إنشاء مقاطع فيديو بدقة متعددة، وهو ما يجعلها مرنة لمنصات مختلفة مثل الشاشة العريضة أو التنسيقات الرأسية، وهذه القدرة على التكيف تجعلها مثالية لاحتياجات المحتوى المختلفة كمقاطع الفيديو السينمائية والمحتوى المخصص لوسائل التواصل الاجتماعي.
  • التسلسلات السينمائية متعددة اللقطات: يمكن للنموذج إنشاء لقطات متعددة في مقطع فيديو واحد تمّ إنشاؤه. وهذه الميزة تحافظ على تناسق الشخصية والأسلوب المرئي عبر زوايا الكاميرا المختلفة، وهو ما يسمح بنهج سينمائي أكثر لتوليد الفيديو.
  • المرونة في إخراج الفيديو: يمكن لـ”سورا” إنشاء نموذج أولي للفيديو منخفض الدقة بسرعة، وهذا يسمح بترقية الفيديو إلى مستوى الدقة الكاملة بعد معاينته، وهي بالفعل خاصية مثالية لصانعي المحتوى الذين يحتاجون للتقييم قبل تقديم النسخة النهائية.
الذكاء الاصطناعي في أوروبا تكليفات

تفوق في التفاصيل.. مقارنة شاملة بين ميزات “سورا إيه آي” و”ميتا موفي جين”

     ١- طول الفيديو

“سورا إيه آي”: يستطيع إنشاء مقاطع فيديو يصل طولها إلى 60 ثانية، وهو ما يجعلها مناسبة لمحتوى سينمائي أطول وأكثر.

“ميتا موفي جين”: يقتصر على إنشاء مقاطع تصل مدتها إلى 16 ثانية، ويركز بشكل أكبر على المحتوى قصير الشكل وسريع الاستهلاك.

٢- الصوت المتزامن

“سورا إيه آي”: لا يركز بشكل أساسي على الصوت المتزامن، لأن قوته الرئيسية تكمن في توليد الفيديو.

“ميتا موفي جين“: يتفوق في هذا المجال من خلال إنشاء صوت متزامن يشمل المؤثرات الصوتية وموسيقى الخلفية التي تتطابق مع المحتوى المرئي بسلاسة.

٣- القدرات السينمائية

“سورا إيه آي”: تم تصميم النموذج لإنشاء تسلسلات متعددة اللقطات مدفوعة بالسرد بزوايا كاميرا ديناميكية وشخصيات متسقة، الأمر الذي يجعلها مثالية لرواية القصص الأكثر تعقيدا.

“ميتا موفي جين”: ملائم أكثر للمحتوى القصير الذي يركز على المشاركة الاجتماعية، مع تركيز أقل على التسلسلات السينمائية المعقدة.

٤- نسبة الدقة والارتفاع

“سورا إيه آي”: يدعم الدقة المتعددة ونسب الارتفاع، وهو ما يجعله قابلا للتكيف مع المنصات المختلفة، وحالات الاستخدام مثل التنسيقات العريضة والرأسية.

“ميتا موفي جين”: يدعم “موفي جين” أيضا نسب ارتفاع مختلفة، لكن تركيزه الأساسي ينصب على إنشاء محتوى يناسب منصات التواصل الاجتماعي مثل فيسبوك وإنستغرام.

٥- قدرات التحرير

“سورا إيه آي”: يركز النموذج بشكل أساسي على إنشاء محتوى فيديو مع تحسين الإطارات المفقودة، لكنه غير مصمم لتحرير الفيديو التفصيلي.

ميتا موفي جين”: يتيح تحريرا أكثر تفصيلا، وهذه الميزة تمكن المستخدمين من تعديل الخلفيات وإضافة الأشياء، وتخصيص محتوى الفيديو وفقا لتعليمات المستخدم.

٦- التخصيص

“سورا إيه آي“: ينشئ محتوى معمما بناء على طلبات المستخدم من دون ميزات التخصيص.

“ميتا موفي جين“: يمكنه توليد فيديوهات مخصصة من خلال دمج صور المستخدم في الفيديو، مع الحفاظ على هوية الشخص في جميع أنحاء المحتوى الذي تمّ إنشاؤه.

٧- الطلبات

“سورا إيه آي“: يعتبر نموذج “سورا” مثاليا للإنتاج الإعلامي، والواقع الافتراضي، والتعليم، والألعاب، إذ يتطلب إنشاء محتوى بجودة سينمائية وسرد قصصي معقد.

“ميتا موفي جين“: تمّ تصميم النموذج لمنشئي المحتوى والمسوقين، والذين يتطلعون لإنشاء مقاطع فيديو سريعة وجذابة لمنصات التواصل الاجتماعي.

٨- نقاط القوة

“سورا إيه آي”: يتميز نموذج “سورا” بإنشاء محتوى غني مدفوع بالسرد بعمق سينمائي، وتسلسلات متعددة اللقطات.

“ميتا موفي جين”: تمّ تحسينه لإنشاء محتوى وسائط اجتماعية قصير وجذاب، مع عناصر صوتية وشخصية متزامنة.

٩- القيود

“سورا إيه آي“: يواجه الذكاء الاصطناعي في “سورا” تحديات في محاكاة التفاعلات الفيزيائية المعقدة والتعامل مع عدم الدقة المكانية مثل التمييز بين اليسار واليمين.

“ميتا موفي جين“: يقتصر على مقاطع أقصر ولا يقدم نفس العمق السينمائي مثل “سورا إيه آي”، ويركز بشكل أكبر على المحتوى الذي تحركه وسائل التواصل الاجتماعي.

في سياق إجمالي، يعدّ “سورا إيه آي” مثاليا لإنتاج فيديوهات سينمائية غنية بالسرد القصصي، بينما تمّ تطوير “ميتا موفي جين” لإنشاء محتوى قصير مناسب لمواقع التواصل الاجتماعي مع تكامل الصوت وتخصيصه، ولكن كل نموذج قادر أن يلبي احتياجات محددة وحالات استخدام متنوعة.

ماذا ينتظر عالم الصناعات المختلفة؟

من الواضح أن الإمكانات المستقبلية لنماذج الذكاء الاصطناعي لإنتاج الفيديو تستعد لخدمة صانعي الأفلام والمعلمين ومنشئي المحتوى الذين يحتاجون لعمق سينمائي، ومع تطور هذه النماذج ستتاح فرص جديدة للمبدعين عبر الصناعات المختلفة.

وحسب تقرير نشره موقع “ستيف إيه آي” (Steve AI)، تطمح أدوات توليد الفيديو بالذكاء الاصطناعي إلى تغيير المشهد وإلى اقتحام مجموعة واسعة من تطبيقات الصناعة كالتسويق والتعليم والترفيه.

حيث إن بروز الذكاء الاصطناعي، جعل عملية تحرير الفيديو فعالة لدرجة أن حتى المقاطع التي تسجل بها أخطاء “البلوبر ريل” (blooper reel) صارت تبدو كأنها أعمال سينمائية مذهلة ستحظى بالأوسكار.

في هذا السياق نقدم لكم مجموعة من الصناعات التي اقتحمتها أدوات الفيديو المدعومة بالذكاء الاصطناعي:

  • التسويق والإعلانات: أثبتت أدوات فيديو الذكاء الاصطناعي فعاليتها العالية عند دمجها مع “أدوات التسويق بالعمولة” (Affiliate Marketing)، حيث تمكن هذه الأدوات من توليد مقاطع فيديو عالية الجودة تلقائيا مصممة لتلبية احتياجات التسويق المحددة والجماهير المستهدفة.
    وتتيح أداة مثل صانع الفيديو التسويقي للشركات إنشاء محتوى مرئي مؤثر على نطاق واسع، وهو ما يفتح عالما من الاحتمالات يتجاوز التسويق والإعلانات.
    إضافة إلى ذلك، يمكن لمقاطع الفيديو التي تم إنشاؤها بالذكاء الاصطناعي أن تعزز التفاعل وترفع من نسب المشاهدة.
  • الترفيه وإنشاء المحتوى: تتيح أدوات الفيديو المدعومة بالذكاء الاصطناعي مجموعات افتراضية من الأفلام، ورسائل فيديو مخصصة من المشاهير، وهو ما يساهم في تغيير المشهد الترفيهي.
    كما يمكن استخدام الشخصيات التي تم إنشاؤها بالذكاء الاصطناعي في ألعاب الفيديو، والأفلام المتحركة، وتجارب الواقع الافتراضي، ويمكن لهؤلاء الممثلين الافتراضيين أداء الإجراءات المكتوبة وتعزيز السرد العام.
  • التعلم الإلكتروني: تقلل أدوات فيديو الذكاء الاصطناعي من الوقت والجهد المطلوبين لإنشاء محتوى تعليمي إلكتروني عالي الجودة، حيث يمكن للمعلمين والمدربين التركيز على التدريس، بينما تتولى الأنظمة الذكية إنتاج الفيديو، وتفيد هذه الكفاءة كلا من المعلمين والمتعلمين، وتضمن عملية تعلم سلسة.
  • الرعاية الصحية والتدريب: من خلال المحاكاة الواقعية المدعومة بالذكاء الاصطناعي يمكن للمهنيين الطبيين تقديم حلول تدريب مؤثرة تمتد عبر مجالات متنوعة، بما في ذلك التدريب المؤسسي، والتدريب المهني المتخصص، وذلك من خلال دمج مقاطع الفيديو التي تمّ إنشاؤها بواسطة الذكاء الاصطناعي في برامج تدريب الرعاية الصحية.
    حيث تعزز أدوات توليد الفيديو الذكية تجارب التعلم البصرية، وتخلق وحدات تفاعلية، وتخصص المحتوى التعليمي لتلبية احتياجات المستخدم.
  • العقارات وإدارة الممتلكات: تتيح الجولات الافتراضية للعقارات المدعومة بالذكاء الاصطناعي للمشترين والمستأجرين المحتملين اكتشاف العقارات عن بعد، حيث تقدم الفيديوهات التفاعلية تجربة واقعية للمساحات، الأمر الذي يساعد في توفير الوقت والموارد.

وحسب “الرابطة الوطنية للوسطاء العقاريين” بالولايات المتحدة (NAR) فإن حوالي 73% من أصحاب المنازل يميلون لإدراج عقاراتهم مع وكلاء يستخدمون الفيديو كأداة تسويقية.

ومع استمرار تطور أدوات فيديو الذكاء الاصطناعي بهذه الوتيرة، قد نشهد مستقبلا يعجّ بمنتجي الفيديو الاحترافي، من دون الحاجة إلى أدوات معقدة، أو ميزانية ضخمة، وربما من دون الحاجة لمحترفين حقيقيين.

وهو ما يفرض علينا تحديات أخلاقية في علاقة بطرق استخدام هذه التكنولوجيا، ويطرح تساؤل إن كان استغلال هذه التكنولوجيا وتوجيهها وفق معيار النزاهة -من دون التلاعب بالمعلومات، ولا خصوصية الأفراد، ومن دون التضليل والتلاعب- أمرَ واقعيا فعلا.

شاركها.
اترك تعليقاً

2025 © الخليج مباشر. جميع حقوق النشر محفوظة. تصميم سواح سولوشنز.