جمینای با مدل‌ هوش مصنوعی وئو ادغام خواهد شد

ایسنا: دمیس حسابیس (Demis Hassabis) مدیرعامل شرکت دیپ‌مایند» (DeepMind) زیرمجموعه گوگل اخیرا گفت که این غول فناوری قصد دارد در نهایت مدل‌های هوش مصنوعی «جمینای» (Gemini) را با مدل‌ تولید ویدئو «وئو» (Veo) خود ترکیب کند تا درک آن را از دنیای فیزیکی بهبود ببخشد.

به گزارش تک کرانچ، حسابیس گفت: ما از ابتدا جمینای را به گونه‌ای ساختیم که چندوجهی باشد. دلیل ما این بود که چشم‌اندازی را برای ایده ساخت یک دستیار دیجیتال جهانی داریم؛ دستیاری که در دنیای واقعی به شما کمک می‌کند. صنعت هوش مصنوعی به تدریج به سمت مدل‌های «اومنی» (omni) حرکت می‌کند. به عبارت دیگر، به سوی مدل‌هایی می‌رود که می‌توانند بسیاری از اشکال رسانه را درک و ترکیب کنند. جدیدترین مدل‌های جمینای گوگل می‌توانند علاوه بر تصویر و متن، صدا نیز تولید کنند؛ در حالی که مدل پیش‌فرض «چت‌جی‌پی‌تی» (ChatGPT) شرکت «اوپن‌ای‌آی» (OpenAI) در حال حاضر می‌تواند تصاویر را ایجاد کند.

شرکت «آمازون» نیز اعلام کرده است که قصد دارد مدل «any-to-any» را در اواخر سال جاری میلادی راه‌اندازی کند. مدل‌های اومنی به داده‌های آموزشی زیادی مانند تصاویر، ویدئوها، صدا و متن نیاز دارند. حسابیس تلویحا گفت داده‌های ویدئویی برای وئو عمدتا از پلتفرم یوتیوب که گوگل مالک آن است، تامین می‌شوند. حسابیس گفت: اساسا «وئو ۲» با تماشای ویدئوهای یوتیوب - تعداد زیادی ویدئوی یوتیوب - می‌تواند فیزیک جهان را بفهمد.

گوگل پیش از این در مصاحبه با تک‌کرانچ گفته بود که مدل‌هایش ممکن است طبق توافق آن با سازندگان محتوای یوتیوب، با برخی از محتوای این پلتفرم آموزش ببینند. براساس گزارش‌ها، این شرکت سال گذشته شرایط خدمات خود را گسترش داده است تا بتواند از داده‌های بیشتری برای آموزش مدل‌های هوش مصنوعی خود استفاده کند.