سیر پیشرفت ترجمه ماشینی
بهطورکلی، برای ترجمه از یک زبان به زبانی دیگر به چیزی نیاز هست که به آن«وابستگیهای متوالی» گفته میشود؛ به این معنا که شبکههای عصبی استاندارد یکسری الگوهای شکلگرفته بین ورودیها و خروجیها را تشخیص میدهند، بهطوری که میتوان قبل از دیدن کلمهای که به دنبال شروع شدن یک جمله خواهد آمد آن را به شکلی حدس زد. به عنوان مثال، برای تکمیل جمله «میخواهم همراه با ------ به پیادهروی بروم» احتمال آمدن کلمه «سگ» خیلی بیشتر از کلمه «گربه» خواهد بود. محققان برای دستیابی به الگوهای مبتنی بر وابستگی متوالی، اقدام به استفاده از متونی میکردند که قبلا ترجمه شده بودند و این امکان را به هوش مصنوعی میدادند تا از دل متون ترجمهشده و مطابقت دادن آن با متن اصلی، دست به الگویابیهای نامحدود بزند. در نتیجه شبکههای عصبی بسیار قدرتمندی مانند ترانسفورمرها و BERT گوگل به وجود آمدند که کار جستوجو در اینترنت را خیلی راحتتر کردند. در روشهای قدیمی، آموزش ماشینهای ترجمه با استفاده از ورودیهایی با فرمتهای محدود صورت میگرفت که عمدتا شامل متن کتابهای پرفروش، مقالات چاپشده در ژورنالهای شناختهشده و متون رسمی درجشده در وبسایتها و نشریات بود.
در روشهای جدید اما علاوه بر این منابع از طیف وسیعی از منابع متنوع شامل انواع مقالات و کتابها، محتوای رسانههای اجتماعی، فیلمها و زنجیرهها، خاطرات سفر و هرگونه محتوای رسمی و غیررسمی قابلدسترس از طریق اینترنت بهعنوان ورودی سیستم استفاده میشود. به همین دلیل هم بود که وقتی گوگل شروع به استفاده از شبکههای عصبی عمیق در سرویس ترجمه گوگل کرد که با این نوع محتوا آموزش دیده بود، عملکردش تا ۶۰درصد افزایش پیدا کرد و سرویسی مطلوبتر و طبیعیتر را در اختیار کاربران بیشمارش در جهان قرار داد.
به هر حال، توانایی ترجمه متون و طبقهبندی کردن تصاویر یک چیز است و توانایی تولید و آفریدن متون و تصاویر و صداهای جدید چیز دیگر. برای چنین آفرینشی در ابتدا باید شبکههای عصبی مولد را با استفاده از متون و تصاویر تحت آموزش قرار داد و پس از تکمیل این آموزشهاست که این شبکهها خواهند توانست دست به تولید متنها و تصاویر جدیدی بزنند که قبلا وجود نداشتهاند و درعینحال کاملا واقعی بهنظر میرسند.
بااینهمه باید هوشیار بود که هر چقدر دامنه توانایی هوش مصنوعی در تولید و آفرینش محتوا افزایش بیشتری پیدا کند، بر احتمال آفرینش «دروغهای عمیق» و محتوای نادرستی که امکان تشخیص آنها از واقعیت بسیار سخت و گاه غیرممکن است نیز افزوده خواهد شد. باید توجه داشت همانطور که هوش مصنوعی مولد هم میتواند به غنیسازی فضای اطلاعاتی ما انسانها کمک کند و هم باعث گمراهی و گول خوردن ما شود، باید در برخورد با این ماشینهای آفریننده و سازنده جانب احتیاط را رعایت کرد و مواظب از بین رفتن مرز بین واقعیت و فانتزی بود.
یکی از بهترین تکنیکهای آموزشی رایج برای ایجاد هوش مصنوعی مولد بر مبنای قرار دادن دو شبکه با اهداف یادگیری تکمیلی در برابر همدیگر شکل گرفته که GAN نام دارد و مخفف عبارت «شبکههای مولد موافق» (Generative Adversarial Network) است که نقطه مقابل شبکههای مولد مخالف محسوب میشوند. هدف اصلی این شبکهها ایجاد تعداد زیادی خروجی بالقوه است. اگر بخواهیم در مقام مقایسه برآییم میتوانیم شبکههای مولد موافق را به شبکههایی تشبیه کنیم که اجرای توفان مغزی و ایدهپردازی نامحدود را بر عهده میگیرند، در حالی که شبکههای مولد مخالف به دنبال ارزیابی و سنجش ایدههای موجود و تفکیک آنها هستند. با اینحال در هوش مصنوعی عمیق امروز، هم شبکههای مولد موافق و هم مخالف بهصورت توأمان مورد استفاده قرار گرفته و آنچه در این شبکههای مولد آفریده میشود در اختیار شبکه دیگر نیز قرار داده میشود.
GPT-۳ قادر به تولید متنهایی کاملا شبیه به متنهای ساخته و پرداخته انسانهاست و نمونهای است از پیشرفتهترین مولدهای هوش مصنوعی که توانسته ترجمه زبان را به «تولید زبان» بسط و گسترش دهد. تنها کافی است چند لغت به او بدهید و آنچه از این ماشین فوقالعاده تحویل میگیرید جملاتی طبیعی و کاملا درست است که شما را به حیرت میاندازد یا میتوانید یک جمله موضوع به او بدهید و یک پاراگراف کامل و بینقص از او تحویل بگیرید. در واقع مبدلهایی مانند GPT-۳ قادر به شناسایی الگوهای موجود در عناصر متوالی مانند متون هستند و این قابلیت به آنها این امکان را میدهد که عناصر مشابه این الگوها را پیشبینی و تولید کنند. علاوه بر این، چنین مبدلهایی میتوانند با استفاده از حجم عظیم دیتای موجود در اینترنت حتی متنها را به تصاویر و تصاویر را به متن تبدیل کنند. با این همه باید دانست که خروجی نهایی این مبدلها همیشه و در همه حالت بینقص و بهینه نیست و بارها پیشآمده آنچه از این سیستمها خارج شده یکسری خروجیهای مبهم و گاه مضحک و خندهدار است. همین موضوع نشاندهنده وجود محدودیتها و نقاط ضعفی است که دانشمندان هوش مصنوعی در حال شناسایی و تلاش برای رفع آنها هستند.