هوش مصنوعی جدید گوگل و صدای انسانیاش
این سیستم ادعا میکند که با دقت بسیا بالایی میتواند صدای انسان را تقلید کند. این سیستم، دومین نسل از این تکنولوژی است که توسط گوگل عرضه میشود و متشکل از ۲ شبکه عصبی عمیق است- deep neural networks اولین شبکهای است که قادر است متن را به اسپتوگرام(پی دی اف) تبدیل کند- یک راه بصری برای نشان دادن فرکانسهای صوتی در طول زمان. در مرحله بعد اسپتوگرام با WaveNet تغذیه میشود. WaveNet سیستمی است که توسط مرکز آزمایشی هوش مصنوعی شرکت آلفابت شکل گرفته است، این سیستم میتواند جداول ارائه شده را خوانده و اِلمانهای صوتی مورد نظر را بر اساس آن تولید کند.
محققان گوگل همچنین ثابت کردند که Tacotron ۲ میتواند کلمات و اسامی سخت تلفظ را ادا کند و به علاوه قوانین نقطهگذاری را نیز رعایت میکند. برای مثال در زبان انگلیسی روی حروف بزرگ، تاکید یا استرس قرار میگیرد که نشان میدهد کلمه مورد نظر در جمله اهمیت خاصی دارد. برخلاف برخی از تحقیقات اصلی که این شرکت انجام داده، این تکنولوژی بلا فاصله برای گوگل کارآمد بوده است. WaveNet اولین بار در ۲۰۱۶ معرفی شد و حالا در تولید صدای دستیار صوتی گوگل مورد استفاده قرار میگیرد. Tacotron ۲ نیز به محض آمادگی میتواند بهعنوان یکی از بزرگترین قابلیتهای دستیار صوتی این شرکت، معرفی شود. این برنامه به گونهای طراحی شده که فعلا فقط قادر است صدای یک زن را ادا کند، برای صحبت با صدای مردان یا صداهای مختلف زنان، این سیستم باید آموزش بیشتری ببیند.
ارسال نظر