رفتن به نوشته‌ها

همه چیز در یادگیری عمیق هایپر-پارامتر است

یک چیز خوب درباره شبکه‌های عصبی یا به طور خاص یادگیری عمیق (دیپ لرنینگ) این است که این مدل‌ها بسیار قوی هستند و نتایج بسیار خوبی میدهند و یک نکته بدی که دارند این است که تقریبا در یادگیری عمیق همه چیز هایپر-پارامتر است و دقت الگوریتم شما خیلی به هایپر-پارامترها وابسته است یا به قول معروف:

Everything is a hyperparameter

بنابراین برای اینکه نتیجه‌ی خوبی بگیرید باید هایپر-پارامترهای شبکه‌اتون رو به درستی تنظیم (Tuning) کنید. برخی هایپر-پارامترهایی که ارزش دارند تنظیم‌اشون کنید میتواند موارد زیر باشند:

  • سایز یا عمق شبکه (تعداد لایه‌ها و تعداد نورون‌ها)
  • توابع فعالیت (اینکه از RELU استفاده بشه یا از tanh یا…)
  • استراتژی‌های مختلف برای ساختن batchها (سایز و ترتیب اشون چطوری باشد)
  • بهینه‌کننده شما چی باشد (SGD, Adam, …) و نرخ یادگیری شما چه میزان باشد.

یک مقاله خوب که اوایل سال میلادی ۲۰۱۷ آمد مقاله زیر بود که توسط گوگل منتشر شد و هایپر-پارامترهای مهمی که در ترجمه ماشین دخیل هستند را برروی دو دیتاست مختلف مقایسه کرده بود (برای بقیه تسک‌ها هم تقریبا نتیجه مشابهی دارد) و بنا به گفته‌ مقاله بیش از ۲۵۰هزار ساعت روی جی‌پی‌یو تست‌های مختلف انجام دادند تا به این نتایج برسند.

مقاله مرجع Massive Exploration of Neural Machine Translation Architectures

موارد زیر میشه گفت نتیجه مقاله است و برای توضیحات دقیق هریک از موارد بهتر است که مقاله اصلی رو مطالعه بفرمایید:

  • سلول‌های LSTM در تمام آزمایش‌ها از سلول‌های GRU بهترند.
  • embedding با اندازه ۲۰۴۸ بهترین نتایج را میدهند ولی embedding با اندازه ۱۲۸ هم به خوبی جواب میدهد و تفاوت آنها تنها کمتر از ۰.۵ درصد است.
  • انکدرهای دوجهته (Bi-directional encoder) با تعداد ۲ تا ۴ لایه بهترین عملکرد را دارند و لایه‌های بیشتر در اکثر موارد پایدار نیستند.
  • از بین دو مکانیزم اتنشن (attention) افزودنی (additive) مقاله آقای Bengio و ضربی (multiplicative) مقاله آقای Manning، مکانیزم افزودنی بهتر عمل میکند (این قسمت از مقاله را حتما بخوانید چون یک نقش دیگر برای مکانیزم اتنشن در مطرح کرده است که در نوع خود بسیار جالب است)
  • اندازه Beam-Search یک هایپر-پارامتر حیاتی است و اندازه ۵-۱۰ با میزان جریمه ۱.۰ در اکثر موارد بهترین نتیجه را میدهد.

در جدول زیر خلاصه بهترین هایپر-پارامترها رو میتونید ملاحضه بفرمایید:

پارامترهای مهم و میزان آنها

منتشر شده در پردازش زبان طبیعییادگیری عمیقیادگیری ماشین

نظر

  1. mrmrn mrmrn

    عالی بود.
    امیدوارم ادامه داشته باشه.

    • هادیفر هادیفر

      متشکرم 🙂

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *