رفتن به نوشته‌ها

آیا به ۱۰۰‌ها دسته‌بندی کننده برای حل مسائل دنیای واقعی نیاز داریم؟

یکی از چالش‌هایی که در پروژه‌های تجاری وجود دارد انتخاب الگوریتم مناسب برای تسک موردنظر است. این که چه الگوریتمی برای کار فلان انتخاب کنم که بهترین نتیجه رو بگیرم در خیلی موارد شاید وقت بسیاری رو از تیم بگیره و در نهایت هم وقتی میرید و الگوریتم بعدی رو تست میکنید میبینید که اون بهتره و گاهی وقتی داده‌های مشتری عوض میشه میبینید که الگوریتم که انتظار نداشتید داره بهتر عمل میکنه. به طور کلی، قانونی به نام No free launch وجود دارد که میگه یک الگوریتم که برای همه تسک‌ها عالی عمل کنه وجود نداره:

The “No Free Lunch” theorem states that there is no one model that works best for every problem.

برای دسته‌بندی (classification) همین قضیه باپرجاست و احتمالا شما نمیتونید یک classifier بنویسید که برای تمام تسک‌ها به نحو احسنت عمل کند. عنوان این پست ترجمه مقاله معروف Do we Need Hundreds of Classifiers to Solve Real World Classification Problems? است. این مقاله در سال ۲۰۱۴ و در ژورنال معروف JLMR به چاپ رسیده است.

در این مقاله به مقایسه ۱۷۹ دسته‌بندی کننده از ۱۷ خانواده مختلف (شبکه عصبی، بیزین، درخت تصمیم و SVM، قائده محور (rule based) و .. ) روی ۱۲۱ دادگان میپردازد. در بیشتر دادگان random forest از مابقی بهتر عمل میکند و بعد از آن الگوریتم‌های خانواده SVM هستند.

کارهای زیادی در مقاله اشاره شده است تا حد امکان مقایسه انجام شده عادلانه‌تر باشد. فارق از نتیجه مقاله، نحوه ارزیابی و کارهایی که برای ارزیابی انجام شده است احتمالا در کارهایی که میکنید میتواند به کار بیاد (انجام T-test، cross validation و بایاس نشدن روی یک دادگان و…).

منتشر شده در آموزشیادگیری ماشین

اولین باشید که نظر می دهید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *