یادگیری ماشینی چیست؟

پارسینه: در این مقاله به این موضوع می‌پردازیم که یادگیر ماشینی چیست؟ و با کاربرد‌های یادگیری ماشینی آشنا می‌شویم.

یادگیری ماشین یک روش آنالیز داده‌ها است که مدلسازی تحلیلی را اتومات سازی می‌کند. یادگیری ماشینی شاخه‌ای از هوش مصنوعی مبتنی بر این ایده است که سیستم‌ها می‌توانند از داده‌ها بیاموزند، الگو‌ها را شناسایی نمایند و تصمیماتی با حداقل مداخله انسان اتخاذ نمایند.

تکامل یادگیری ماشینی
با ظهور تکنولوژی‌های رایانشی جدید، یادگیری ماشینی امروز شبیه یادگیری ماشینی در گذشته نیست. این یادگیری از تشخیص الگو و این تئوری متولد شد که کامپیوتر‌ها بتوانند بدون برنامه‌ریزی شدن برای اجرای وظایف مشخص خودشان یادگیری را انجام دهند؛ پژوهشگران علاقه‌مند به هوش مصنوعی می‌خواستند که ببینند آیا کامپیوتر‌ها می‌توانند از داده‌های موجود، فرآیند یادگیری را انجام دهند یا نه.
جنبه تکراری یادگیری ماشین به این خاطر مهم است که وقتی مدل‌ها در معرض داده‌های جدید قرار می‌گیرند، آن‌ها قادرند خود را مستقلا تطابق دهند. آن‌ها محاسبات قبلی را برای تولید تصمیمات و نتایج قابل اتکا و تکرارپذیر یاد می‌گیرند.
این دانش جدیدی نیست، ولی در این اواخر بوده که انگیزش جدید یافته است.

با اینکه مدت‌های مدیدیست که الگوریتم‌های یادگیری ماشینی بسیاری وجود داشته‌اند، ولی قابلیت اعمال محاسبات ریاضی پیچیده بر روی داده‌های بزرگ (به طور مکرر، و مداما سریع‌تر) یک تحول جدید است. این‌ها معدودی از نمونه‌های بسیار علنی شده کاربرد‌های یادگیری ماشینی هستند که ممکن است با آن‌ها آشنایی داشته باشید:

- خودروی خودران گوگل که خیلی سر و صدا کرده است. شالوده یادگیری ماشینی.
- محصولات خدماتی آنلاینی همچون آمازون و نتفلیکس. کاربرد‌های یادگیری ماشینی برای زندگی همگان.
- اطلاع یافتن از اینکه مشتریان در توئیتر درباره شما چه می‌گویند. یادگیری ماشینی در ترکیب با قاعده سازی زبانی.
- تشخیص تقلب. یکی از استفاده‌های مهم و ضروری در دنیای امروز ما.

چرا یادگیری ماشینی مهم است؟
موج جدید ابراز علاقه به یادگیری ماشینی به علت همان عواملی است که داده کاوی را محبوب‌تر از همیشه کرده‌اند. چیز‌هایی مانند رشد حجم و تنوع داده‌های در دسترس، پردازش کامپیوتری که ارزان‌تر و قدرتمندتر است، و ذخیره‌سازی داده‌ها به شکلی مقرون به صرفه.

همه این چیز‌ها بدان معنا هستند که امکان تولید سریع و اتوماتیک مدل‌هایی که می‌توانند دادههای بزرگتر و پیچیده‌تر را آنالیز نموده و نتایج سریعتر و دقیقتری را ارائه نمایند (حتی در یک مقیاس بسیار بزرگ) وجود دارد؛ و با ایجاد مدل‌های دقیق، یک سازمان شانس بیشتری برای شناسایی فرصت‌های سودده (یا اجتناب از ریسک‌های ناشناخته) خواهد داشت.

چه چیزی برای ایجاد سیستم‌های خوب یادگیری ماشینی لازم است؟
- قابلیت‌های آماده سازی داده ها.
- الگوریتمها: پایه و پیشرفته.
- اتوماسیون و فرایند‌های مکرر.
- مقیاس پذیری.
- مدل سازی گروهی.
آیا می‌دانستید؟
در یادگیری ماشینی، یک هدف را یک برچسب می‌نامند.
در علم آمار، یک هدف یک متغیر وابسته نامیده می‌شود.
یک متغیر در آمار یک قابلیت در یادگیری ماشینی نامیده می‌شود.
یک تغییر حالت در آمار، در یادگیری ماشینی یک ایجاد قابلیت نامیده می‌شود.

چه کسی از یادگیری ماشین استفاده می‌کند؟
بیشتر شرکت‌هایی که با حجم عظیمی از داده‌ها کار می‌کنند ارزش تکنولوژی یادگیری ماشینی را به رسمیت شناخته اند. با استخراج بینش‌ها از این داده‌ها (اغلب به صورت آنی و بلادرنگ) سازمان‌ها می‌توانند کارائی خود را افزایش داده و بر رقبا مزیت نسبی پیدا کنند.

سرویس‌های مالی
بانک‌ها و کسب و کار‌های دیگر در صنعت مالی از تکنولوژی یادگیری ماشینی برای دو هدف کلیدی استفاده می‌کنند: شناسایی بینش‌های مهم در داده ها، و پیشگیری از تقلب. این بینش‌ها می‌توانند فرصت‌های سرمایه گذاری را شناسایی نمایند، یا به سرمایه گذاران برای اطلاع یافتن درباره زمان مناسب برای داد و ستد کمک کنند. همچنین داده کاوی می‌تواند مشتریانی که پروفایل‌های ریسک بالایی دارند را شناسایی کند، یا از نظارت سایبری برای اشاره به علائم هشدار تقلب استفاده نماید.

مراقبت از سلامت
یادگیری ماشینی روندی پرسرعت در صنعت سلامت دارد که به لطف ابداع سنسور‌ها و دستگاه‌های پوشیدنی حاصل شده است که می‌توانند از داده‌ها برای ارزیابی بلادرنگ سلامت یک بیمار استفاده کنند. این تکنولوژی می‌تواند به کارشناسان پزشکی برای آنالیز داده‌ها برای شناسایی روند‌ها و علائم هشداردهنده‌ای که ممکن است منتج به بهبود تشخیص و درمان شوند کمک نماید.

نفت و گاز
یافتن منابع جدید انرژی. آنالیز مواد معدنی موجود در زمین. پیش بینی خرابی سنسور پالایشگاه. تسهیل توزیع نفت برای افزایش بهره وری و مقرون به صرفگی آن. موارد استفاده متعددی برای یادگیری ماشینی در این صنعت وجود دارد - و همچنان در حال بسط است.

دولت
آژانس‌های دولتی همچون ایمنی عمومی و شرکت‌های خدمات زیرساختی نیاز ویژه‌ای به یادگیری ماشینی دارند، زیرا منابع داده‌های متعددی دارند که برای کسب بینش‌ها قابل کاوش هستند. آنالیز داده‌های سنسور، به عنوان مثال، راه‌های افزایش بهره وری و صرفه جویی در پول را مشخص می‌کند. یادگیری ماشینی همچنین می‌تواند به شناسایی تقلب و حداقلسازی سرقت هویت نیز کمک می‌کند.

بازاریابی و فروش
وب سایت‌هایی که آیتم‌های احتمالیی که ممکن است بپسندید را بر مبنای خرید‌های قبلیتان توصیه می‌کنند از یادگیری ماشین برای آنالیز سوابق خریدتان، و تبلیغ آیتم‌های دیگری که ممکن است به آن‌ها علاقه‌مند باشید، استفاده می‌کنند. این توانایی ثبت داده ها، آنالیز آن و استفاده از آن برای سفارشی سازی یک تجربه خرید (یا پیاده سازی یک کمپین بازاریابی) آینده خرده فروشی است.

حمل و نقل
آنالیز داده‌ها برای شناسایی الگو‌ها و روند‌ها نقشی کلیدی در صنعت حمل و نقل دارد، که بر کاراتر نمودن مسیر‌ها و پیشبینی مسائل بالقوه برای افزایش قابلیت سوددهی می‌کند. آنالیز داده‌ها و مدلسازی جنبه‌های یادگیری ماشینی ابزار‌های مهمی برای شرکت‌های تحویل بار، حمل و نقل عمومی و دیگر سازمان‌های ترابری هستند.

برخی از روش‌های رایج یادگیری ماشینی کدامند؟
یادگیری با نظارت و یادگیری بی نظارت دو تا از پرکاربردترین روش‌های یادگیری ماشینی هستند -، ولی روش‌های دیگر یادگیری ماشینی نیز وجود دارند. ذیلا مروری اجمالی بر رایجترین انواع ارائه شده است.

الگوریتم‌های یادگیری با نظارت با استفاده از نمونه‌های برچسب خورده، همچون ورودی در جائی که خروجی مطلوب معلوم باشد، آموزش داده می‌شوند. به عنوان مثال، یک تجهیز می‌تواند نقاط داده‌هایی داشته باشد که با برچسب "F" (خراب) یا "R" (مشغول به کار) مشخص شده اند. این الگوریتم یادگیری مجموعه‌ای از ورودی‌ها را در امتداد خروجی‌های صحیح متناظر دریافت می‌کند، و الگوریتم با مقایسه خروجی واقعی آن با خروجی‌های درست یادگیری را انجام می‌دهد، و سپس مدل را بر اساس آن اصلاح می‌کند. از طریق روش‌هایی همچون طبقه بندی، رگسیون، پیشبینی و ارتقای گرادیان، یادگیری با نظارت از الگو‌هایی برای پیشبینی مقادیر برچسب بر روی دادههای بدون برچسب استفاده می‌کند. یادگیری نظارت شده عموما در کاربرد‌هایی استفاده می‌شود که در آن‌ها داده‌های تاریخی رویداد‌های محتمل آتی را پیش‌بینی می‌کنند. به عنوان مثال، این می‌تواند زمانی که تراکنش‌های کارت اعتباری ممکن است جعلی باشند یا اینکه کدام مشتری بیمه ممکن است اقامه دعوی کند را پیشبینی نماید.

یادگیری بی نظارت در قبال داده‌هایی استفاده می‌شود که هیچ برچسب تاریخی ندارند. به این سیستم «پاسخ صحیح» آموزش داده نمی‌شود. این الگوریتم باید سر در بیاورد که چه چیزی در حال نمایش داده شدن است. هدف، کنکاش در داده‌ها و یافتن ساختار موجود در آن است.

یادگیری بی نظارت بر روی داده‌های تراکنشی خوب عمل می‌کند. به عنوان مثال، این روش می‌تواند مشتریانی که شاخصه‌های مشابهی دارند را شناسایی نماید تا بدین طریق از آن پس در کمپین‌های بازاریابی رفتاری مشابه با آن‌ها شود؛ و یا اینکه می‌تواند شاخصه‌های اصلیی را بیابد که مشتریان را دسته بندی کنند. تکنیک‌های مشابه شامل نقشه‌های خودسازماندهی، نقشه برداری نزدیکترین همسایه، خوشه بندی k-means و تجزیه ارزش تکین می‌شوند. این الگوریتم‌ها برای بخشبندی مباحث متنی، آیتم‌های توصیه شده و شناسایی نقاط پرت داده‌ها نیز استفاده می‌شوند.

یادگیری نیمه‌نظارتی برای همان کاربرد‌های یادگیری با نظارت استفاده می‌شود. ولی این روش از هر دو نوع داده‌های برچسب خورده و نخورده برای آموزش استفاده می‌کند - که نوعا حجم اندکی از داده‌های برچسب خورده با حجم بالایی از داده‌های برچسب نخورده را شامل می‌شود (چرا که داده‌های برچسب نخورده ارزانتر بوده و کسب ان‌ها نیاز به تلاش کمتری دارد). این نوع از یادگیری را می‌توان با روش‌هایی همچون طبقه بندی، رگرسیون و پیشبینی استفاده نمود. یادگیری نیمه‌نظارتی وقتی مفید است که هزینه مرتبط با یادگیری بالاتر از آن باشد که اجازه یک فرایند آموزش کاملا برچسب خورده را بدهد. مثال‌های اولیه این عبارتند از: شناسایی چهره یک فرد بر روی یک وبکم.

یادگیری تقویتی اغلب برای رباتیک، گیمینگ و ناوبری استفاده می‌شود. با یادگیری تقویتی، این الگوریتم از طریق آزمون و خطا کشف می‌کند که چه اقداماتی بهترین نتایج را در پی دارند. این نوع از یادگیری سه جزء اولیه دارد: عامل (یادگیرنده یا تصمیمگیرنده)، محیط (هر چیزی که عامل با آن تعامل می‌کند) و اقدامات (اقداماتی که عامل می‌تواند انجام دهد). هدف آن است که عامل اقداماتی را انتخاب نماید که نتیجه مورد انتظار را در یک مدت مشخص حداکثرسازی نماید. عامل با دنبال کردن یک خط مشی خوب خیلی سریعتر به این هدف خواهد رسید. از اینرو هدف یادگیری تقویتی یادگیری بهترین خط مشی است.

انسان‌ها معمولا می‌توانند هفته‌ای یک یا دو مدل را ایجاد نمایند؛ یادگیری ماشین می‌تواند هزاران مدل را در یک هفته را خلق کند.
گزیده‌ای از صحبت‌های توماس اچ دیونپورت، راهبر تفکر تحلیلی، با وال استریت ژورنال

نحوه عملکرد یادگیری ماشینی
برای دستیابی به بیشترین ارزش از یادگیری ماشین، شما باید نحوه تزویج بهترین الگوریتم‌ها با ابزار‌ها و فرایند‌های مناسب را یاد بگیرید.

الگوریتم‌های یادگیری ماشین شامل این موارد می‌شوند:
شبکه‌های عصبی؛ درخت‌های تصمیم؛ جنگل‌های [تصمیم]تصادفی؛ کشف ارتباط‌ها و توالی؛ دسته بندی و افزایش شیب؛ ماشین‌های بردار پشتبانی؛ نگاشت نزدیکترین همسایه؛ خوشه‌بندی کی-میانگین؛ نقشه‌های خودسازماندهی؛ تکنیک‌های بهینه سازی جستجوی محلی (مثلا الگوریتم‌های ژنتیک)؛ حداکثرسازی انتظار؛ اسپلاین‌های رگرسیون تطبیقی چندگانه؛ شبکه‌های بیزی؛ برآورد چگالی شالوده؛ برآورد چگالی شالوده؛ آنالیز جزء اصلی؛ تجزیه مقدار تکین؛ مدل‌های ترکیب گوسی؛ قاعده سازی پوشش پی در پی.