با نگاه کردن به آرایه، میتوانیم حدس بزنیم که مقدار میانگین احتمالاً حدود ۸۰ یا ۹۰ است و همچنین میتوانیم بالاترین و پایینترین مقدار را تعیین کنیم، اما چه کارهای دیگری میتوان انجام داد؟
همچنین با مشاهده پایگاه داده میتوان دریافت که رنگ سفید پرطرفدارترین رنگ است و قدیمیترین خودرو ۱۷ سال سن دارد. اما اگر بتوانیم تنها با مشاهده سایر مقادیر، پیشبینی کنیم که آیا یک خودرو دارای مجوز خودکار است یا نه، چه میشود؟
این همان کاری است که یادگیری ماشین انجام میدهد! تحلیل دادهها و پیشبینی نتایج!
در یادگیری ماشین، معمولاً با مجموعه دادههای بسیار بزرگ کار میشود. در این آموزش، سعی میکنیم مفاهیم مختلف یادگیری ماشین را به سادهترین شکل ممکن توضیح دهیم و با مجموعه دادههای کوچک و قابلفهم کار کنیم.
انواع دادهها
برای تحلیل دادهها، مهم است که بدانیم با چه نوع دادهای سروکار داریم. میتوان دادهها را به سه دسته اصلی تقسیم کرد:
– عددی (Numerical)
– دستهای (Categorical)
– ترتیبی (Ordinal)
دادههای عددی (Numerical Data) شامل اعداد هستند و خود به دو دسته تقسیم میشوند:
1- دادههای گسسته (Discrete Data)
دادههایی که شمارششدنی هستند و تنها به مقادیر صحیح محدود میشوند. مثل تعداد خودروهایی که از یک خیابان عبور میکنند.
2- دادههای پیوسته (Continuous Data)
دادههایی که اندازهگیریشدنی هستند و میتوانند هر مقدار عددی داشته باشند. مثل قیمت یک کالا یا اندازه یک شیء.
دادههای دستهای (Categorical Data) دارای مقادیری هستند که قابل اندازهگیری در برابر یکدیگر نیستند. مثل مقدار رنگ یک خودرو (قرمز، آبی، سفید) یا مقدارهایی که پاسخ آنها بله/خیر است.
دادههای ترتیبی (Ordinal Data) شبیه دادههای دستهای هستند، اما میتوان آنها را در برابر یکدیگر سنجید و مرتب کرد. مثل نمرات مدرسه که در آن نمره A بهتر از نمره B است و همینطور ادامه دارد.
با دانستن نوع دادههای موجود در منبع داده خود، میتوان تصمیم گرفت که از چه تکنیکی برای تحلیل آنها استفاده کنیم.
در بخش های بعدی و با دنبال کردن آموزشگاه برنامه نویسی بابل، آموزشگاه لمپا، مطالب بیشتری درباره آمار و تحلیل دادهها خواهیم آموخت.
0 دیدگاه