خانه / علوم داده / داده کاوی چیست؟
داده کاوی
داده کاوی

داده کاوی چیست؟

در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب می‌شوند و یادگیری آن‌ها از الزامات یادگیری داده‌کاوی است. هدف از این نوشته پرداختن به هر یک از این مفاهیم همراه با جزئیات نیست، بلکه یک دید کلی از آن‌ها به منظور آماده‌سازی ذهن مخاطب ارائه خواهد شد و برای مطالعه همراه با جزئیات هر مبحث، لینک‌هایی در متن و انتهای این نوشته قرار گرفته است.

مفاهیم مقدماتی

در ادامه برخی مفاهیم مقدماتی داده‌کاوی و علم داده مورد بررسی قرار می‌گیرند.

نویز

«نویز» (Noise | نوفه) از یک سو، در تعریف به نمادها و سمبل‌ها و یا داده‌های ایجاد شده به صورت تصادفی که فاقد معنای خاصی هستند گفته می‌شود. بر همین اساس، گاهی داده‌هایی که دارای خطا هستند نویزی (دارای نویز) نامیده می‌شوند. از جمله این داده‌ها می‌توان به «مقادیر ناموجود» (Missing Values) و مقادیر غلط (مانند عدد ۲۰۰۰ برای وزن یک انسان) اشاره کرد. از سوی دیگر، تفاوت بین یک مدل و پیش‌بینی‌های آن را نویز گویند.

 

داده

«داده»ها (Data) نمادها و سمبل‌های خامی هستند که به تنهایی فاقد معنای کامل هستند. از جمله داده‌ها می‌توان به تراکنش‌ها، اعداد، متن، تصاویر و ویدئوها اشاره کرد.

قالب داده

اقلام داده ممکن است در قالب‌های گوناگون مانند متن، اعداد صحیح، اعداد اعشاری، تصاویر و ویدئوها باشند. نوع داده در «پایگاه داده» (Database) را «قالب داده» (Data Format) گویند.

داده‌های خارجی

«داده‌های خارجی» (External Data)، داده‌هایی هستند که در داخل یک سازمان گردآوری و ذخیره نشده‌اند. از جمله این داده‌ها می‌توان به داده‌های موجود در کتاب‌های مرجع، منابع داده دولتی و داده‌های وب اشاره کرد.

داده‌های داخلی

داده‌های گردآوری شده در یک سازمان مانند داده‌های مشتریان و عملیات سازمانی را «داده‌های داخلی» (Internal Data) گویند.

Overlay

داده‌هایی که توسط سازمان گردآوری نشده‌اند، مانند داده‌های پایگاه داده اختصاصی که با داده‌های خود سازمان ترکیب می‌شوند را «Overlay» گویند.

داده کاوی

«داده‌کاوی» (Data Mining)، علمی میان‌رشته‌ای شامل الگوریتم‌های «یادگیری ماشین» (Machine Learning)، روش‌های آماری و «سیستم‌های مدیریت پایگاه داده» (Database Management Systems) به شمار می‌آید. هدف از انجام فرآیند داده‌کاوی کشف الگوهای مهم و جالب توجه در میان حجم انبوه داده‌ها است. در واقع، از داده‌کاوی برای استخراج اطلاعات از حجم زیادی از داده‌ها استفاده می‌شود. این اطلاعات در زمینه‌های گوناگون از جمله «تحلیل بازار» (Market Analysis)، «تشخیص کلاهبرداری» (Fraud Detection)، «حفظ مشتری» (Customer Retention)، «کنترل تولید» (Production Control) و اکتشافات علمی قابل استفاده هستند.

مفاهیم داده کاوی

فرآیند داده‌کاوی دارای هفت گام «پاک‌سازی داده» (Data Cleaning)، «تبدیل داده» (Data Transformation)،‌ «یکپارچه‌سازی داده» (Data Integration)، «انتخاب ویژگی» (Feature Selection)، «داده‌کاوی» (Data Mining)، «ارزیابی الگو» (Pattern Evaluation) و «ارائه دانش» (Knowledge Representation) است. امکان دارد هر یک از این گام‌ها طی فرآیند داده‌کاوی بیش از یک بار انجام شوند. به چهار گام اول «پیش‌پردازش» (Pre-Processing) نیز گفته می‌شود. شایان توجه است که «کشف دانش از داده» (Knowledge Discovery From Data | KDD) عنوانی بهتر برای آنچه فرآیند داده‌کاوی نامیده می‌شود به شمار می‌آید، ولیکن به دلایل گوناگون از جمله طولانی بودن، عبارت داده‌کاوی پرکاربردتر و متداول‌تر است.

 

موتور داده‌کاوی

«موتور داده‌کاوی» (Data Mining Engine) قلب حقیقی معماری داده‌کاوی محسوب می‌شود و شامل ابزارها و نرم‌افزارهایی است که برای کسب بینش و دانش از داده‌های کسب شده از منبع داده و ذخیره شده در «انبار داده» (Data Warehouse) به کار گرفته می‌شوند. یک موتور داده‌کاوی قدرتمند دارای سه مولفه اساسی است که در ادامه بیان شده‌اند.

  • موتور داده‌کاوی نیازمند مفسر است. مفسر می‌تواند دستورات تعریف شده در موتور داده‌کاوی را به کامپیوتر انتقال دهد.
  • نیاز به چرخ‌دنده‌های ارتباطی بین موتور داده‌کاوی و انبار داده برای تولید و مدیریت ارتباطات این دو در هر دو جهت وجود دارد.
  • نیاز به دستورالعمل‌ها و الگوریتم‌هایی برای هدایت فرآیند داده‌کاوی است.

به طور کل باید گفت وجود موتور داده‌کاوی برای سیستم‌های داده‌کاوی بسیار حائز اهمیت محسوب می‌شود. این موتور دربردارنده مجموعه‌های متعددی از ماژول‌های تابعی است و کارکردهای گوناگونی مانند «مشخصه‌سازی» (Characterization)، «تحلیل انجمنی و همبستگی» (Association and Correlation Analysis)، «دسته‌بندی» (Classification)، پیش‌بینی، «تحلیل خوشه» (Cluster analysis)، «تحلیل دورافتادگی» (Outlier analysis) و «تحلیل تکاملی» (Evolution analysis) را شامل می‌شود.

پایگاه دانش

«پایگاه دانش» (Knowledge Base) دامنه‌ای از دانش و در واقع فناوری مورد استفاده برای ذخیره‌سازی داده‌های پیچیده ساخت یافته و غیر ساخت یافته است. از این پایگاه برای هدایت کردن اکتشافات در فرآیند داده‌کاوی شامل گام‌های «پاک‌سازی داده‌ها» (Cleaning of data)، یکپارچه‌سازی داده‌ها، انتخاب داده، تبدیل داده‌ها، داده‌کاوی، ارزیابی الگو و ارائه دانش استفاده می‌شود.

داده‌های ناموجود

امکان دارد مقادیر داده به دلایل گوناگون شامل اندازه‌گیری نشدن (مثلا در پایگاه داده اطلاعات کودکان مبتلا به تالاسمی قد فرد اندازه‌گیری نشده و بدون مقدار است)، پاسخ داده نشدن به پرسش موجود در فرم‌ها (مثلا فرد مشخص نکرده که گواهینامه رانندگی دارد یا خیر)، ناشناخته بودن مقادیر (مثلا عدد اشتباه برای سن فرد وارد شده) یا گم شدن داده‌ها وجود نداشته باشند. این داده‌ها، «داده ناموجود» (Missing data) محسوب می‌شوند. روش‌های داده‌کاوی بسته به گونه‌ای که با داده‌های ناموجود برخورد می‌کنند متفاوت هستند.

جایگزینی مقادیر ناموجود

داده‌های غیر قابل اجرا

مقادیر ناموجودی که به لحاظ منطقی غیر ممکن هستند و یا طور مشخص مرتبط با دامنه‌ای که برای آن وارد شده‌اند نیستند را «داده‌های غیر قابل اجرا» (Non-applicable Data) گویند.

پاک‌سازی

پاک‌سازی داده‌ها (Cleaning | Cleansing)، یک گام از فرآیند داده‌کاوی و جزئی از پیش‌پردازش داده‌ها محسوب می‌شود که طی آن داده‌ها برای فعالیت‌های داده‌کاوی آماده‌سازی می‌شوند. خطاهای آشکار داده‌ها در این مرحله شناسایی، اصلاح و «داده‌های ناموجود» (Missing Data) با مقادیری (این مقادیر به روش‌های گوناگون قابل محاسبه هستند) جایگزین می‌شوند.

یکپارچه‌سازی داده‌ها

«یکپارچه‌سازی داده‌ها» (Data Integration)، یکی از گام‌های فرآیند داده‌کاوی و از مراحل پیش‌پردازش داده‌ها است. از این کار برای ادغام داده‌های گردآوری شده از منابع داده ناهمگون در یک مخزن داده همبسته استفاده می‌شود. این مخزن در برگیرنده داده‌های ناسازگار است، بنابراین نیاز به پاک‌سازی داده‌ها در آن وجود دارد.

 

تبدیل

«تبدیل» (Transformation) یک گام از فرآیند داده‌کاوی و پیش پردازش داده‌ها است. در این گام یک بیان مجدد از داده‌ها با انجام تجمیع دوباره، نرمال‌سازی و تغییر واحدهای اندازه‌گیری آن‌ها ارائه می‌شود.

بصری‌سازی

ابزارهای «بصری‌سازی» (Visualization)، داده‌ها را به صورت بصری نمایش می‌دهند تا درک بهتری از معنای آن‌ها حاصل شود. ابزارهای بصری‌سازی گرافیکی طیفی از نمودارهای نقطه‌ای ساده تا ارائه‌های پیچیده چند بُعدی را دارند.

بصری‌سازی داده‌ها

استقرار

هنگامی که مدل ساخته و اعتبارسنجی شد، از آن برای تحلیل داده‌های جدید و انجام پیش‌بینی استفاده می‌شود. بنابراین، به استفاده از مدل «استقرار» (Deployment) گفته می‌شود.

DBMS

«DBMS» سرنامی برای «Database Management System» (سیستم مدیریت پایگاه داده) است. «سیستم مدیریت پایگاه داده»، سیستم نرم‌افزاری مورد استفاده برای ساخت و مدیریت پایگاه داده به شمار می‌آید. DBMS یک راهکار سیستماتیک برای کاربران و برنامه‌نویسان جهت ساخت، بازیابی، به روز رسانی و مدیریت داده‌ها فراهم می‌کند.

RDBMS

«RDBMS» سرنامی برای «Relational Database Management System» (سیستم مدیریت پایگاه داده رابطه‌ای) است. این سیستم در واقع پایگاه داده‌ای ساخته شده بر اساس مدل رابطه‌ای است.

رابط کاربری

«رابط کاربری» (User Interface | UI) در معنای عام به فضایی گفته می‌شود که تعامل میان انسان و ماشین رخ می‌دهد. در واقع رابط کاربری بخش قابل مشاهده از یک ابزار است که کاربر آن را مشاهده می‌کند. در داده‌کاوی نیز آن بخش از نرم‌افزارها و ابزارهای مورد استفاده که برای کاربر قابل مشاهده است (چه در ابزارهای پایگاه داده و چه زبان‌های برنامه‌نویسی مانند پایتون و R که برای انجام تحلیل به کار می‌روند) رابط کاربری محسوب می‌شود. برخی از نقش‌های رابط کاربری در ادامه بیان شده‌اند.

  • رابط انسان و ماشین جهت تعیین وظایف «پرس‌و‌جوی» (Query) داده‌کاوی
  • فراهم کردن اطلاعات برای کمک به متمرکزسازی جست‌و‌جوها
  • کاوش بر اساس نتایج میانی داده‌کاوی
  • مرور شمای پایگاه داده و انبار داده یا ساختارهای داده
  • ارزیابی الگوهای کاوش شده
  • بصری‌سازی الگوها به اشکال گوناگون

انواع ویژگی

یک مجموعه داده از نمونه‌ها و ویژگی‌ها (خصیصه‌ها) تشکیل می‌شود. یک ویژگی، فیلد داده‌ای است که مشخصه‌های یک شی داده را ارائه می‌کند. واژگان بُعد و متغیر معمولا در ادبیات این حوزه با معنای مشابه به کار می‌روند. اصطلاح بُعد به طور معمول توسط کارشناسان انبار داده مورد استفاده قرار می‌گیرد. نوع یک ویژگی توسط مجموعه‌ای از مقادیر ممکن تعیین می‌شود. این انواع شامل «اسمی» (nominal) که به آن «دسته‌ای» (categorical) نیز گفته می‌شود، «دودویی» (binary) و «عددی» (numeric) می‌شوند.

پیوسته

«داده‌های پیوسته» (Continuous) می‌توانند هر مقداری را در یک بازه از اعداد حقیقی بپذیرند. این مقدار الزاما نباید صحیح باشد. داده‌های پیوسته متفاوت و به نوعی متضاد داده‌های گسسته (Discrete) یا دسته‌ای هستند.

گسسته

یک قلم داده که دارای مجموعه متناهی از مقادیر است را «گسسته» گویند. گسسته در اینجا متضاد «پیوسته» است.

داده‌های دسته‌ای

به طور کلی، «داده‌های دسته‌ای» (Categorical Data) قرار گیری داده‌ها در تعداد کمی از دسته‌های گسسته است. داده‌های دسته‌ای به شیوه مشخصی تعریف می‌شوند. برخی از این داده‌ها از جمله اسامی شهرها یا جنسیت افراد فاقد ترتیب و مواردی مانند دمای هوا (بالا، متوسط و پایین) دارای ترتیب هستند.

بسته‌بندی

«بسته‌بندی» (Binning) یکی از روش‌های آماده‌سازی داده‌ها طی فرآیند کاوش جهت تبدیل داده‌های پیوسته به گسسته است. در این روش، نیاز به جایگزینی یک مقدار از طیف پیوسته با یک شناساگر «بسته» (bin) است.

ابعاد

هر «ویژگی» (Feature | Attribute) در مجموعه داده را که به صورت یک فیلد در فایل مسطح یا ستون در جداول پایگاه داده رابطه‌ای ذخیره شده است یک «بُعد» (Dimension) گویند. تعداد کل ویژگی‌ها، ابعاد مجموعه داده را مشخص می‌کند.

ابعاد مجموعه داده

جبر خطی و آمار

روش‌های آماری و مباحث جبر خطی کاربردهای بسیاری در علم داده و داده‌کاوی دارند. از جمله مفاهیم آماری پر کاربرد در داده‌کاوی می‌توان به معیارهای تمرکز و شاخص‌های پراکندگی اشاره کرد.

میانگین

مقادیر یک مجموعه از داده‌های عددی را «میانگین حسابی» (Mean) گویند. میانگین انوع گوناگون و کاربردهای متنوعی در داده‌کاوی دارد.

میانه

مقدار موجود در وسط مجموعه‌ای از داده‌های مرتب شده را میانه گویند. به بیان دیگر، مقداری با تعداد مقادیر پیشین و پسین مشابه را میانه گویند.

مُد

یک نقطه تصمیم‌گیری در دسته‌بندی مقدار مُد (Mode) است. اگر بیش از یک مقدار دارای تعداد تکرار مشابهی باشد، داده «چندمدلی» (multi-model) است.

معیارهای مرکزی

نرمال‌سازی

«نرمال‌سازی» (Normalization)، تبدیل داده‌ها به مقادیر بدون واحد به منظور مقایسه بهتر آن‌ها است. این امر موجب می‌شود داده‌ها دارای هیستوگرامی مشابه داده‌های اصلی ولی در بازه جدیدی مثلا ۰ و ۱ باشند. انجام این کار برای همه ورودی‌های شبکه عصبی و همچنین ورودی‌های مدل رگرسیون مفید است.

کمترین مربعات

«کم‌ترین مربعات» (Least Squares) متداول‌ترین روش آموزش وزن‌های مدل است. بدین منظور، نیاز به انتخاب وزن‌هایی است که انحراف مجموع مربعات از مقادیر پیش‌بینی شده مدل را کمینه کنند. این کار با استفاده از مقادیر مشاهده شده داده‌ها امکان‌پذیر است.

واریانس

«واریانس» (Variance) پر کاربردترین سنجه آماری مورد استفاده برای پراکندگی است. در محاسبه واریانس، گام اول آن است که مربع انحراف اقلام داده از مقدار میانگین آن‌ها مشخص شود. سپس، میانگین مربع انحرافات باید محاسبه شود. بنابراین واریانس به عنوان معیاری برای برآورد کلی تغییرپذیری مورد نیاز است.

MARS

«MARS» سرنامی برای «Multivariate Adaptive Regression Splines» (رگرسیون چند متغیره اسپیلاین) و راهکاری برای عمومی‌ساز ی درخت‌های تصمیم است.

بیشینه درست‌نمایی

«بیشینه‌سازی درست‌نمایی» (Maximum Likelihood) روشی برای تخمین یا آموزش مدل است. این تخمین از یک پارامتر، مقدار پارامتری است که نیاز به بیشینه‌سازی احتمال داده‌ها دارد. این داده‌ها از جامعه تعریف شده توسط پارامترها می‌آیند.

روش‌های داده‌کاوی

روش‌های داده‌کاوی در واقع روال‌ها و الگوریتم‌هایی هستند که برای تحلیل داده‌ها در پایگاه داده مورد استفاده قرار می‌گیرند. این روش‌ها در سه دسته «نظارت شده» (Supervised)، «نظارت نشده» (Unsupervised) و «نیمه نظارت شده» (Semi-Supervised) قرار می‌گیرند.

تحلیل‌های اکتشافی

به جست‌و‌جو در داده‌ها به منظور کشف ارتباطاتی که پیش از این شناخته نشده‌اند «تحلیل اکتشافی» (Exploratory Analysis) گفته می‌شود. ابزارهای تحلیل اکتشافی اغلب به کاربر در ساخت جداول و نمایش گرافیکی کمک می‌کنند.

استنتاج

با «استنتاج کردن» (Deduction)، اطلاعاتی که دارای توالی منطقی در داده‌ها هستند حاصل می‌شوند.

استقرا

«استقرا» (Induction) روشی است که طی آن با استفاده از اطلاعات موجود در داده‌ها کلیت استنباط می‌شود.

استاندارد شده

مجموعه‌ای از روش‌ها که در آن تحلیل‌ها از یک متغیر خوش‌تعریف (شناخته شده) وابسته استفاده می‌کنند را «استاندارد شده» (Standardize) گویند.

OLAP

ابزارهای «پردازش تحلیلی برخط» (Online Analytical Processing | OLAP) به کاربر قابلیت انجام تحلیل‌های چند بُعدی داده‌ها را می‌دهد.

متغیر مستقل

«متغیر مستقل» (Independent Variable)، متغیری است که در معادله برای پیش‌بینی متغیر خروجی استفاده می‌شود.

متغیر وابسته

«متغیر وابسته» (Dependent Variable)، از جمله متغیرهای مدل است که باید توسط معادله مدل و با استفاده از متغیرهای مستقل پیش‌بینی شود.

یادگیری

آموزش مدل‌ها (تخمین پارامترهای آن‌ها)، بر پایه داده‌های موجود را «یادگیری» (Learning) گویند.

یادگیری مدل

یادگیری نظارت نشده

گروهی از روش‌ها که در آن‌ها داده‌ها بدون استفاده از متغیرهای وابسته تعریف شده‌اند را «یادگیری نظارت نشده» (Unsupervised Learning) گویند.

آموزش

«آموزش» (Training) اصطلاحی است که برای تخمین پارامترهای مدل بر پایه مجموعه داده موجود مورد استفاده قرار می‌گیرد.

داده‌های آموزش

«داده آموزش» (Train Data)، یک مجموعه داده است که برای تخمین یا آموزش مدل مورد استفاده قرار می‌گیرد.

داده‌های تست

یک مجموعه داده مستقل از داده‌های آموزش که برای تنظیم تخمین پارامترهای مدل (مانند وزن‌ها) مورد استفاد قرار می‌گیرد را «مجموعه داده تست» (Test Data Set) گویند. از مجموعه داده تست برای ارزیابی عملکرد مدل‌های نظارت شده آموزش دیده نیز استفاده می‌شود.

درجه برازش

«درجه برازش» (Degree of fit) سنجه‌ای است که نشان می‌دهد مدل چه میزان با داده‌های آموزش برازش شده است.

بیش برازش

آموزش دیدن بیش از اندازه مدل با داده‌های آموزش که قابلیت تعمیم مدل را از بین برده و موجب می‌شود مدل برای داده‌های تست و داده‌های جدید پاسخ غلط داشته باشد را «بیش برازش» (Over Fitting) گویند.

وابستگی

«وابستگی» (association)، نوعی از الگوریتم‌های داده‌کاوی است. از این الگوریتم برای ساخت قوانینی که مشخص می‌کنند رویدادها چگونه با هم به وقوع پیوسته‌اند استفاده می‌شود و به آن «قواعد وابستگی» (Association Rules) گفته می‌شود.

تالی

هنگامی که وابستگی بین دو متغیر تعریف شده باشد، آیتم دوم تالی نامیده می‌شود.

پشتیبان

«پشتیبان» (Support) سنجه‌ای است که نشان می‌دهد چند وقت یکبار مجموعه اقلام در یک وابستگی هم‌زمان به وقوع می‌پیوندند و به صورت درصدی برای همه تراکنش‌ها نشان داده می‌شود. برای مثال، در ۲ درصد از خریدهای یک ابزار فروشی، بیل و کلنگ هم‌زمان خریداری شده‌اند.

شیوع

«شیوع» (Prevalence) سنجه‌ای است از اینکه چند وقت یک بار مجموعه‌ای از اقلام در یک وابستگی به طور همزمان به وقوع می‌پیوندند.

Right-hand side

هنگامی که نیاز به تعریف وابستگی در میان دو متغیر باشد، آیتم دوم در «سمت راست» (Right-hand side) قرار دارد.

کشف توالی

همچون الگوریتم وابستگی، در «کشف توالی» (Sequence Discovery) نیز توالی سری‌های زمانی وجود دارد. برای مثال، ۲۰ درصد از افرادی که VCR خریده‌اند، یک دوربین ویدئویی نیز طی ۴ ماه خریداری کرده‌اند.

لایه

اساسا، گره‌ها در یک «شبکه عصبی» (Neural Networks) در «لایه‌ها» (layers) گروه‌بندی می‌شوند. همچنین، هر لایه به عنوان ورودی، خروجی یا پنهان تعریف می‌شود. تعداد گره‌های خروجی با متغیرهای خروجی برابر است. معمولا یک یا دو لایه پنهان در یک شبکه عصبی وجود دارد.

شبکه عصبی

بازگشت به عقب

«بازگشت به عقب» (Backpropagation) نوعی از روش‌های آموزش مدل است. از این روش برای محاسبه وزن‌ها در «شبکه عصبی» (Neural Network) با استفاده از داده‌ها استفاده می‌شود.

پیش‌خور

یک «شبکه عصبی پیش‌خور» (Feedforward Neural Network)، شبکه‌ای است که سیگنال‌های آن از ورودی گرفته تا خروجی تنها در یک جهت قرار می‌گیرند.

توپولوژی

در یک شبکه عصبی، «توپولوژی» (Topology) به تعداد لایه‌ها و تعداد گره‌های هر لایه باز می‌گردد.

دسته‌بندی

«دسته‌بندی» (Classification)، روشی برای حل مسائل داده‌کاوی است که طی آن دسته داده‌های موجود، با ساخت یک مدل پیش‌بینی می‌شود. مدل مذکور برپایه تعدادی متغیر پیش‌بین ساخته می‌شود.

درخت تصمیم

از «درخت تصمیم» (Decision Tree) برای ارائه مجموعه‌ای از قواعد سلسه‌مراتبی که منتج به یک کلاس یا مقدار می‌شوند استفاده می‌شود.

درخت تصمیم

درخت دسته‌بندی

درخت دسته‌بندی نوعی درخت تصمیم است که «متغیرهای دسته‌ای» (Categorical Variables) را در کلاس‌ها قرار می‌دهد.

درخت رگرسیون

«درخت رگرسیون» (Regression Tree)، یک درخت تصمیم است که مقدار متغیرهای پیوسته را پیش‌بینی می‌کند.

CART

CART به درخت‌های دسته‌بندی و رگرسیون گفته می‌شود و در واقع سرنامی برای عبارت «Classification And Regression Tree» است. در این روش، متغیرهای مستقل در گروه‌های کوچک‌تری قرار گرفته و در واقع جداسازی می‌شوند و یک تابع ثابت برای مجموعه داده‌های کوچک‌تر برازش داده می‌شود. در درخت رگرسیون مقدار میانگین پاسخ برای مجموعه داده‌های کوچک متصل برازش داده می‌شود.

CHAID

«CHAID» سرنامی برای عبارت «Chi-squared Automatic Interaction Detector» (شناساگر تعامل خودکار خی دو) است. این الگوریتم برای برازش درخت‌های دسته‌ای مورد استفاده قرار می‌گیرد و برای جداسازی داده‌ها در مجموعه‌های داده‌های کوچک متصل بر آمارهای خی دو تکیه دارد.

برگ

گره‌ای در درخت رگرسیون یا دسته‌بندی که قابل تقسیم نیست را «برگ» (Leaf) گویند.

هرس کردن

حذف سطح پایین‌تر در درخت تصمیم را «هرس کردن» (Pruning) گویند. همچنین، از این اصطلاح برای تشریح الگوریتم‌ها نیز استفاده می‌شود. زیرا می‌توان از این اصطلاح برای تنظیم توپولوژی یک شبکه عصبی با حذف (هرس کردن) گره‌های پنهان استفاده کرد.

گره

یک نقطه تصمیم‌گیری در یک درخت تصمیم را «گره» (Node) گویند. همچنین، یک نقطه در شبکه عصبی که نیاز به ترکیب ورودی‌ها از دیگر گره‌ها دارد را گویند.

k-نزدیک‌ترین همسایگی

«k-نزدیک‌ترین همسایگی» (k-nearest neighbor)، یک روش دسته‌بندی است که نقاط داده را با محاسبه فاصله میان آن‌ها دسته‌بندی می‌کند. سپس، نقطه را به دسته‌ای که بیشترین همسایه‌های آن قرار دارند تخصیص می‌دهد (k در این الگوریتم مقدار صحیح است).

k-نزدیک‌ترین همساییگی

الگوریتم ژنتیک

«الگوریتم ژنتیک» (Genetic Algorithm) یک روش کامپیوتری برای تولید و ارزیابی ترکیبی از پارامترهای ورودی محتمل است. این الگوریتم باید خروجی بهینه را پیدا کند و از فرآیندی بر مبنای مفاهیم «تکامل طبیعی» (Natural Evolution) مانند «ترکیب ژنتیکی» (Genetic Combination)، «جهش» (Mutation) و «انتخاب طبیعی» (Natural Selection) در این راستا استفاده می‌کند.

ارزیابی مدل

یک مدل داده‌کاوی پس از نهایی شدن، باید از ابعاد گوناگون از جمله ارائه پاسخ‌های صحیح برای داده‌های جدید و قابلیت تعمیم مورد بررسی قرار بگیرد و «ارزیابی» (Evaluation) شود.

اعتبارسنجی

فرآیند ارزیابی مدل با مجموعه داده متفاوت از مجموعه داده آموزش را «اعتبارسنجی» (Validation) گویند.

ماتریس درهم‌ریختگی

«ماتریس درهم‌ریختگی» (Confusion Matrix) از جمله روش‌های ارزیابی الگوریتم‌های داده‌کاوی به ویژه در یادگیری نظارت شده محسوب می‌شود که نشان می‌دهد دسته چه تعداد از داده‌ها به درستی پیش‌بینی شده است. همچنین جزئیات دیگری نیز در همین رابطه به دست می‌دهد.

اعتبارسنجی متقابل

«اعتبارسنجی متقابل» (Cross-Validation) روشی برای تخمین صحت یک مدل رگرسیون است. در این روش، مجموعه داده به چندین بخش شامل داده‌های «آموزش» (Train)، «آزمون» (Test) و «اعتبارسنجی» (Validation) تقسیم می‌شود. داده‌های آموزش برای برازش مدل و داده‌های آزمون و اعتبارسنجی برای ارزیابی مدل برازش شده با داده‌های آموزش مورد استفاده قرار می‌گیرند.

ارزیابی مدل

معیارهای بهینه‌سازی

«معیار بهینه‌سازی» (ٰOptimization Criterion)، یک تابع مثبت از تفاوت بین پیش‌بینی‌ها و تخمین‌های داده‌ای است که انتخاب شده‌اند، تا تابع یا ساخت را بهینه‌سازی کنند. کمترین مربعات و بیشینه‌سازی درست‌نمایی از جمله معیارهای بهینه‌سازی محسوب می‌شوند.

تحلیل تمایز

«تحلیل تمایز» (Discriminant analysis) نوعی از روش‌های آماری است که بر پایه «بیشینه درست نمایی» (maximum likelihood)برای تعیین مرزها بنا نها شده است. این مرزها باید داده‌ها را در دسته‌های جداگانه‌ای قرار دهند.

آنتروپی

«آنتروپی» (Entropy | بی‌نظمی) روشی برای محاسبه بی‌نظمی در داده‌ها است که بر مدل احتمالی تکیه دارد. برخی از درخت‌های تصمیم، داده‌ها را به گروه‌هایی بر مبنای حداقل آنتروپی تقسیم می‌کنند.

R-squared

R-squared عددی است بین ۰ و ۱ که اندازه‌گیری می‌کند یک مدل چقدر خوب روی مجموعه داده‌های آموزش برازش شده است. صفر حاکی از آن است که مدل هیچ توانایی پیش‌بینی ندارد. این روش «کوواریانس» (Covariance) بین مقادیر پیش‌بینی و مشاهده شده که توسط «انحراف معیار» مقادیر پیش‌بینی و مشاهده شده تقسیم شده‌اند را محاسبه می‌کند.

سایر مفاهیم

دیگر مفاهیم مورد استفاده در این حوزه در ادامه بیان شده‌اند.

منطق فازی

«منطق فازی» (Fuzzy Logic)، بر مجموعه‌های فازی اعمال شده است. عضویت در یک مجموعه فازی دارای درجه‌ای است که الزاما ۰ یا ۱ نیست. منطق غیر فازی خروجی‌هایی را دستکاری می‌کند که درست یا غلط هستند. منطق فازی نیاز به دستکاری درجه «امکان» علاوه بر درست و غلط دارد.

منطق فازی

نقشه ویژگی Kohonen

«نقشه ویژگی Kohonen» نوعی از شبکه‌های عصبی است که از یادگیری نظارت نشده برای یافتن الگوها در داده‌ها استفاده می‌کند. در داده‌کاوی، از این روش برای تحلیل خوشه استفاده می‌شود.

دورافتادگی

به طور کلی، «دورافتاده‌ها» (outliers) اقلام داده‌ای هستند که از جامعه مورد نظر داده‌ها نیامده‌اند.

 دامنه

دامنه داده‌ها تفاوت بین مقدار بیشینه و مقدار کمینه است. به طور هم‌زمان، یک دامنه می‌تواند شامل کمینه و بیشینه باشد.

تعامل

«تعامل» (Interaction) زمانی به وقوع می‌پیوندد که دو متغیر مستقل با یکدیگر تعامل داشته باشند. به عبارت دیگر هر گاه تغییر مقدار یک متغیر، اثر بر متغیر وابسته دیگری را تغییر دهد تعامل به وقوع پیوسته است.

خطای وضعیت مجدد

تخمین خطا بر پایه تفاوت بین مقادیر پیش‌بینی شده و مقادیر موجود در مجموعه داده آموزش را «خطای وضعیت مجدد» (Resubstitution Error) گویند.

نمونه‌برداری

ساخت یک زیر مجموعه از کل داده‌ها را «نمونه‌برداری» (Sampling) گویند. نمونه‌برداری تصادفی در تلاش برای نشان دادن همه چیز با انتخاب داده‌های نمونه از طریق یک مکانیزم تصادفی است.

نمونه‌برداری

تحلیل حساسیت

تنوع پارامترهای یک مدل به منظور ارزیابی تغییرات در ورودی را «تحلیل حساسیت» (Sensitivity Analysis) گویند.

پردازش موازی

پردازش انجام شده توسط چندین کامپیوتر یا واحد پردازش مرکزی (CPU | Central Processing Unit) که به یکدیگر متصل شده‌اند و می‌توانند به طور هم‌زمان محاسبات انجام دهند را «پردازش موازی» (Parallel Processing) گویند.

SMP

«SMP» سرنامی برای عبارت «Symmetric Multi-processing» (چند پردازشی متقارن) محسوب می‌شود و پیکربندی کامپیوتری است که در آن پردازنده‌های زیادی یک سیستم‌عامل واحد، حافظه اصلی و دیسک را با یکدیگر به اشتراک می‌گذراند. این پردازنده‌ها می‌توانند روی بخش‌های گوناگون مساله به طور همزمان کار کنند.

خطای تست

تخمین خطا بر پایه مجموعه تفاوت بین پیش‌بینی‌های مدل روی داده‌های تست و مقادیر مشاهده شده در مجموعه داده‌های تست هنگامی که داده‌های تست برای آموزش مدل مورد استفاده قرار نگرفته‌اند را «خطای تست» (Test Error) گویند.

سری‌های زمانی

یک سری از مقادیر که در نقاط متوالی در زمان به وقوع پیوسته‌اند را «سری زمانی» (Time Series) گویند. سری‌های زمانی نوعی داده محسوب می‌شوند.

سری‌های ز مانی

مدل سری‌های زمانی

«مدل سری‌های زمانی» (Time Series Model) نوعی مدل است که مقادیر آینده یک سری زمانی را بر اساس مقادیر پیشین محاسبه می‌کند.

پنجره‌سازی

از «پنجره‌سازی» (Windowing) هنگامی استفاده می‌شود که یک مدل با داده‌های سری زمانی آموزش داده می‌شود. یک پنجره، یک دوره از زمان برای هر مورد آموزش است. برای مثال،فرض می‌شود داده‌های قیمت‌های هفتگی بازار بورس برای ۵۰ هفته موجود باشند. پس باید پنجره را روی ۵ هفته تنظیم کرد. علاوه بر این، اولین مورد آموزش از هفته‌های یکی تا پنج استفاده کرده و پیش‌بین‌های آن را با هفته ششم مقایسه می‌کند. علاوه بر این، مورد دوم از هفته دو تا شش را برای پیش‌بینی هفته هفتم مورد استفاده قرار می‌دهد و به همین صورت.

نتیجه‌گیری

واژگان بیان شده در بالا و تعاریف آن‌ها از پر کاربردترین مفاهیم مورد استفاده در زمینه داده‌کاوی هستند. این واژگان در این مطلب به صورت کلی شرح داده شدند تا چشم‌اندازی کلی از آن‌ها حاصل شود. برای درک جزئیات هر یک، می‌توان از لینک‌های ارائه شده در مطلب استفاده کرد. همچنین، برای علاقمندان به یادگیری داده‌کاوی به طور کامل، مجموعه آموزش‌های آمار، احتمالات و داده‌کاوی توصیه می‌شود.

 

برگرفته از فرادرس

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *