تبلیغات
ایرانیکا - داده کاوی یک ابزار آنالیز مدیریتی

تجهیزات

آرشیو موضوعی

آخرین پست ها

اخبار خودرو

آرشیو

صفحات جانبی

لیست آخرین رویدادها

کتاب و نشریات

← آمار وبلاگ

  • کل بازدید :
  • بازدید امروز :
  • بازدید دیروز :
  • بازدید این ماه :
  • بازدید ماه قبل :
  • تعداد نویسندگان :
  • تعداد کل پست ها :
  • آخرین بازدید :
  • آخرین بروز رسانی :

نمایشگاه ها | همایش ها | کنفرانس ها | سمینارها

سایت صنعت ایران

داده کاوی یک ابزار آنالیز مدیریتی

چکیده

داده کاوی فرآیندی تحلیلی برای کاوش داده های طراحی شده است،که در جستجوی الگوهای سازگار، یا روابط سیستماتیک بین متغیرها است، و سپس به تائید این یافته ها با استفاده از الگوهای تشخیص داده شده می پردازد. استخراج اطلاعات مناسب از میان انبوه داده‏ها و تبدیل آنها به دانش مورد نیاز سازمانها، بویژه در تصمیم‌گیری‏های سازمانی٬ نیازمند استفاده از روش‏های نوین در این حوزه است. داده كاوی یكی از این ابزار و رویكردهاست كه در فضای مدیریت دانش سازمان‏ها به كشف دانش از پایگاه داده ها كمك می‏كند. این مقاله به بررسی ویژگی های منحصر به‏فرد این حوزه از فناوری و تکنیکهای استفاده از آن را نشان می دهد.


مقدمه

پیشینه طرح موضوع داده‏كاوی به دهه 1980 و به صورت جدی، به دهه 1990 برمی‏گردد. پیش از آن٬ از سیستم‏های جمع‏آوری و مدیریت داده‏ها و اصطلاحاً لایروبی داده‏ها استفاده می‏شد٬ اما به مرور زمان٬ استخراج و كشف سریع و دقیق اطلاعات با ارزش و پنهان از پایگاه داده‏ها به‏عنوان داده‏كاوی مورد توجه قرار گرفت. به این شكل بود كه فرایند داده‏كاوی به عنوان فرایند آماری و تجزیه و تحلیل درفرایند كشف دانش در پایگاه داده‏ها (KDD) پررنگ شد ،به حدی كه گاه٬ داده‏كاوی (DM) به‏عنوان مترادف كشف دانش در پایگاه داده‏ها(KDD) مورد استفاده قرار می‏گرفت[2]. امروزه فرایند استخراج اطلاعات معتبر٬ از پیش ناشناخته٬ قابل فهم و قابل اعتماد از پایگاه داده‏های بزرگ و استفاده از آن در تصمیم‏گیری و در فعالیت‏های تجاری داده‏كاوی نامیده می‏شود[1]. در تعاریف متعدد و متنوع برای داده‏كاوی برموضوعاتی نظیر: استخراج دانش كلان٬ كاوش در داده‏ها٬ تجزیه و تحلیل داده‏ها و یافتن روابط و الگوهای مطمئن بین داده‏ها تاكید می‏شود. هدف نهایی داده‏كاوی٬ ایجاد سیستم‏های پشتیبانی تصمیم‏گیری سازمانی است. داده‏كاوی به استخراج اطلاعات مفید و دانش از حجم زیاد داده‏ها می‏پردازد. داده‏كاوی٬ الگوهای حاوی اطلاعات را در داده‏های موجود جست‌وجو می‌كند. این الگوها و الگوریتم‏ها، می‏توانند توصیفی باشند یعنی داده‏ها را توصیف كنند و یا جنبه پیش‏بینی داشته باشند، یعنی از متغیرها برای پیش‏بینی ارزش‏های ناشناخته سایر متغیرها به‏كار روند. داده‏كاوی توصیفی، به‏دنبال یافتن اگرها در فعالیت‏ها یا اقدامات گذشته است و داده‏كاوی پیش‏بینانه با نگاه به سابقه٬ رفتار آینده را پیش‏بینی می‏كند[1].

حوزه فعالیتهای داده کاوی

هدف داده‏كاوی٬ تجزیه و تحلیلاكتشافی داده‏ها٬ كشف الگوها و قواعد و الگوریتم‏ها٬ مدل‏سازی پیش‏بینانه وجست‌وجوی انحرافات است. برای انجام این هدف٬ فرایند داده‏كاوی درجهت كشف دانش درمراحل مختلف انجام می‌شودكه عبارت است از:

1.        شناسایی هدف و فهم حوزه كاربرد آن است و مشخص می‏كند كه چه‏كاری٬ در چه حوزه‏ایانجام خواهد شد.

2.        انتخاب داده‏ها یعنی تعیین اهداف برای تجزیه و تحلیل و كشفآن

3.         آماده‏سازی داده‏ها شامل تمیزسازی داده‏ها

4.        اتخاذ بهترین روشداده‏كاوی برای دست‏یابی به اهداف

5.         اجرای داده‏كاوی یعنی به‏كارگیریالگوریتم

6.         ارزیابی و اعتبارسنجی یافته‏ها

7.        استفاده از نتایج و تثبیت وتحكیم دانش كشف شده

8.        تصمیم گیری براساس دانش كشف شده

اکتشاف در این مرحله معمولا با آماده سازی داده ها که ممکن است شامل تمیز کردن داده ها ، تبدیل داده ها ، زیر مجموعه های انتخاب آثار ضبط شده و انجام برخی از عملیات اولیه انتخابشروع می شود . سپس بسته به ماهیتتحلیلی ، این مرحله از فرایند استخراج داده ها ممکن است شامل هر انتخاب ساده و سرراست برای یک مدل رگرسیون استادانه درست شده را به تجزیه و تحلیل اکتشافی با استفاده از طیف گسترده ای از روش های گرافیکی و آماری به منظور شناسایی متغیرهای مربوطه و تعیین پیچیدگی از طبیعت مدل ها باشد. البته ناگفته نماند که داده کاوی معمولا با نوشتنمقدار زیادی گزارش و تحقیق و استعلام در آنها اشتباه گرفته می شود. اما در واقعداده کاوی هیچ کدام از اینها را شامل نمی شود. داده کاوی توسط تجهیزات خاصی صورتمی پذیرد، که عملیات کاوش را بر اساس تجزیه و تحلیل مکرر داده ها انجام می دهد. داده کاوی با آنالیز های متداول آماری نیز متفاوت است؛در زیرمی توان برخی ازاصلی ترین تفاوت های داده کاوی و آنالیز آماری را مشاهدهنمود:

آنالیز آماری:

          آمار شناسان همیشه با یک فرضیه شروع بهکار می کنند

          آنها از داده های عددی استفاده می کنند

          آمارشناسان بایدرابطه هایی را ایجاد کنند که به فرضیه آنها مربوط است

          آنها می توانند دادههای نابجا و نادرست را در طول آنالیز مشخص کنند

          آنها می توانند نتایج کار خودرا تفسیر و برای مدیران بیان کنند

داده کاوی :

          به فرضیه احتیاجیندارد

          ابزارهای داده کاوی از انواع مختلف داده ، نه تنها عددی می تواننداستفاده کنند

          الگوریتمهای داده کاوی به طور اتوماتیک روابط را ایجاد میکنند

          داده کاوی به داده های صحیح و درست نیاز دارد

          نتایج داده کاوینسبتا پیچیده می باشد و نیاز به متخصصانی جهت بیان آنها به مدیران دارد

جهتدرک بهتر تفاوت داده کاوی و آنالیزهای آماری به مثال زیر که در مورد شناختکلاهبرداری های شرکت بیمه می باشد، توجه کنید.

روش آنالیز آماری :

یک مفسر ممکن است متوجه الگوی رفتاری شود که سبب کلاهبرداری بیمه گردد. براساس این فرضیه، مفسر به طرح یک سری سوال می پردازد تا این موضوع را بررسی کند. اگرنتایج حاصله مناسب نبود، مفسر فرضیه را اصلاح می کند و یا با انتخاب فرضیه دیگریمجددا شروع می کند. این روش نه تنها وقت گیر است بلکه به قدرت تجزیه و تحلیل مفسرنیز بستگی دارد.مهمتر از همه اینکه این روش هیچ وقت الگوهای کلاهبرداری دیگریرا که مفسر به آنها مظنون نشده و در فرضیه جا نداده ، پیدا نمی کند.

روشداده کاوی :

یک مفسر سیستم های داده کاوی را ساخته و پس از طی مراحلی ازجمله جمع آوری داده ها، یکپارچه سازی و اخلاص داده ها به انجام عملیات دادهکاوی می پردازد. داده کاوی تمام الگوهای غیرعادی را که از حالت عادی و نرمالانحراف دارند و ممکن است منجر به کلاهبرداری شوند را پیدا می کند. نتایج دادهکاوی حالت های مختلفی را که مفسر باید در مراحل بعدی تحقیق کند، نشان می دهند. درنهایت مدل های به دست آمده می توانند مشتریانی را که امکان کلاهبرداری دارند، پیشبینی نمایند.

تحلیلهای داده‏کاوی به دو روش با ناظر و بدون ناظر و از طریق الگوریتمهایی چون شبکه های عصبی(NN)، طبقه بندی و درخت تصمیم (C&RT)، ژنتیک، تحلیل سبد خرید، شبکه کوهونن قابل اجراست. علاوه بر این الگوریتمهای رایج، همچنان الگوریتمهای جدیدی برای اهداف تحقیقات علمی یا تجاری از طریق طرحهای پژوهشی دانشگاهی، تولید می‏شود. ویژگیهای منحصر بفرد داده کاوی را می توان به صورت زیر برشمرد[3]:

         نه تنها بر فاز تحلیل، بلکه بر طراحی مطالعه و جمع آوری داده نیز تاثیر می گذارند

         امکان جستجوی پاسخ سؤالات دقیق و با پیچیدگی بالا را در دادههای جمع‏آوری شده فراهم می کنند.

         قادرند که به سؤالات بطور واضح و مشخص پاسخ دهند. مزیت اصلی و تفاوت آنها با سایر تکنیکها نیز در همین است که بجای ارائه صرف استراتژی کلان، پاسخهای دقیق در اختیار محقق قرار می دهند.

         امکان سنجش اثر متغیرهای مختلف بر روی متغیرهای وابسته را فراهم می کنند.

         به مدیران کمک می‏کنند که تأثیر سناریوهای آتی را مورد ارزیابی قرار دهند و با مدلسازی گزینه های متعدد و کمک به تصمیم گیری در شرایط عدم قطعیت به انتخاب مسیر حرکت بپردازند.

محققینی که تنها روابط دو به دو را در نظر میگیرند و از داده کاوی استفاده نمی کنند، ابزار قدرتمندی را از دست می دهند که می تواند اطلاعات سودمندی را در اختیار آنان قرار دهد. در مسائل واقعی چندین متغیر به طور همزمان بر روی پاسخ تاثیر می گذارند، از این رو آنالیزهای چندمتغیره جواب های دقیقتر و نزدیک به واقع تری را فراهم می کند. در شکل (1) فرایند کسب دانش از پایگاه دادهها به صورت شماتیک بیان شده است[4] همانطور که ملاحظه می شود یکی از گام های این فرایند، داده کاوی می باشد. موفقیت در این مرحله کاملا متاثر از سه گام قبل است بگونه ای که اگر هر کدام از مراحل قبلی به درستی انجام نپذیرد، نتایج حاصل از داده کاوی نه تنها مفید نبوده ممکن است گمراه کننده نیز باشد.

 

 شکل (1): فرآیند تبدیل دادها به دانش

تکنیکهای داده کاوی از جمله تکنیکهای نوین علمی هستند که در توصیف، تشریح، پیش بینی و کنترل پدیدهها به کار می روند[3]. این تکنیکها به اندازه‏گیری، تشریح و پیش‏بینی درجه وابستگی میان متغیرها میپردازند. روشهای داده‏کاوی نه تنها بر جنبه های تحلیلی مطالعات، بلکه در طراحی و ابزارهای جمع آوری داده برای تصمیم‏گیری و حل مسائل نیز تأثیر می‏گذارند. موفق‏ترین پروژههای داده‏کاوی، در چارچوب فرآیند استانداردی اجرا می شودکه توسط یک تیم کاری در شرکت SPSS در قالب پروژهای به نام CRISP-DM ارائه شده است[5]. برطبق CRISP-DM یک پروژه داده‏کاوی معین شامل چرخه حیاط شش مرحله‏ای است که توالی مراحل را نشان می دهد شکل (2). هر مرحله از ترتیب مراحل اغلب نتیجه وابستگی مراحل قبلی را نیز دربر دارد. مهمترین وابستگی بین مراحل نمایش پیکانها می باشد. خاصیت تکراری CRISP حاکی از چرخه بیرونی است که اغلب منجر به راه

 

شکل(2)  CRISP–DM در فرایند تکرار و سازگاری  مراحل

حلی برای مسئله تحقیقی یا تجاری با سوالات اضافی جالب توجه می شود. در زیر مراحل کاری در داده‏کاوی را توضیح می‏دهیم:

مرحله درک پروژه و فهم حوزه کاربرد: اولین مرحله پردازش استاندارد CRISP–DM   می باشد که به صورت آشکار اهداف و نیازمندیها آن مشخص می شود. ترجمه اهداف و محدودیت آن در قاعده‏سازی، تعریف مسئله داده‏کاوی و مهیا کردن استراتژی اولیه برای نائل شدن به اهداف تعریف می‏شود.

مرحله انتخاب دادها : این مرحله شامل جمع آوری دادها برای استفاده از تحلیل اکتشافی و مشخص کردن اطلاعات اولیه برای ارزیابی داده‏های با کیفیت و انتخاب دادهای مفید و مورد نیاز می باشد.

مرحله آماده سازی داده‏ها: آماده کردن داده‏های اولیه خام به داده‏های نهایی، این دادها در کلیه مراحل بعدی استفاده می شود و از این نظر این مرحله تحلیل و تلاش بیشتری را می طلبد. انتخاب عناصر و شناسه‏های تحلیل شده را برای کاوش داده‏ها اختصاص می دهیم. و با تمیز کردن دادهای خام آن را برای ابزارهای مدلسازی آماده می‏کنیم.

مرحله مدلسازی: با انتخاب و به‏کار بستن تکنیکهای مدلسازی مناسب و روش داده‏کاوی معین نتایج مدلسازی را بهینه می‏کنیم که در صورت نیاز می توانیم با برگشت به عقب تحلیل مدلسازی را بهینه تر نماییم.

مرحله ارزیابی: مشخص کردن اینکه آیا مدل انتخابی، ما را به اهدافمان که در اولین مرحله تعیین کردیم می‏رساند. اتخاذ تصمیم راجع به استفاده از نتایج داده‏کاوی برای اعتبارسنجی نیز در این مرحله انجام می‏شود.

مرحله تحکیم و گسترش :استفاده کردن از مدل ایجاد شده، برای مثال می تواند تولید یک گزارش ساده از خروجیها را نام برد، و برای یک مثال پیچیده تکمیل کردن پردازش داده‏کاوی موازی در سایر حوزه‏ها می باشد که این الگو‏ها به یک دانش مفید و قابل استفاده تبدیل می شوند و پس از بهبود آنها، الگوهایی که کارا محسوب می‏شوند در یک سیستم اجرایی به کار گرفته خواهند شد.

نتیجه گیری

بررسی اجمالی پژوهشهای صورت گرفته در حوزه دانش ابزراهای داده‏کاوی نشان می دهد که تحقیقات عمیق و اساسی در این باره خصوصاً در ایران اندك شمار است. از سوی دیگر با افزایش سرعت تحول در علوم، ضرورت استفاده از دانشهای نوین بیش از پیش محرز شده است . داده کاوی به عنوان یک رشته علمی نوین در زمینه بازیابی و استخراج اطلاعات می تواند نقش مهمی در جهت دستیابی به این اهدافداشته باشد. امروزه اکثر نرم افرار های پایگاه داده ای مثل ORACLE و SQL Server نیز شامل ابزارهایی داده کاوی شده اند ولی نرم افزار های تخصصی داده‏کاوی همچون Intelligent Miner , Darwin , Mine Set, Knowledge Studio, Data Mind از مهمترین ابزار های داده کاوی به شمار می روند. در این مقاله قابلیتهای دادهکاوی و مراحل کاری آن معرفی شد که در گامهای بعد می توان تأثیر آن را در عملآزمود.

مراجع

[1]      B. Fernandez / Et. Al., "Knowledge Management"/ Cho. 12, 2004.

[2]      N.Balac/ "Introduction To Data Mining" , 2006

[3]     Hair ،Joseph F., "Multivariate Data Analysis", Prentice Hall, 2005.

[4]     Daniel T. Larose, "Discovering Knowledge in Data: An Introduction to Data Mining" , 2004 .

[5]     www.spss.com/CRISP DM/ Downloads

[6]     Pang-Ning Tan, Steinbach, "Introduction to Data Mining", 2005 .

 

داده کاوی یک ابزار آنالیز مدیریتی

Data Mining an Analysis Implement Managemental

 

استاد راهنما : مهندس عمادی

ارائه دهنده : قربان مقدم زرزری

موسسه آموزش عالی روزبه زنجان

سایت های علمی

لینکستان

دانستنیها

اخبار و مقالات علمی

درباره وبلاگ

مقالات فنی و مهندسی
زندگینامه دانشمندان
مطالب آموزشی
مطالب عمومی
داستان های زیبا
مقالات علمی
سخنان بزرگان
سخنان مشاهیر
مدیر وبلاگ : سایت ایرانیکا

لینکدونی

جستجو

نظرسنجی

  • کدام یک از موضوعات وبلاگ بیشتر مورد علاقه شماست؟








----- banner place -------

نویسندگان