داده‌كاوي - تاريخچه و كاربردها

امير توكلي كاشي ( ceo@raha.co.ir) - مصطفي خرم‌نژادي

پاييز 1384

مقدمـه

امروزه پايگاه‌هاي داده‌ها بسيار بزرگ شده‌اند و حجم برخي از آنها به بيش از يك ترابايت (هزار گيگابايت) رسيده است. درون اين حجم از داده‌ها اطلاعات راهبردي مهمي به صورت مخفي وجود دارد. اما سؤال اينجاست كه چگونه مي‌توانيد از اين حجم بزرگ داده‌ها يك نتيجه‌ي مفيد به دست آوريد؟

تازه‌ترين راه حل براي استخراج اطلاعات مخفي از درون بانك‌هاي اطلاعاتي، «داده‌كاوي» است كه روشي پربازده و نسبتاً كم‌هزينه مي‌باشد. پيش از اين سازمان‌هاي نوآورِ جهاني، از داده‌كاوي براي مكان‌يابي و جذب مشتري‌هاي با ارزش‌تر و طراحي مجدد محصولات‌شان با هدف فروش بيشتر و كاهش ضررهاي ناشي از اشتباهات يا كلاه‌برداري‌ها استفاده كرده‌اند.

داده‌كاوي فراينديست كه از ابزارهاي متنوع تحليل داده‌ها، براي كشف الگوهـا و ارتباط‌هاي پنهان موجود در داده‌ها استفاده مي‌كند. نتايج داده‌كاوي براي پيش‌بيني رفتار و تحليل روندهاي آينده استفاده مي‌شود.

در فرايند داده‌كاوي با نگاه به گذشته مي‌توان درباره‌ي آينده، پيش‌بيني‌هايي را انجام داد و به سؤال‌هاي تجاري‌اي پاسخ گفت كه روش‌هاي سنتي حل آنها بسيار زمان‌بر بوده و يا حتي در مواردي غيرممكن مي‌نمودند. امروزه در بسياري از شركت‌ها و سازمان‌هاي نوآور از داده‌كاوي براي يافتن و جذب مشتري‌هاي با ارزش‌تر، فروش بيشتر، كاهش ضررهاي ناشي از خطاهاي تجاري يا كلاهبرداري‌ها و طراحي مجدد محصولات استفاده مي‌شود.

اولين و ساده‌ترين قدم در داده‌كاوي، توصيف داده‌هاست. اين كار به طور خلاصه شامل بررسي خواص آماري داده‌ها (مانند متوسط و انحراف استاندارد)، بررسي گرافيكي از طريق گراف‌ها و چارت‌ها و جستجو براي يافتن پيوندهاي پر معني بالقوه در ميان متغييرها (مانند مقاديري كه اغلب با هم رخ مي‌دهند) است. در فرايند داده‌كاوي جمع‌آوري و انتخاب داده‌هاي صحيح، بسيار مهم هستند.

پس از توصيف داده‌ها، در مرحله‌ي بعد بايد براساس الگوهايي كه از نتايج معلوم به دست آمده‌اند يك مدل پيش‌بيني ساخت و آن را بر روي نتايج خارج از نمونه‌ي اوليه آزمايش كرد. هرگز نبايد يك مدل خوب را با واقعيت اشتباه گرفت (زيرا نمي‌توان نقشه‌ي مسير را نماينده‌ي كامل مسير واقعي دانست) اما اين مدل مي‌تواند راهنماي خوبي براي فهميدن برخي فرصت‌ها و تهديدها باشد.

گام آخر داده‌كاوي اين است كه صحت مدل را به طور تجربي تعيين كنيم. براي نمونه، از يك پايگاه داده‌ها كه اطلاعاتي در مورد مشتري‌ها را در خود نگاه مي‌دارد، مدلي براي پيش‌بيني پاسخ مشتري‌ها به پيشنهاد خريد محصولات در آينده ساخته شده است. آيا مي‌توان به پيش‌بيني‌هاي اين مدل اعتماد كرد؟ براي پاسخ به اين پرسش مي‌توان با برخي از مشتري‌هاي احتمالي پيشنهاد را مطرح و نتيجه را بررسي كرد.

 

تاريخچه‌ي داده‌كاوي

تكنيك‌هاي داده‌كاوي نتيجه‌ي يك فرايند طولاني تحقيق و توسعه است. اين تحول از زماني شروع شد كه اطلاعات تجاري براي اولين بار بر روي رايانه‌ها ذخيره شد و همزمان با بهبود در دسترسي به اطلاعات پيشرفت كرد. اين پيشرفت تا جايي ادامه پيدا كرد كه امروزه كاربران مي‌توانند تقريباً بلافاصله پس از جستجو نتايج را بدست آورند و اين در حالي است كه هنوز هم اين پيشرفت‌ها ادامه دارد.

داده‌كاوي به دليل رشد در سه حوزه‌ي زير كاربردي شده است:

· مجموعه‌ي بزرگ داده‌ها: اندازه و حجم پايگاه‌هاي داده به شدت بزرگ شده‌اند و اين رشد هنوز هم ادامه دارد؛

· توان پردازش رايانه‌ها: پردازنده‌هاي قوي‌تر پردازش موازي و پردازش آن‌لاين؛

· الگوريتم‌هاي داده‌كاوي: بيش از ده سال است كه وجود دارند و امروزه بسيار توسعه يافته‌اند.

جدول زير مراحل رشد و توسعه در حوزه‌ي مسائل مرتبط با « اطلاعات» را در حوزه‌هاي «مسائل تجاري»، «فنّـاوري توان‌افزا»، «توليدكنندگان» و «ويژگي‌ها» نمايش مي‌دهد.

قدم تكاملي

مسائل تجاري

فنّـاوري توان‌افزار

توليد كنندگان

ويژگي‌ها

جمع‌آوري اطلاعات (دهه‌ي 1960)

«مجموع سود من در پنج سال اخير چقدر بوده است؟»

رايانه، نوارهاي مغناطيسي، ديسك

آي‌بي‌ام، سي‌دي‌سي

نگاه به گذشته، اطلاعات استاتيكي

دسترسي به اطلاعات (دهه‌ي 1980)

«فروش يك واحد خاص در يك كشور خاص، در ماه گذشته چقدر بود؟»

پايگاه داده‌ي منظم، زبان جستار ساختار يافته، اُدي‌بي‌سي

اراسل، سي‌بييس اينفرميكس، آي‌بي‌ام، مايكروسافت

نگاه به گذشته، اطلاعات ديناميكي در حد آخرين اطلاعات

مخزن اطلاعات و پشتيباني از تصميم (دهه‌ي 1990)

«فروش يك واحد خاص در يك كشور خاص، در ماه گذشته چقدر بود؟ با توجه به شرايط يك واحد ديگر»

پردازش تحليلي آن‌لاين، بانك اطلاعاتي چند بعدي، مخازن اطلاعاتي

پايلوت، كمشير، آربور، كگنوس، ميكرواستراتژي

نگاه به گذشته، اطلاعات ديناميكي در سطوح مختلف

داده‌كاوي (حال حاضر)

«براي فروش يك واحد خاص در ماه آينده چه اتفاقي خواهد افتاد؟ چرا؟»

الگوريتم‌هاي پيشرفته، رايانه‌هاي چندپردازنده‌اي، بانك‌هاي اطلاعاتي بسيار حجيم

پايلوت، لاكهيد، آي‌بي‌ام، اس‌جي‌آي، نيومروس، استارت‌آپس

نگاه به آينده، جستار فعال اطلاعات

 

 

داده‌كاوي چه كاري را نمي‌تواند انجام دهد؟

داده‌كاوي يك ابزار است نه يك عصاي جادويي. داده‌كاوي چيزي نيست كه بر روي پايگاه داده‌ها بنشيند تا چيزهايي كه اتفاق ميفتد را تماشا كند و هر وقت يك الگوي جالب يافت، يك نامه براي شما بفرستد! اين ابزار نمي‌تواند نياز به دانستن داد و ستد و فهميدن داده‌ها يا فهميدن متدهاي تحليلي را رفع كند. داده‌كاوي با يافتن الگوها و ارتباط‌ها در داده‌ها به تحليل‌گر كمك مي‌كند ولي ارزش اين الگوها را بيان نمي‌كند. به علاوه بايد درستي الگوهاي يافت شده اثبات گردد.

بايد به ياد داشت كه رابطه‌هاي پيش‌گويانه لزومـاً سبب يك رفتار يا عمل نمي‌شود. براي نمونه ممكن است الگويي بدين صورت يافت شود كه افراد با درآمد بالا كه مجلات خاصي را مشترك هستند، به احتمال زياد خريدار يك محصول بخصوص نيز خواهند بود. با اينكه مي‌توان با ارزيابي فروش محصولات، اين الگو را بهينه كرد ولي نبايد فرض كرد كه وجود چنين معياري در مـورد يك گروه از افراد سبب خريد آن محصول توسط آنها خواهد شد.

شناخت داده‌ها براي اطمينان از با معني بودن نتايج به دست آمده خيلي مهم است. كيفيت نتايج اغلب به داده‌هاي غير عادي و ستون‌هاي بي‌ربط يا ستون‌هايي كه با هم تغيير مي‌كنند (مانند سن وتاريخ تولد) و روش به رمز درآوردن داده‌ها و داده‌هاي رها شده و داده‌هاي مستثني شده بستگي دارد. الگوريتم‌ها نيز با توجه به نوع داده‌ها تغيير مي‌كنند و لذا عاقلانه نيست كه براي تصميم‌گيري صحيح، فقط به محصولات داده‌كاوي وابسته باشيم.

داده‌كاوي بدون راهنمايي و به صورت خودكار نمي‌تواند راه حل‌ها را بيابد. ممكن است هدف نهايي به جاي فروش بيشتر به افراد، بررسي ويژگي‌هاي مشتري‌هايي باشد كه يك خريد عمده انجام داده‌اند. با داده‌كاوي ممكن است الگوهاي يافت شده براي اين دو هدف بسيار متفاوت باشند.

اگرچه يك ابزار داده‌كاوي خوب، كاربر را از پيچيدگي‌هاي روش‌هاي آماري دور نگاه مي‌دارد، ولي هنوز نياز به دانستن طرز كار ابزارهاي انتخاب شده و الگوريتم‌هاي به كار رفته در آنها وجود دارد. چرا كه تنظيم‌هاي انتخاب شده براي ابزارهاي داده‌كاوي و بهينه‌سازي‌ها بر روي سرعت و دقت مدل اثر مي‌گذارند.

داده‌كاوي جايگزين مديران يا تحليل‌گران ماهر نمي‌شود اما به آنها ابزاري جديد و پرقدرت مي‌دهد تا به سرعت، كارهايي را كه انجام مي‌دهند بهبود دهند. هر شركتي كه داد و ستدها و مشتري‌هايش را مي‌شناسد از الگوهايي استفاده كرده است كه كارمندانش طي ساليان فعاليتشان مشاهده كرده‌اند.كاري كه داده‌كاوي مي‌تواند انجام دهد تأييد مشاهدات تجربي و يافتن چيزهاي جديدي است كه پيشتر ديده نشده بودند.

داده‌كاوي و ذخيره‌سازي داده‌ها

هميشه داده‌هايي كه بايد داده‌كاوي شوند ابتدا بايد از يك مخزن داده‌ها استخراج و به يك پايگاه داده‌ها يا مركز داده‌هاي داده‌كاوي منتقل شود. بهتر است داده‌ها بخشي از يك پايگاه داده‌ها باشد. زيرا كار پاك‌سازي داده‌ها براي يك مخزن داده‌ها و نيز داده‌كاوي خيلي شبيه است. اگر داده‌ها پيش از اين براي يك مخزن داده‌ها پاك‌سازي شده باشند ديگر نيازي به پاك‌سازي بيشتر براي كاوش ندارند. به علاوه بسياري از مشكلات تركيب داده‌ها و نگهداري جايگاه هر داده نيز حل خواهد شد. لازم به ذكر است كه به جاي زيرمجموعه‌اي فيزيكي از مخزن داده‌ها ميتوان از پايگاه داده استفاده كرد.

 

شكل 1- مركز داده‌هاي داده‌كاوي از يك پايگاه داده‌ها استخراج مي‌شوند

داده‌كاوي نيازي به يك مخزن داده‌ها ندارد. نصب يك پايگاه داده‌ي بزرگ كه داده‌ها را از منابع مختلف جمع كند مشكل يكجاسازي داده‌ها را حل مي‌كند. بارگذاري داده‌ها به داخل يك پايگاه داده مي‌تواند كار بزرگي باشد كه در برخي موارد سال‌ها و ميليون‌ها دلار هزينه در بر خواهد داشت. به هر حال مي‌توان داده‌ها را از يك يا چند پايگاه داده استخراج و درون يك پايگاه داده‌ي فقط خواندني ذخيره كرد. اين پايگاه داده‌ي جديد به عنوان نوعي بازار داده عمل مي‌كند.

شكل 2 - مركز داده‌هاي داده‌كاوي از منابع اطلاعاتي عملياتي استخراج مي‌شوند

 

داده‌كاوي و پردازش تحليلي آن‌لاين

يكي از پرسش‌هاي بسيار عمومي حرفه اي‌هاي پردازش داده‌ها درباره تفاوت بين داده‌كاوي و پردازش تحليلي آن‌لاين است. چنانچه خواهيم ديد اين دو، ابزارهاي بسيار متفاوتي هستند كه مي‌توانند يكديگر را كامل كنند.

پردازش تحليلي آن‌لاين، قسمتي از طيف ابزارهاي پشتيباني تصميم‌گيري است كه وظيفه‌ي آن توصيف چيزهايي است كه در يك پايگاه داده وجود دارند. در پردازش تحليلي آن‌لاين، كاربر فرضيه‌اي درباره‌ي يك ارتباط شكل مي‌دهد و درستي آن را با درخواست يك سري از داده‌ها بررسي مي‌كند. براي نمونه يك تحليل‌گر ممكن است بخواهد معيارهايي را تعيين كند كه به پيش‌فرض‌هايي خاص برسد. در ابتدا ممكن است مثلاً اين فرضيه را مطرح كند كه افراد كم درآمد، كم اعتبار نيز هستند و سپس پايگاه داده را با روش پردازش تحليلي آن‌لاين، براي بررسي درسني اين فرضيه تحليل كند. اگر اين فرضيه به وسيله‌ي داده‌ها اثبات نشود تحليل‌گر ممكن است به بدهي بيشتر مانند تعيين ريسك نگاه كند و اگر داده‌ها اين دو حدس را رد كردند ممكن است بدهي و درآمد را با هم تركيب و به عنوان پيش‌بيني كننده‌ي اعتبار پايين آزمايش كند.

به بيان ديگر، در اين روش تحليل‌گر با استفاده از پردازش تحليلي آن‌لاين، يك سري از ارتباط‌ها و الگوهاي فرضي را ايجاد مي‌كند و پس از آن با ارسال درخواست‌هايي به پايگاه داده درستي آنها را بررسي مي‌كند. پردازش تحليلي آن‌لاين، به طور خاص يك فرايند استنتاجي است. اما اگر تعداد متغييرهاي تحليل شونده زياد باشد ديگر اين روش كارايي ندارد. اين مشكل موجب سختي بسيار زياد و زمان‌بر شدن فرايند پيدا كردن يك فرضيه خوب خواهد شد.

اما داده‌كاوي اساساً با پردازش تحليلي آن‌لاين متفاوت است. زيرا بيش از آنكه الگوهاي فرضي تحليل‌گر را بررسي كند از داده‌ها براي كشف الگوها استفاده مي‌كند. به عنوان مثال فرض كنيد بخواهيد مشتري‌هاي خوش‌حساب يك فروشگاه را شناسايي كنيد. اگر اطلاعات كاملي از مشخصات و ويژگي‌هاي مشتري‌ها در دست باشد، يك انسان تحليلگر مي‌تواند با استفاده از روش پردازش تحليلي آن‌لاين، الگوهايي را كه حدس مي‌زند، تحليل و بررسي كند. يك تحليلگر ممكن است حدس بزند كه مي‌بايد رابطه‌اي بين ميزان در‌آمد افراد و خوش‌حسابي آنها وجود داشته باشد و سپس با استفاده از روش پردازش تحليلي آن‌لاين، درستي اين فرضيه و يا چگونگي آن را بررسي كند. اما روش داده‌كاوي، خود به كشف الگوها مي‌پردازد و ممكن است الگوهايي فراتر از حدسيات يك تحليلگر انساني را در مجموعه‌ي اطلاعات بيابد؛ مثلاً رابطه‌اي بين سن افراد و خوش‌حسابي آنها.

به اين ترتيب مي‌توان روش پردازش تحليلي آن‌لاين و داده‌كاوي را مكمل يكديگر دانست. روش پردازش تحليلي آن‌لاين در مراحل اوليه‌ي كشف دانش و به عبارت ديگر در فهم داده‌ها، به كار مي‌رود. به عنوان مثال اين روش در مسائلي نظير تمركز روي داده‌هاي مهم، تشخيص موارد استثنـا و يا تأثيرات متقابل متغيرها مي‌تواند راهگشا باشد و لذا مقدمه‌ي خوبي براي ورود به حوزه‌ي «كشف دانش» از داده‌هاست.

 

داده‌كاوي و روندهاي موجود در سخت‌افزار و نرم‌افزار

يكي از مسائل بسيار تأثيرگذار در رشد داده‌كاوي، تحولات شگرفي است كه در سال‌هاي اخير در حوزه‌ي سخت‌افزارها و نرم‌افزارها رخ داده است. تنها در چند سال اخير قيمت ديسك‌هاي سخت حدود %99 كاهش داشته است. در حالي كه چند سال پيش، قيمت ديسك سخت با حجم هزار گيگابايت چيزي در حدود 10.000.000 دلار بود، امروز اين قيمت به حدود 100.000 دلار رسيده است.

كاهش قيمت پردازشگرها نيز به همين منوال بوده است. با ورود هر نسل از پردازشگرهاي جديد، علاوه بر افزايش قابل ملاحظه‌ي قدرت پردازش، قيمت آنها نيز كاهش مي‌يابد. اين روند به طور مشابه در حافظه‌ي موقت رايانه‌ها نيز به چشم مي‌خورد و علاوه بر كاهش مستمر قيمت آنها، همواره شاهد افزايش حجم حافظه‌ي موقت رايانه‌ها هستيم به طوري كه امروزه رايانه‌هاي شخصي حداقل 64 مگابايت و رايانه‌هاي شبكه‌اي حداقل 256 مگابايت حافظه‌ي موقت دارند. همچنين اين مقدار در سرورها به چند گيگابايت مي‌رسد.

به موازات رشد قدرت هر پردازشگر، ابررايانه‌هايي كه هم كه به طور موازي از چندين پردازشگر بهره مي‌گيرند در حال توسعه هستند. استفاده از چند صد پردازشگر در يك ساختار موازي، ما را قادر به كشف الگوهاي حاكم بر حجم بسيار زيادي از داده‌ها مي‌كند.

از طرفي رشد سيستم‌هاي مديريت منابع اطلاعاتي، نيز به رشد داده‌كاوي كمك مي‌كند. در صورتي كه با يك مسأله‌ي پيچيده در داده‌كاوي موجه باشيم كه نياز به دسترسي سريع و آسان به حجم زيادي از اطلاعات را داشته باشد، سيستم‌هاي مديريت منابع اطلاعاتي، با افزايش سرعت دسترسي به اطلاعات مورد نياز، بسيار گره‌گشـا و مفيد خواهند بود.

با توجه به موارد فوق، به نظر مي‌رسد كه بسياري از سدهايي كه در راه كشف الگوهاي حاكم بر اطلاعات حجيم وجود داشتند از بين رفته‌اند و اين حوزه، در آينده بسيار توسعه خواهد يافت.

 

كاربردهاي داده‌كاوي

داده‌كاوي يكي از زمينه‌هاي در حال توسعه است كه هر روز كاربردهاي آن عموميت بيشتري مي‌يابد. داده‌كاوي از طريق كشف الگوهاي حاكم بر اطلاعات، كمك‌هاي ارزنده‌اي به مديران و تصميم‌گيران براي افزايش سود بنگاه‌ها مي‌نمايد.

بسياري از سازمان‌ها از داده‌كاوي براي تحليل و بررسي چرخه‌ي عمر مشتري‌هايشان استفاده مي‌كنند؛ به عبارت ديگر براي به دست آوردن مشتري‌هاي جديد، افزايش سود از مشتري‌هاي موجود و نگه داشتن مشتري‌هاي خوب. سازمان‌ها با بررسي ويژگي‌هاي مشتري‌هاي خوب (نمودار)، دورنماهاي كاري خود را هدف‌گذاري مي‌كنند؛ با بررسي نمودار مشتري‌هايي كه يك محصول خاص را خريده‌اند، توجه بيشتري به مشتري‌هايي كه آن را محصول را نخريده‌اند مي‌نمايند (فروش متقاطع) و با رسم نمودار مشتري‌هايي كه از دست رفته‌اند، براي نگه داشتن مشتري‌هاي موجود برنامه‌ريزي مي‌كنند (كاهش تكانه يا ايجاد اصطكاك). چرا كه اصولاً نگهداري يك مشتري كم‌هزينه‌تر از جذب مشتري‌هاي جديد است.

داده‌كاوي در بسياري از صنايع كاربرد دارد. شركت‌هاي ارتباطات راه دور و شركت‌هاي كارت اعتباري، از جمله شركت‌هاي پيشرو در حوزه‌ي استفاده از داده‌كاوي هستند. اين شركت‌ها براي يافتن مشتري‌هايي كه از خدمات آنها سوء استفاده و يا كلاهبرداري مي‌كنند، از داده‌كاوي بهره مي‌گيرند. شركت‌هاي بيمه نيز علاقه‌ي زيادي به استفاده از فنّـاوري داده‌كاوي براي كاهش كلاهبرداري‌ها دارند. علاوه بر اينها حوزه‌ي پزشكي زمينه‌ي ديگري است كه داده‌كاوي پتانسيل زيادي براي استفاده شدن در آن را دارد؛ داده‌كاوي مي‌تواند براي پيش‌بيني اثرگذاري روند جراحي، آزمايش‌هاي پزشكي و يا تجويز دارو استفاده شود. داروسازان نيز از داده‌كاوي براي جستجوي پايگاه‌هاي داده در زمينه‌ي تركيب‌هاي شيميايي و مواد ژنتيكي و يافتن راه حل‌هاي تازه در درمان بيماري‌ها استفاده مي‌كنند. خرده‌فروشان نيز از اين فنّـاوري بي‌بهره نيستند. آنها از داده‌كاوي براي تصميم‌گيري در مورد كالاهايي كه مي‌توانند در فروشگاه‌شان عرضه كنند و همچنين براي تعيين نحوه‌ي عرضه‌ي كالا (و حتي چگونگي قرار دادن كالاها در داخل فروشگاه) استفاده مي‌كنند.

 

داده‌كاوي موفق

موفقيت در داده‌كاوي دو كليد اساسي دارد: كليد اول، ايجاد يك فرمولاسيون دقيق از مسأله‌ي مورد بررسي و كليد دوم استفاده از داده‌هاي صحيح است. در واقع شما بايد داده‌هاي موجود و در دسترس و داده‌هايي كه آنها را مي‌خريد را با يك روند منطقي تركيب كنيد تا به داده‌هاي مناسبي برسيد.

بيشتر اوقات، كسي كه مدل اطلاعات را مي‌سازد، مي‌تواند با داده‌ها بازي كند، مدل‌هايي را ارائه كند، نتايج را ارزيابي كند و از نتايج براي ساخت مدلي ديگر براي رسيدن به نتايج بهتر استفاده كند. لذا در اين فرايند، ابزار داده‌كاوي مورد استفاده و خصوصاً تعامل آن با كاربر داراي اهميت ويژه‌اي است و بعضاً اهميت آن از اهميت الگوريتم مورد استفاده بيشتر است.

در حالت مطلوب، ابزار داده‌كاوي (گرافيك/تجسم، جستار/پردازش تحليلي آن‌لاين) مي‌بايد با الگوريتم‌ها يا ابزار تحليلي مناسبي كه مدل‌ها را مي‌سازند به خوبي تركب شوند تا نتايج قابل قبولي حاصل شود.

 

به نقل از http://www.raha.co.ir

 

 

 

مقاله ERP , مقاله BPM , مقاله  BI , کتاب ERP , کتاب BPM  کتاب BI , درباره BPM , درباره ERP ,  درباره BI , پایان نامه ERP , پایان نامه BPM , پایان نامه BI , مقاله SOA , کتاب SOA , درباره SOA , پایان نامه SOA ,

 

 

 

نوشتن دیدگاه


تصویر امنیتی
تصویر امنیتی جدید

شما اینجا هستید:   معرفی BIمباحث تکنولوژیک BIداده‌كاوي - تاريخچه و كاربردها