دادهكاوي – تاريخچه و كاربردها
امير توكلي كاشي ( ceo@raha.co.ir) – مصطفي خرمنژادي
پاييز 1384
مقدمـه
امروزه پايگاههاي دادهها بسيار بزرگ شدهاند و حجم برخي از آنها به بيش از يك ترابايت (هزار گيگابايت) رسيده است. درون اين حجم از دادهها اطلاعات راهبردي مهمي به صورت مخفي وجود دارد. اما سؤال اينجاست كه چگونه ميتوانيد از اين حجم بزرگ دادهها يك نتيجهي مفيد به دست آوريد؟
تازهترين راه حل براي استخراج اطلاعات مخفي از درون بانكهاي اطلاعاتي، «دادهكاوي» است كه روشي پربازده و نسبتاً كمهزينه ميباشد. پيش از اين سازمانهاي نوآورِ جهاني، از دادهكاوي براي مكانيابي و جذب مشتريهاي با ارزشتر و طراحي مجدد محصولاتشان با هدف فروش بيشتر و كاهش ضررهاي ناشي از اشتباهات يا كلاهبرداريها استفاده كردهاند.
دادهكاوي فراينديست كه از ابزارهاي متنوع تحليل دادهها، براي كشف الگوهـا و ارتباطهاي پنهان موجود در دادهها استفاده ميكند. نتايج دادهكاوي براي پيشبيني رفتار و تحليل روندهاي آينده استفاده ميشود.
در فرايند دادهكاوي با نگاه به گذشته ميتوان دربارهي آينده، پيشبينيهايي را انجام داد و به سؤالهاي تجارياي پاسخ گفت كه روشهاي سنتي حل آنها بسيار زمانبر بوده و يا حتي در مواردي غيرممكن مينمودند. امروزه در بسياري از شركتها و سازمانهاي نوآور از دادهكاوي براي يافتن و جذب مشتريهاي با ارزشتر، فروش بيشتر، كاهش ضررهاي ناشي از خطاهاي تجاري يا كلاهبرداريها و طراحي مجدد محصولات استفاده ميشود.
اولين و سادهترين قدم در دادهكاوي، توصيف دادههاست. اين كار به طور خلاصه شامل بررسي خواص آماري دادهها (مانند متوسط و انحراف استاندارد)، بررسي گرافيكي از طريق گرافها و چارتها و جستجو براي يافتن پيوندهاي پر معني بالقوه در ميان متغييرها (مانند مقاديري كه اغلب با هم رخ ميدهند) است. در فرايند دادهكاوي جمعآوري و انتخاب دادههاي صحيح، بسيار مهم هستند.
پس از توصيف دادهها، در مرحلهي بعد بايد براساس الگوهايي كه از نتايج معلوم به دست آمدهاند يك مدل پيشبيني ساخت و آن را بر روي نتايج خارج از نمونهي اوليه آزمايش كرد. هرگز نبايد يك مدل خوب را با واقعيت اشتباه گرفت (زيرا نميتوان نقشهي مسير را نمايندهي كامل مسير واقعي دانست) اما اين مدل ميتواند راهنماي خوبي براي فهميدن برخي فرصتها و تهديدها باشد.
گام آخر دادهكاوي اين است كه صحت مدل را به طور تجربي تعيين كنيم. براي نمونه، از يك پايگاه دادهها كه اطلاعاتي در مورد مشتريها را در خود نگاه ميدارد، مدلي براي پيشبيني پاسخ مشتريها به پيشنهاد خريد محصولات در آينده ساخته شده است. آيا ميتوان به پيشبينيهاي اين مدل اعتماد كرد؟ براي پاسخ به اين پرسش ميتوان با برخي از مشتريهاي احتمالي پيشنهاد را مطرح و نتيجه را بررسي كرد.
تاريخچهي دادهكاوي
تكنيكهاي دادهكاوي نتيجهي يك فرايند طولاني تحقيق و توسعه است. اين تحول از زماني شروع شد كه اطلاعات تجاري براي اولين بار بر روي رايانهها ذخيره شد و همزمان با بهبود در دسترسي به اطلاعات پيشرفت كرد. اين پيشرفت تا جايي ادامه پيدا كرد كه امروزه كاربران ميتوانند تقريباً بلافاصله پس از جستجو نتايج را بدست آورند و اين در حالي است كه هنوز هم اين پيشرفتها ادامه دارد.
دادهكاوي به دليل رشد در سه حوزهي زير كاربردي شده است:
· مجموعهي بزرگ دادهها: اندازه و حجم پايگاههاي داده به شدت بزرگ شدهاند و اين رشد هنوز هم ادامه دارد؛
· توان پردازش رايانهها: پردازندههاي قويتر پردازش موازي و پردازش آنلاين؛
· الگوريتمهاي دادهكاوي: بيش از ده سال است كه وجود دارند و امروزه بسيار توسعه يافتهاند.
جدول زير مراحل رشد و توسعه در حوزهي مسائل مرتبط با « اطلاعات» را در حوزههاي «مسائل تجاري»، «فنّـاوري توانافزا»، «توليدكنندگان» و «ويژگيها» نمايش ميدهد.
قدم تكاملي |
مسائل تجاري |
فنّـاوري توانافزار |
توليد كنندگان |
ويژگيها |
جمعآوري اطلاعات (دههي 1960) |
«مجموع سود من در پنج سال اخير چقدر بوده است؟» |
رايانه، نوارهاي مغناطيسي، ديسك |
آيبيام، سيديسي |
نگاه به گذشته، اطلاعات استاتيكي |
دسترسي به اطلاعات (دههي 1980) |
«فروش يك واحد خاص در يك كشور خاص، در ماه گذشته چقدر بود؟» |
پايگاه دادهي منظم، زبان جستار ساختار يافته، اُديبيسي |
اراسل، سيبييس اينفرميكس، آيبيام، مايكروسافت |
نگاه به گذشته، اطلاعات ديناميكي در حد آخرين اطلاعات |
مخزن اطلاعات و پشتيباني از تصميم (دههي 1990) |
«فروش يك واحد خاص در يك كشور خاص، در ماه گذشته چقدر بود؟ با توجه به شرايط يك واحد ديگر» |
پردازش تحليلي آنلاين، بانك اطلاعاتي چند بعدي، مخازن اطلاعاتي |
پايلوت، كمشير، آربور، كگنوس، ميكرواستراتژي |
نگاه به گذشته، اطلاعات ديناميكي در سطوح مختلف |
دادهكاوي (حال حاضر) |
«براي فروش يك واحد خاص در ماه آينده چه اتفاقي خواهد افتاد؟ چرا؟» |
الگوريتمهاي پيشرفته، رايانههاي چندپردازندهاي، بانكهاي اطلاعاتي بسيار حجيم |
پايلوت، لاكهيد، آيبيام، اسجيآي، نيومروس، استارتآپس |
نگاه به آينده، جستار فعال اطلاعات |
دادهكاوي چه كاري را نميتواند انجام دهد؟
دادهكاوي يك ابزار است نه يك عصاي جادويي. دادهكاوي چيزي نيست كه بر روي پايگاه دادهها بنشيند تا چيزهايي كه اتفاق ميفتد را تماشا كند و هر وقت يك الگوي جالب يافت، يك نامه براي شما بفرستد! اين ابزار نميتواند نياز به دانستن داد و ستد و فهميدن دادهها يا فهميدن متدهاي تحليلي را رفع كند. دادهكاوي با يافتن الگوها و ارتباطها در دادهها به تحليلگر كمك ميكند ولي ارزش اين الگوها را بيان نميكند. به علاوه بايد درستي الگوهاي يافت شده اثبات گردد.
بايد به ياد داشت كه رابطههاي پيشگويانه لزومـاً سبب يك رفتار يا عمل نميشود. براي نمونه ممكن است الگويي بدين صورت يافت شود كه افراد با درآمد بالا كه مجلات خاصي را مشترك هستند، به احتمال زياد خريدار يك محصول بخصوص نيز خواهند بود. با اينكه ميتوان با ارزيابي فروش محصولات، اين الگو را بهينه كرد ولي نبايد فرض كرد كه وجود چنين معياري در مـورد يك گروه از افراد سبب خريد آن محصول توسط آنها خواهد شد.
شناخت دادهها براي اطمينان از با معني بودن نتايج به دست آمده خيلي مهم است. كيفيت نتايج اغلب به دادههاي غير عادي و ستونهاي بيربط يا ستونهايي كه با هم تغيير ميكنند (مانند سن وتاريخ تولد) و روش به رمز درآوردن دادهها و دادههاي رها شده و دادههاي مستثني شده بستگي دارد. الگوريتمها نيز با توجه به نوع دادهها تغيير ميكنند و لذا عاقلانه نيست كه براي تصميمگيري صحيح، فقط به محصولات دادهكاوي وابسته باشيم.
دادهكاوي بدون راهنمايي و به صورت خودكار نميتواند راه حلها را بيابد. ممكن است هدف نهايي به جاي فروش بيشتر به افراد، بررسي ويژگيهاي مشتريهايي باشد كه يك خريد عمده انجام دادهاند. با دادهكاوي ممكن است الگوهاي يافت شده براي اين دو هدف بسيار متفاوت باشند.
اگرچه يك ابزار دادهكاوي خوب، كاربر را از پيچيدگيهاي روشهاي آماري دور نگاه ميدارد، ولي هنوز نياز به دانستن طرز كار ابزارهاي انتخاب شده و الگوريتمهاي به كار رفته در آنها وجود دارد. چرا كه تنظيمهاي انتخاب شده براي ابزارهاي دادهكاوي و بهينهسازيها بر روي سرعت و دقت مدل اثر ميگذارند.
دادهكاوي جايگزين مديران يا تحليلگران ماهر نميشود اما به آنها ابزاري جديد و پرقدرت ميدهد تا به سرعت، كارهايي را كه انجام ميدهند بهبود دهند. هر شركتي كه داد و ستدها و مشتريهايش را ميشناسد از الگوهايي استفاده كرده است كه كارمندانش طي ساليان فعاليتشان مشاهده كردهاند.كاري كه دادهكاوي ميتواند انجام دهد تأييد مشاهدات تجربي و يافتن چيزهاي جديدي است كه پيشتر ديده نشده بودند.
دادهكاوي و ذخيرهسازي دادهها
هميشه دادههايي كه بايد دادهكاوي شوند ابتدا بايد از يك مخزن دادهها استخراج و به يك پايگاه دادهها يا مركز دادههاي دادهكاوي منتقل شود. بهتر است دادهها بخشي از يك پايگاه دادهها باشد. زيرا كار پاكسازي دادهها براي يك مخزن دادهها و نيز دادهكاوي خيلي شبيه است. اگر دادهها پيش از اين براي يك مخزن دادهها پاكسازي شده باشند ديگر نيازي به پاكسازي بيشتر براي كاوش ندارند. به علاوه بسياري از مشكلات تركيب دادهها و نگهداري جايگاه هر داده نيز حل خواهد شد. لازم به ذكر است كه به جاي زيرمجموعهاي فيزيكي از مخزن دادهها ميتوان از پايگاه داده استفاده كرد.
شكل 1- مركز دادههاي دادهكاوي از يك پايگاه دادهها استخراج ميشوند
دادهكاوي نيازي به يك مخزن دادهها ندارد. نصب يك پايگاه دادهي بزرگ كه دادهها را از منابع مختلف جمع كند مشكل يكجاسازي دادهها را حل ميكند. بارگذاري دادهها به داخل يك پايگاه داده ميتواند كار بزرگي باشد كه در برخي موارد سالها و ميليونها دلار هزينه در بر خواهد داشت. به هر حال ميتوان دادهها را از يك يا چند پايگاه داده استخراج و درون يك پايگاه دادهي فقط خواندني ذخيره كرد. اين پايگاه دادهي جديد به عنوان نوعي بازار داده عمل ميكند.
شكل 2 – مركز دادههاي دادهكاوي از منابع اطلاعاتي عملياتي استخراج ميشوند
دادهكاوي و پردازش تحليلي آنلاين
يكي از پرسشهاي بسيار عمومي حرفه ايهاي پردازش دادهها درباره تفاوت بين دادهكاوي و پردازش تحليلي آنلاين است. چنانچه خواهيم ديد اين دو، ابزارهاي بسيار متفاوتي هستند كه ميتوانند يكديگر را كامل كنند.
پردازش تحليلي آنلاين، قسمتي از طيف ابزارهاي پشتيباني تصميمگيري است كه وظيفهي آن توصيف چيزهايي است كه در يك پايگاه داده وجود دارند. در پردازش تحليلي آنلاين، كاربر فرضيهاي دربارهي يك ارتباط شكل ميدهد و درستي آن را با درخواست يك سري از دادهها بررسي ميكند. براي نمونه يك تحليلگر ممكن است بخواهد معيارهايي را تعيين كند كه به پيشفرضهايي خاص برسد. در ابتدا ممكن است مثلاً اين فرضيه را مطرح كند كه افراد كم درآمد، كم اعتبار نيز هستند و سپس پايگاه داده را با روش پردازش تحليلي آنلاين، براي بررسي درسني اين فرضيه تحليل كند. اگر اين فرضيه به وسيلهي دادهها اثبات نشود تحليلگر ممكن است به بدهي بيشتر مانند تعيين ريسك نگاه كند و اگر دادهها اين دو حدس را رد كردند ممكن است بدهي و درآمد را با هم تركيب و به عنوان پيشبيني كنندهي اعتبار پايين آزمايش كند.
به بيان ديگر، در اين روش تحليلگر با استفاده از پردازش تحليلي آنلاين، يك سري از ارتباطها و الگوهاي فرضي را ايجاد ميكند و پس از آن با ارسال درخواستهايي به پايگاه داده درستي آنها را بررسي ميكند. پردازش تحليلي آنلاين، به طور خاص يك فرايند استنتاجي است. اما اگر تعداد متغييرهاي تحليل شونده زياد باشد ديگر اين روش كارايي ندارد. اين مشكل موجب سختي بسيار زياد و زمانبر شدن فرايند پيدا كردن يك فرضيه خوب خواهد شد.
اما دادهكاوي اساساً با پردازش تحليلي آنلاين متفاوت است. زيرا بيش از آنكه الگوهاي فرضي تحليلگر را بررسي كند از دادهها براي كشف الگوها استفاده ميكند. به عنوان مثال فرض كنيد بخواهيد مشتريهاي خوشحساب يك فروشگاه را شناسايي كنيد. اگر اطلاعات كاملي از مشخصات و ويژگيهاي مشتريها در دست باشد، يك انسان تحليلگر ميتواند با استفاده از روش پردازش تحليلي آنلاين، الگوهايي را كه حدس ميزند، تحليل و بررسي كند. يك تحليلگر ممكن است حدس بزند كه ميبايد رابطهاي بين ميزان درآمد افراد و خوشحسابي آنها وجود داشته باشد و سپس با استفاده از روش پردازش تحليلي آنلاين، درستي اين فرضيه و يا چگونگي آن را بررسي كند. اما روش دادهكاوي، خود به كشف الگوها ميپردازد و ممكن است الگوهايي فراتر از حدسيات يك تحليلگر انساني را در مجموعهي اطلاعات بيابد؛ مثلاً رابطهاي بين سن افراد و خوشحسابي آنها.
به اين ترتيب ميتوان روش پردازش تحليلي آنلاين و دادهكاوي را مكمل يكديگر دانست. روش پردازش تحليلي آنلاين در مراحل اوليهي كشف دانش و به عبارت ديگر در فهم دادهها، به كار ميرود. به عنوان مثال اين روش در مسائلي نظير تمركز روي دادههاي مهم، تشخيص موارد استثنـا و يا تأثيرات متقابل متغيرها ميتواند راهگشا باشد و لذا مقدمهي خوبي براي ورود به حوزهي «كشف دانش» از دادههاست.
دادهكاوي و روندهاي موجود در سختافزار و نرمافزار
يكي از مسائل بسيار تأثيرگذار در رشد دادهكاوي، تحولات شگرفي است كه در سالهاي اخير در حوزهي سختافزارها و نرمافزارها رخ داده است. تنها در چند سال اخير قيمت ديسكهاي سخت حدود %99 كاهش داشته است. در حالي كه چند سال پيش، قيمت ديسك سخت با حجم هزار گيگابايت چيزي در حدود 10.000.000 دلار بود، امروز اين قيمت به حدود 100.000 دلار رسيده است.
كاهش قيمت پردازشگرها نيز به همين منوال بوده است. با ورود هر نسل از پردازشگرهاي جديد، علاوه بر افزايش قابل ملاحظهي قدرت پردازش، قيمت آنها نيز كاهش مييابد. اين روند به طور مشابه در حافظهي موقت رايانهها نيز به چشم ميخورد و علاوه بر كاهش مستمر قيمت آنها، همواره شاهد افزايش حجم حافظهي موقت رايانهها هستيم به طوري كه امروزه رايانههاي شخصي حداقل 64 مگابايت و رايانههاي شبكهاي حداقل 256 مگابايت حافظهي موقت دارند. همچنين اين مقدار در سرورها به چند گيگابايت ميرسد.
به موازات رشد قدرت هر پردازشگر، ابررايانههايي كه هم كه به طور موازي از چندين پردازشگر بهره ميگيرند در حال توسعه هستند. استفاده از چند صد پردازشگر در يك ساختار موازي، ما را قادر به كشف الگوهاي حاكم بر حجم بسيار زيادي از دادهها ميكند.
از طرفي رشد سيستمهاي مديريت منابع اطلاعاتي، نيز به رشد دادهكاوي كمك ميكند. در صورتي كه با يك مسألهي پيچيده در دادهكاوي موجه باشيم كه نياز به دسترسي سريع و آسان به حجم زيادي از اطلاعات را داشته باشد، سيستمهاي مديريت منابع اطلاعاتي، با افزايش سرعت دسترسي به اطلاعات مورد نياز، بسيار گرهگشـا و مفيد خواهند بود.
با توجه به موارد فوق، به نظر ميرسد كه بسياري از سدهايي كه در راه كشف الگوهاي حاكم بر اطلاعات حجيم وجود داشتند از بين رفتهاند و اين حوزه، در آينده بسيار توسعه خواهد يافت.
كاربردهاي دادهكاوي
دادهكاوي يكي از زمينههاي در حال توسعه است كه هر روز كاربردهاي آن عموميت بيشتري مييابد. دادهكاوي از طريق كشف الگوهاي حاكم بر اطلاعات، كمكهاي ارزندهاي به مديران و تصميمگيران براي افزايش سود بنگاهها مينمايد.
بسياري از سازمانها از دادهكاوي براي تحليل و بررسي چرخهي عمر مشتريهايشان استفاده ميكنند؛ به عبارت ديگر براي به دست آوردن مشتريهاي جديد، افزايش سود از مشتريهاي موجود و نگه داشتن مشتريهاي خوب. سازمانها با بررسي ويژگيهاي مشتريهاي خوب (نمودار)، دورنماهاي كاري خود را هدفگذاري ميكنند؛ با بررسي نمودار مشتريهايي كه يك محصول خاص را خريدهاند، توجه بيشتري به مشتريهايي كه آن را محصول را نخريدهاند مينمايند (فروش متقاطع) و با رسم نمودار مشتريهايي كه از دست رفتهاند، براي نگه داشتن مشتريهاي موجود برنامهريزي ميكنند (كاهش تكانه يا ايجاد اصطكاك). چرا كه اصولاً نگهداري يك مشتري كمهزينهتر از جذب مشتريهاي جديد است.
دادهكاوي در بسياري از صنايع كاربرد دارد. شركتهاي ارتباطات راه دور و شركتهاي كارت اعتباري، از جمله شركتهاي پيشرو در حوزهي استفاده از دادهكاوي هستند. اين شركتها براي يافتن مشتريهايي كه از خدمات آنها سوء استفاده و يا كلاهبرداري ميكنند، از دادهكاوي بهره ميگيرند. شركتهاي بيمه نيز علاقهي زيادي به استفاده از فنّـاوري دادهكاوي براي كاهش كلاهبرداريها دارند. علاوه بر اينها حوزهي پزشكي زمينهي ديگري است كه دادهكاوي پتانسيل زيادي براي استفاده شدن در آن را دارد؛ دادهكاوي ميتواند براي پيشبيني اثرگذاري روند جراحي، آزمايشهاي پزشكي و يا تجويز دارو استفاده شود. داروسازان نيز از دادهكاوي براي جستجوي پايگاههاي داده در زمينهي تركيبهاي شيميايي و مواد ژنتيكي و يافتن راه حلهاي تازه در درمان بيماريها استفاده ميكنند. خردهفروشان نيز از اين فنّـاوري بيبهره نيستند. آنها از دادهكاوي براي تصميمگيري در مورد كالاهايي كه ميتوانند در فروشگاهشان عرضه كنند و همچنين براي تعيين نحوهي عرضهي كالا (و حتي چگونگي قرار دادن كالاها در داخل فروشگاه) استفاده ميكنند.
دادهكاوي موفق
موفقيت در دادهكاوي دو كليد اساسي دارد: كليد اول، ايجاد يك فرمولاسيون دقيق از مسألهي مورد بررسي و كليد دوم استفاده از دادههاي صحيح است. در واقع شما بايد دادههاي موجود و در دسترس و دادههايي كه آنها را ميخريد را با يك روند منطقي تركيب كنيد تا به دادههاي مناسبي برسيد.
بيشتر اوقات، كسي كه مدل اطلاعات را ميسازد، ميتواند با دادهها بازي كند، مدلهايي را ارائه كند، نتايج را ارزيابي كند و از نتايج براي ساخت مدلي ديگر براي رسيدن به نتايج بهتر استفاده كند. لذا در اين فرايند، ابزار دادهكاوي مورد استفاده و خصوصاً تعامل آن با كاربر داراي اهميت ويژهاي است و بعضاً اهميت آن از اهميت الگوريتم مورد استفاده بيشتر است.
در حالت مطلوب، ابزار دادهكاوي (گرافيك/تجسم، جستار/پردازش تحليلي آنلاين) ميبايد با الگوريتمها يا ابزار تحليلي مناسبي كه مدلها را ميسازند به خوبي تركب شوند تا نتايج قابل قبولي حاصل شود.
به نقل از http://www.raha.co.ir
مقاله ERP , مقاله BPM , مقاله BI , کتاب ERP , کتاب BPM کتاب BI , درباره BPM , درباره ERP , درباره BI , پایان نامه ERP , پایان نامه BPM , پایان نامه BI , مقاله SOA , کتاب SOA , درباره SOA , پایان نامه SOA ,