امروز: سه شنبه، 29 آبان 1397

مبانی نظری ها و پیشینه تحقیق ها

دانلود مقالات دانشجویی


10/29 1396
بازار ابزار استخراج داده ها از دو راه ابتدایی خود در حال ظهور می‌باشد بسیاری از ابزارهایی که در اینجا توضیح داده می‌شوند ، در مرحلة اول انتشار می‌باشند
دسته بندی بازاریابی و امور مالی
فرمت فایل doc
حجم فایل 397 کیلو بایت
تعداد صفحات فایل 83
بررسی موقعیت در بازار CRM

فروشنده فایل

کد کاربری 8044

فهرست مطالب

عنوان

صفحه

بخش اول : تأثیر استخراج داده‌ها بر CRM........... 1

فصل اول : روابط مشتری

مقدمه............................................ 2

استخراج داده‌ها چیست.............................. 5

یک نمونه ........................................ 6

ارتباط با فرآیند تجاری .......................... 8

استخراج داده‌ها و مدیریت روابط مشتری ............. 11

استخراج داده‌ها چگونه به بازاریابی بانک اطلاعاتی کمک می‌نماید 12

امتیاز دهی ...................................... 13

نقش نرم‌افزار مدیریت مبارزه....................... 13

افزایش ارزش مشتری ............................... 14

ترکیب استخراج داده‌ها و مدیریت مبارزه ............ 15

ارزیابی مزایای یک مدل اسخراج داده ها ............ 15

فصل دوم: استخراج داده‌ها و ذخیره داده‌ها- یک منظره مرتبط به هم

مقدمه ........................................... 17

استخراج داده‌ها و ذخیره داده‌ها ، یک ارتباط ....... 18

بررسی ذخیره داده‌ها............................... 21

ذخیره داده‌ها ROI................................. 21

ذخایر داده های علمی واطلاعاتی .................... 23

تعریف و خصوصیات یک مخزن اطلاعاتی ................ 30

معماری انبارداده‌ها .............................. 34

استخراج داده‌ها .................................. 38

استخراج داده‌های تعریف شده ....................... 38

قملروهای کاربرد استخراج داده‌ها................... 40

مقوله‌های استخراج داده‌ها و کانون تحقیق ........... 41

فصل سوم: مدیریت رابطه با مشتری

مقدمه............................................ 48

سودمندترین مشتری ................................ 49

مدیریت رابطه مشتری............................... 50

بانک اطلاعاتی متمرکز برمشتری ..................... 53

اداره مبارزات ................................... 54

تکامل تدریجی بازاریابی .......................... 56

بازاریابی حلقه بسته ............................. 57

معماریCRM....................................... 57

نسل بعدیCRM..................................... 58

بخش دوم: بنیاد - تکنولوژیها و ابزار ............. 60

فصل چهارم : اجزاء ذخیره سازی داده‌ها

مقدمه ........................................... 61

معماری کلی ...................................... 62

بانک اطلاعاتی انبار داده‌ها ....................... 63

ابزارهای ذخیره‌سازی، تحصیل، تهذیب و انتقال ....... 64

متادیتا.......................................... 65

ابزار دسترسی .................................... 70

دسترسی و تجسم اطلاعات ............................ 71

اصول مشاهده یا تجسم داده‌ها ...................... 72

ابزار بررسی و گزارش ............................. 76

کاربردها ........................................ 77

ابزار OLAP...................................... 77

ابزارها استخراج داده‌ها .......................... 78

مقدمه

بازار ابزار استخراج داده ها از دو راه ابتدایی خود در حال ظهور می‌باشد . بسیاری از ابزارهایی که در اینجا توضیح داده می‌شوند ، در مرحلة اول انتشار می‌باشند.

موقعیت در بازار CRM که عموماً بخشی از سیستم تجارت الکترونیکی در نظر گرفته می‌شود ، پیچیده تر می‌باشد و بنابراین با سرعت وب یا شبکه در حال حرکت می‌باشد. بازار CRM ، حتی بیشتر از بازار ابزار استخراج داده‌ها با چندین فروشنده که بر تعریف خود بازار و موقعیت خود در این بازار متمرکزند ، توصیف می‌گردد.

این اشتباه، با ماهیت بسیار دینامیک خود بازار که یک فعالیت قابل رویت تحکیم مشتری، شرکتهای ادغامی‌و تملیک ها را تحمل می‌کند، بیشتر می‌گردد. علی رغم کل این چالشها، باز رو به تکامل می‌رود و فروشندگان، پیشرفت مهمی‌در علمی‌بودن ابزار، قابلیت استفاده و قابلیت اداره‌ کسب می‌کنند.

اولین بخش این فصل ، به کاربردهای بسته بندی شده استخراج داده ها می‌پردازد. این کاربردها ، بر اساس چندین تکنیک استخراج داده ها ادغام شده در ابزارهای بهتر می‌باشد . همراه با بهترین عملکرد ها ، اسلوب شناسی های خوب تعریف شده و فرآیندها، راه خود را در محیط های تولید شرکتها که در آن استخراج داده ها بخشی از یک فرآیند موسسه ای شده می‌شود می‌یابند که شامل رشد و یادگیری سازمانی می‌شود .


بازار استخراج داده ها

بیائید بازار استخراج داده ها را از نقطه نظر منحنی اقتباسی تکنولوژی در نظر بگیریم ایمنی به اقتباس کنندگان اولیه ، از تکنولوژی لبة یادگیری برای دستیابی به مزیت رقابتی استفاده می‌کنند ؛ هنگامیکه تکنولوژی تکامل می‌یابد ، شرکتهای بیشتری آن را اقتباس می‌کنند ، و در یک حالت تجارت زمانی و عادی درج می‌نمایند . همچنین مناطق عملی بودن ابزاهای استخراج داده ها بزرگتر و بزرگتر می‌شوند. به عنوان مثال ، تکنولوژی وایت اوک ( یک شرکت استخراج داده ها در مریلند) از جانب کمیسیون فدرال الکترون، مجوز فروش سیستم گچین ماینر Capain Miner را کسب کرده است که بی نظمی‌در دخالتهای سیاسی فدرال را کشف می‌کند . نورتل، یک بسته کشف کلاهبرداری را توسعه داده است به نام سوپر اسلوت فراود ادوایسور ، که از تکنولوژیهای شبکة عصبی استفاده می‌کند .

صنعت ابزار استخراج داده ها ، برخلاف تکنولوژیهای استخراج داده ها ، در مرحلة عدم تکامل قرار دارد و می‌کوشد تا بازار را تعیین نماید . و وجودش را تائید کند . به همین دلیل است که در می‌یابیم بازار ابزارهای استخراج داده ها تحت تاثیر موارد زیر قرار دارد:

qادغام پیوسته و مداوم ابزارها با اتکاء به تکنولوژیهای مکمل و به عنوان مثال OLAP

q ظهور کاربردهای بسته بندی شدة عمودی و یا اجزاء استخراج داده ها برای توسعة کاربرد .

q استراتژیهای بسیار اقتباس شده شرکت بین فروشندگان ابزار استخراج داده ها و فروشندگان تهیه کنندگان راه حل جامع و ادغام کننده های سیستم ها : فروشندگان مقیاس مؤسسه ، همانند IBM NCR ، اوراکل ، میکروسافت ) به عنوان مثال ، اوراکل چندین شریک متعدد استخراج داده ها به عنوان بخشی از او را کل ویرهاوس اینتیشیتیو از جمله آنگاسن دیتا مایند ، دیتاپکیج اینفورمیشن دیسکاوری ، SRA , SPSS اینترنشنال و تینکینگ ماشینز را انتخاب کرده است .

اصول طبقه بندی ابزارهای استخراج داده ها

ما می‌توانیم کل بازار ابزارهای استخراج داده ها را به سه گروه اصلی تقسیم نمائیم ؛ ابزارهای دارای هدف کلی ، ابزارهای ادغام شدة استخراج داده ها DSSOLAP ، و ابزارهای به سرعت در حال رشد و برای کاربرد.

ابزارهای هدف کلی بخش بزرگتر و کامل تر بازار را اشغال می‌کند . آنها بنا به تعریف و برای کاربرد نیستند و حوزه آنها از نظر ماهیت افقی است . این ابزار شامل موارد زیر می‌شود .

· SAS اینترپراز ماینر

· IBM اینتلیجنت مایننر

· یونیکا PRW

· SPSS کلمنتین

· SGI ماین ست

· اوراکل داروین

· آنگاس نالج سیکر

بخش ابزار مرکب یا اداغام شدة استخراج داده ها بر شرط تجاری بسیار واقعی و اجباری داشتن ابزار چند منظورة تقویت تصمیم تاکید می‌کند که گزارش مدیریت ، پردازش تحلیلی روی خط ، و قابیت های استخراج داده ها در یک قالب کاری عادی را فراهم می‌کند . نمونه های این ابزار های مرکب شامل کاکنوس سیناریو و بیزینس آبجکت می‌شود.

بخش ابزارهای ویژة کاربرد ، به سرعت در حال حرکت است ، و فروشندگان در این فضا ، می‌کوشند تا خود را با ارائة راه حلهای تجاری به جای جستجوی تکنولوژی برای یک راه حل ، از سابرین متمایز نمایند . حوزة این ابزار ، بنا به تعریف از نظر ماهیت عمودی است . در بین این ابزارها ، موارد زیر قرار دارند:

· KD1 ( متمرکز بر خرده فروشی است )

· حق انتخابها و انتخابها ( بر صنعت بیمه متمرکز است )

· HNC ( بر کشف کلاهبرداری متمرکز است )

· یونیکا مدل 1 ( بر بازاریابی متمرکز است )

ارزیابی ابزار : صفات و اسلوب شناسی ها

کل این عوامل ارائه یک توصیف بهینه از ابزارهای استخراج طولانی تر موجود را مشکل ساخته است . بنابراین . بطور کلی ابزارهای استخراج داده ها را می‌توان با استفاده از صفات زیر ، توصیف نمود :

qتکامل محصول و ثبات و استحکام شرکت . به دلیل عدم تکامل کلی بازار تجاری برای ابزارهای استخراج داده ها ، این مقوله محصولاتی را توضیح می‌دهد که برای جنبش از چند سال وجود داشته اند.

q سکوها و معماری. سکوهای متنوع از نظر تجاری موجود را تقویت کنید ، مدل چند تأبیری مشتری / خادم را تقویت کنید . هدف قابلیت سنجش، دسترسی به سرعت نزدیک به خطی و سنجش زمان اجرا ، به عنوان میزان داده ها ( اندازة بانک اطلاعاتی ) ، تعداد متغیرها ، و تعداد کاربران متصل به هم می‌باشد که در حال رشد هستند .

q تداخلهای داده ها ، قابلیت ابزار برای دسترسی به بانکهای اطلاعاتی ارتباطی ، فایلهای یکنواخت و سایر فورمتها.

q قابلیتهای استخراج داده ها از جمله تکنیکها ، الگوریتم ها و کاربردهای تحلیلی ،‌ تکنیکهای استخراج داده ( ANN ، CART ، ایفاء قانون و غیره ) با تداخل عادی کاربر که ابزار می‌تواند آن را تقویت نماید، توانایی ایجاد و مقایسة چندین مدل ؛ و توانایی برای تقویت تعدادی از انواع مختلف تجزیه و تحلیل از جمله طبقه بندی ، پیشگویی و کشف اتحاد.

q ایجاد داده ها قابلیت تغییر شکل و طبقه بندی متغیرهای پیوسته ، ایجاد متغیرهای جدید ، استفاده از تاریخها و زمان ، استفاده از ارزشهای از دست رفته و غیره.

q مدل (خصوصیت تفسیر ، ارزیابی ، صف بندی) . این مقوله ، ابزار را از نظر قابلیت انجام کارهای زیر ، ارزیابی می‌کند:

· شناسایی مدل بطور اتوماتیک یا دستی ، توسط کاربر

· توضیح نتایج و تعریف مقایسهای اعتمادی یعنی احتمالات طبقه بندی ،‌ حدود اعتماد و غیره

· ارزیابی نتایج مدل با درجه و تناسب

· گزارش دخالت و سهم هر متغیر در مدل ، گزارش درجة افزایش و غیره

· صف بندی مدل برای امتیاز بانکهای اطلاعاتی منبع

· استخراج مقرارت از مدل

· دسته بندی قوانین استخراج شده در یک شکل استاندارد ( به عنوان مثال کد SQL، اظهارات روشی )

qعملکرد

· اعتبار پیشگویی اعتبار بر اساس نرخ خطای نمونة پیشگویی می‌باشد ؛ اعتبار مدل را می‌توان با درجة افزایش اندازه گیری نمود.

· کارایی پردازش . اجزای بهینة زمان اجرای الگوریتم ها

qتداخلهای کاربر . این مقوله در می‌یابد آیا ابزار یک کاربر مبتدی و یا کارشناس را تقویت می‌کند یا نه و موارد زیر را تقویت می‌نماید:

· الگوهای سنجش تجاری . قابلیت ایجاد الگوهای از قبل بسته بندی شده ، برای تقویت بسته های تجاری ویژه ( به عنوان مثلا بازاریابی هدف ، امتیازدهی اعتبار، کشف کلاهبرداری ).

· تداخل متادیتا . قابلیت تقویت وظیفة طراحی معنایی ؛ دستیابی به متادیتا برای کدگذاری جداول مقادیر مقوله ای ، دستیابی به قوانین استخراج ، تغییر شکل و مهاجرت به تعریف دیدگاه تجاری خروجی مدل

qقابلیت اداره

· کنترل پیچیدگی . این یکی از روشهای اصلاح تصمیم مدل است ، بنابراین مدل را بیشتر قابل اداره می‌نماید . به عنوان مثال ، استفاده از پارامترهای بسیار آزاد منجر به تناسب بیش از حد می‌گردد ( قبلاً بحث شد ) ؛ این پیچیدگی را می‌توان با زوال وزن ، کنترل نمود . الگوریتم های درخت تصمیم CART از فاز شاخه زنی یا ضریب برای کاهش پیچیدگی مدل درخت استفاده می‌نمایند .

· سختی . اعتبار درخت و موجود بودن به قابلیت یا بهبود سریع از یک نقطة ضعف . استفاده از اجزاء کلیدی به منظور ادغام در قالب کاری مدیریت سیستم ها ( به عنوان مثال BMCpatrol ، Tivolitme10 و غیره.)

· مرسوم سازی . قابلیت ابزار برای ایجاد یک معماری باز، انعطاف پذیر و قابل گسترش با تداخلهای برنامه ریزی کاربرد منتشر شده و نقاط خروجی کاربر که امکان این کاربردهای تقویت تصمیم، ویژة کاربر و همینطور ادغام با سایر کاربردها را فراهم می‌آورد.

هر گاه که ممکن باشد، ما ابزارهایی که از این مقوله ها استفاده می‌کند را مورد بحث قرار خواهیم داد. با این وجود ، به دلیل این که هدف این فصل ،‌ ایجاد یک بررسی کلی از ابزرهای برجسته و استخراج داده ها می‌باشد و صفات یا خصوصیات عملکرد که می‌توانیم تنها با انجام یک ارزیابی جامع از محصول با استفاده از داده‌ها بدست آوریم ، در این بحث در نظر گرفته نخواهد شد . دیگر این که فروشنده یک معیار منتشر شده یا اطلاعات بررسی کاربر در مورد عملکرد ابزار را فراهم نماید.

ارزیابی ابزار

ابزارهایی که بطور مفصل در این فصل بحث شد ، شامل کلمنتین (SPSS) ، کاکنوس 4t hought ، کاکنوس سناریو ، دینا ماینر دیتا مایند ) ، داروین ( اوراکل ) ایستگاه کاری استخراج بانک اطلاعاتی (HNC) سریهای تصمیم ( نئوویستا ) ، اینترپرایزماینر SAS . اینتلیجنت ماینر (IBM) ، نالوج سیکر و نالوج استادیو (AGNOSS) ، و مدل 1 و PRW ( یونیکا ) . ابزارهای دیگر بطور مختصر مورد بحث قرار می‌گیرند . سطح جزئیات موجود برای برخی از این ابزارها به دلیل فقدان تکامل محصول محدود می‌باشد . این ابزارها به ترتیب حروف الفبا مورد بحث قرار می‌گیرند.

کلمنیتین (SPSS)

بررسی ، کلمنیتین ، یک ابزار کاربرد استخراج داده ها از SPSS می‌باشد . این ابزار یک تداخل کاربر گرافیکی را با چندین نوع تکنیکهای تجزیه و تحلیل از جمله شبکه های عصبی به قوانین اتحاد و تکنیکهای القاء قانون ،‌ ترکیب می‌کند . این قابلیتهای فنی ، در یک محیط برنامه ریزی دیداری که استفاده از آن ساده است ارائه می‌شوند .

استعارة گرافیکی که کلمنتین استفاده می‌کند، استعارة گرفتن ، انداختن و اتصال گره های عمل روی صفحه است. گره هایی برای دسترسی داده ها ، ساخت داده‌ها ، تجسم داده ها ، یادگیری ماشین ، تجزیه و تحلیل مدل وجود دارد . فرایند توسعة مدلی مرکب از انتخاب گره های صحیح از یک پالت ، قرار داده آنها روی صفحه و اتصال گره ها می‌باشد.

کلمنتین دارای یک سری غنی از قابلیت های دسترسی اطلاعات از جمله فایلهای یکنواخت و بانکهای اطلاعاتی ارتباطی ( از طریق ODBC ) می‌باشد . بیشتر، کلمنتین قابلیت دائمی‌ساختن نتایج طراحی را از طریق نوشتن آنها در ODBC – Compliant DBMS دارد.

ساخت داده های ورودی شامل هماهنگی در نماها و توانایی اشتقاق حوزه های جدید ، می‌شود . قابلیت های تجسم داده های کلمین شامل نمودارهای پراکندگی ، طرحهای خطی و تجزیه و تحلیل وب می‌باشد.

کلمنتین روی سیستم های اینتل پنتیو اجرا می‌شود که سریهای ویندوز ، NT ، HP 9000 که HPUX10 و بالا سیلیکون گرافیکس که IRIX ، Sun SPARC که سولاریس 2.x و دیجیتال APLHA که دیجیتال UNIX 3.X یا VMS 6.X را اجرا می‌کند .

دسترسی به اطلاعات ساخت و پیش پردازش . کلمنتن فایهای متن تحریر شده ، فایلهای ارزش مجزا شده با کاما و فایلهای ثبت ثابت (ASCII) را وارد می‌کند . سایر منابع اطلاعاتی از طریق یک تداخل ODBC حمایت می‌شوند . سیستم های بانک اطلاعاتی ارتباطی اصلی ، از جمله اوراکل سیباس ، اینفورمیکس و CA-IN gres از طریق ODBC در دسترس می‌باشد.

قابلیت های ساخت داده های کلمنتین شامل موارد زیر می‌شود:

· ادغام ثبت ها از طریق توالی ثبت

· تراز داده ها با افزایش نسبت ثبت ها با خصوصیات ویژه

· تراکم تعیین شده کاربر

· تصفیه ثبتهای بیگانه و نامربوط

· اشتقاق جدید حوزه با استفاده از فرمولهای تعیین شدة‌ کاربر و اپراتورهای منطقی

· قابلیت های نمونه گیری داده هاا ، از جمله اولین و آخرین N ثبت ، 1 در N نمونه گیری ، و نمونه گیری اتفاقی تکنیک های استخراج داده ها ، الگوریتم ها و کاربردها

· کلمنتین ـ الگوریتم های القایی قانون ـ شبکه های عصبی و از جمله شبکه های کوهونن ، او قوانین مربوطه را تقویت می‌کند :

· درک الگوریتم های القاء قانون کلمنتین ساده می‌باشد : الگوریتم ها هنگامیکه آموزش داده شوند یک درخت تصمیم را ایجاد می‌کنند که قانون را نشان می‌دهد . یک فرآیند دائمی‌که دنبال می‌شود ، قرار دارد و متغیرهای مهم در سطوح بالای درخت و سپس آموزش شبکة عصبی با این متغیرها می‌شود.

· شبکه های عصبی کلمنتین در توپولوژیهای متنوع و روشهای آموزش ، ارائه می‌شوند . شبکة معیوب لایة پنهان برای ارزیابی عملکرد

· کلمنتین شبکه های عصبی سولمونس را بـرای حل مسائل دسته بندی ارائه می‌کند .

· قوانین اتحاد همانگونه که از نامش پیداست . یک نتیجه ویژه را به یک سری از صفات ، مربوط می‌نماید . اتحادها را می‌توان بین صفات یافت که برای کاربردهایی همانند تجزیه و تحلیل سبد بازار ، بسیار مفید است .

· کلمنتین برش عمودی مشتری ، تجزیه و تحلیل سریهای زمانی ، تجزیه و تحلیل سه بازار و کشف کلاهبرداری را تقویت می‌کند .

کار با ابزار مدل در محیط برنامه ریزی دیداری با استفاده از استعارة گره های متصل ، مشخص می‌گردد . جعبه های دیالوگ با گره های طراحی مدل وجود دارد که به کنترل الگوریتم ها و روشهای آموزشی کمک می‌کند .

کلمنتین به کاربران امکان می‌دهد تا در یابند کدام ورودیها در مدل دارای اهمیت در پیشگویی کننده هستند ، گر چه تغییر شبکه های عصبی ذاتاً مشکل است. الگوریتم های درخت تصمیم یک بررسی قانون دارای تاثیر متقابل ، که استفاده از از آن ساده است را تقویت می‌کند .

کلمنتین حدودی از وظایف را برای ارزیابی مدل ،‌ ارائه می‌دهد . اینها شامل یک گره تجزیه و تحلیل می‌شود که تعداد تشخیص های صبح را برای ورودی مدل گزارش می‌کند ؛ مقادیر اطمینان متغیر از 0 تا 1 ، گرة ماتریس که کاربر می‌تواند جدول سازی در زمینه های انتخابی را در آن انجام دهد.

کلمتین می‌تواند درختان تصمیم، شبکه های عصبی ، و شبکه های کوملونس را به عنوان کد C ، صادر نماید . بعد از آنکه مدل در کلمنتین ساخته شد ، آن را می‌توان به عنوان کد C که باید در محیط خارجی صف بندی شود ، صادر نمود . به عنوان مثال ، اگر مدل شبکة ‌عصبی بایستی صادر شود . کلمنتین سه فایل را صادر خواهد نمود : یک سر فایل ، یک فایل وظیفه ، و یک فایل تعریف شبکه. قوانینی که الگوریتم القاء قوانین ایجاد می‌کند ، قابل صدور می‌باشد.

محیط برنامه ریزی دیداری کلمنتین ، برای یک مبتدی ، مناسب است . توالی طراحی به طور مشخص ارائه می‌گردد و حق انتخابهای متعدد ،‌ انعطاف پذیری را افرایش می‌دهند . یک کاربر کارشناسی که مایل به ساخت الگوریتم های کلمنتین می‌باشد ،‌ آن آزادی را ندارد . با این وجود ، حذف انتخابهایی در شبکه های عصبی برای تنظیم نرخ یادگیری و کنترل خستگی مشتری در الگوریتم های درخت تصمیم وجود دارد . کلمنتین الگوهای تجاری ارائه نمی‌کند . تداخل مقاومتها در میزان نوشتن این بحث وجود نداشت .

نتیجه گیری . کلمنتین یک محصول قوی است . در معیارهای منتشر شدة مشتری ،‌ آن برحسب قابلیت سنجش اعتبار پیشگویی کننده و زمان پردازش خوب کار می‌کند . بطور کلی ،‌ کلمنتین ، بسیار خوب با اجراهای تجزیه و تحلیل مقیاس اندک و بزرگ ، همانگ بود.

4 تفکر و سناریو ( cognos)

بررسی کوگنوس ، به عنوان یکی از رهبران در بازار OLAP ، با معرفی دو ابزار استخراج داده ها در موجودی دارایی خود از نظر مقام ،‌‌ ارتقاء یافته است :

این ابزارها یا بهره برداری از شبکه های عصبی و تکنیکهای CHAID قابلیت های استخراج داده ها را ارائه می‌کند . بطور کلی این ابزارها در سکوهای کاکنوس تقویت می‌شوند. و بطور مشخص در محیط ویندوز مورد توجه قرار می‌گیرند . هر دو ابزار داده ها را از صفحه گسترده بانکهای اطلاعاتی و فایلهای متن Ascll تحصیل می‌کند .

4 thought برای رسیدگی به مسائل تجاری متنوع از جمله بهینه سازی قیمت، پیش بینی تقاضا و پیشگویی و سنجش عملکرد ایجاد می‌گردد . 4 thought از پیشگویی چند لایه ای ( MPL ) تکنولوژی شبکة عصبی استفاده می‌کند که بسیار برای تجزیه مسائلی که به اشکال غیر خطی ،‌ داده های اغتشاش و مجموعه های کوچک داده ها می‌پردازد، هماهنگ است . دو تجزیه و تحلیل اصلی که 4 thought ارائه داد تجزیه و تحلیل سریهای زمانی و برش عمودی مشتری هستند . تجزیة و تحلیل سریهای زمانی ، به دنبال روندهایی بر اساس رفتار متناوب هستند. در صورتیکه ، ایجاد برش عمودی مشتری به داده های دموگرافیک ، به عنوان مثال برای پیشگویی این که آیا مشتری یک محصول ویژه را خریداری می‌کند یا نه می‌پردازد.

سناریو برای طبقه بندی و مسائل اتحاد، طراحی می‌شوند ؛ آن می‌تواند روابطی را بین متغیرها در مجموعه داده ها بیابد . سناریو از کشف تاثیر متقابل اتوماتیک مربع خی دو (CHAID) استفاده می‌کند ، و می‌تواند اشتقاقهای چند جهته را برای متغیرهای پیشگویی کننده فراهم نماید . سناریو ، استراتژیهای تجزیه و تحلیل متفاوت ، نمونه گیری اتوماتیک و تصمیم و ایجاد درخت را ارائه می‌دهد . با این وجود ، سناریو برای رسیدگی به متغیرهای هدف مقوله ای طراحی نمی‌شود. سناریو در کشف و تجسم داده ها قوی است.

ثبات سناریو و 4 thought ، تداخل کاربر جامع و درک کنندة آن است، اساساً در یک کاربر مبتدی هدف قرار می‌گیرد . آن از ترسیم نمودار برای تجزیه و تحلیل تک متغیره با استعاره درخت تصمیم استفاده می‌کند ،و نمایش دیداری خوب را برای تغییرات اطلاعاتی بین بخشها برای تجزیه و تحلیل روند و همبستگی عامل فراهم می‌سازد . سناریو ، دارای الگویی برای تجزیه و تحلیل اطلاعات سود از داده های رقابتی و فصلی می‌باشد.

کاکنوس ذکر کرد که آن 4 thought و سناریو را با پاور پلی (OLAP ) و کاربردهای (گزارشی ) Impromtu ترکیب خواهد نمود.

محصولات کاکنوس در سیستم های عملیاتی ویندوز میکروسافت اجرا می‌شوند (ویندوز 95 یا با راحتی ، و یا NT ).

دسترسی به داده ها ، ساخت و پیش پردازش . 4 thought می‌تواند داده ها را به شکل صفحه گسترده های اکسل به فایلهای لوتوس 123 ، فایلهای SPSS ، فایلهای متن صدور شده ، فایلهای ارزش با کاما جدا شده فایلهای دارای پهنای ثابت ، وارد نماید . بعلاوه ، دسترسی به بانکهای اطلاعاتی ارتباطی از طریق محرک odbc از کتابخانه و بانک اطلاعاتی Q&E تقویت می‌شود.

سناریو می‌تواند داده ها را از فایلهای یکنواخت ، صفحه گسترده اکسل ، و جداول dBase ، وارد نماید همچنین ، سناریو می‌تواند از کاکنوس ایمبرومتو برای وارد ساختن داده ها از بورلاند اینتربیس، سنئورا SQLBase ، اینفورمیکس ،‌ میکروسافت SQL سرور، اوراکل ، سیبس SQL سرور ، و مسیرهای بانک اطلاعاتی اصلی از جمله مسیر MDI DB2 ، مسیر omni SQL ، مسیر اوراکل ترانس پرنت، مسیر سیبس نت ، استفاده می‌کند .

قابلیتهای ساخت اطلاعات شامل موارد زیر می‌شود.

· طبقه بندی

· جایگزینی ارزش از دست رفته ( با یک ارزش مقدم یا استفاده از تفسیر)

· تبدیل ارزش رشتة متن به ارزش عددی

· تبدیل خودکار سیاه به صفر

· تصفیه ثبت های بیگانه یا دور دست

· قابلیتهای محدود نمونة گیری داده ها و 4 thought می‌تواند نمونه گیر اتفاقی را تقویت نماید ، اما نمونه گیری لایه لایه وجود ندارد .

تکنیک های استخراج داده ها ، الگوریتم ها و کاربردها

4 thought از تکنولوژی شبکة عصبی پیشگویی چند لایه استفاده می‌کند که طراحی ورودی به خروجی را بر اساس محاسبات گره های متصل بهم ایجاد می‌نماید . خروجی هر گره یک تابع غیر خطی مجموع وزن دار و ورودیهای از گرمای دو لایه های قبلی می‌باشد.

سناریو از الگوریتم درخت تصمیم بر اساس CHALD استفاده می‌کند . آن قوانینی را ایجاد می‌کند که می‌تواند برای مجموعه داده های طبقه بندی شده برای پیشگویی این که کدام ثبت ها پیامد مطلوب خواهند داشت که بکار برد . الگوریتم درخت تصمیم سناریو . به اندازه کافی انعطاف پذیر است که حق انتخاب تقسیم هر متغیر یا یک اشتقاق بر اساس اهمیت آماری به کاربر می‌دهد .

سناریو ، طبقه بندی وسائل اتحاد را تقویت می‌کند، و می‌توان در ترسیم برش عمودی و تقسیم بندی بازار ، از آن استفاده نمود . 4 thought برای تجزیه و تحلیل سریهای زمانی طراحی مدل پیشگویی کننده و پیش بینی مسائل بهتر مناسب است . هر دو ابزار ، امکان تجزیه گرافیکی مواد خام از طریق نقشه های خطی میله ای و نمودار پراکندگی را فراهم می‌آورد. سناریو منظرة گراف و درخت را که بر اطلاعات کلی مشابه تکیه دارد ، پیشنهاد می‌دهد. سناریو می‌تواند از متغیرهای دو تایی مداوم ،‌ و پیشگویی کنندة‌ مقوله ای استفاده نماید ؛ اما آن تنها از متغیر عددی به عنوان اهداف استفاده می‌نماید.

سناریو سه استراتژی تجزیه و تحلیل را ارائه می‌دهد.

· حالت طبقه بندی . حداقل به 1000 ثبت نیاز دارد ،‌ که نیمی‌از آن برای تست حفظ می‌شود و به تولید نتایج با اطمینان بالا ، توجه می‌کند .

· حالت تست یا آزمایش ، نیازمند ثبت های کمتری می‌باشد ، و از یک سوم این ثبت ها برای تست استفاده می‌کند . و بطور کلی معیارهای کمتر بی ارزش را برای دسته بندی ارائه می‌دهد .

· حالت بررسی . به حداقل شرایط ثبت نیاز ندارد و برای بررسی داده های اولیه طراحی می‌شود .

کار با ابزار در سناریو ، ، مدلی در یک محیط برنامه ریزی دیداری با استفاده از یک افسونگر مشخص می‌گردد. سناریو بطور خودکار انواع متغیر را انتخاب می‌کند ،‌ و به کاربر امکان می‌دهد تا داده ها را نمونه گیری کند و داده ها را به نمونه های آموزشی و تست، تقسیم نماید . همانگونه که قبلاً ذکر شد ، سناریو سه استراتژی تجزیه و تحلیل را ارائه می‌دهند که شناسایی ، تست و بررسی سناریو می‌تواند یک درخت را بطور خودکار ایجاد کند، یا به کاربر امکان می‌دهد تا هر بخش و قسمت را به یک درخت تبدیل کند . کاربر می‌تواند بطور مداوم به سادگی محصور شوند و سناریو فهرستی از متغیرهای از نظر آماری مهم درجه بندی شده را ایجاد می‌کند ، و می‌تواند بطور خوکار به متغیرهای دارای بالاترین رتبه تقسیم شود.

4 thought به کاربر امکان می‌دهد تا مدل شبکه عصبی را با اولین تصمیم گیری در این مورد که آیا آن برای تجزیه و تحلیل سریهای زمانی می‌باشد یا نه ، شناسایی نماید . کاربر در مورد ماهیت سریهای زمانی تصمیم می‌ گیرد (روزها ، هفته ها و ماهها و سالها و یا زمان مشخص شده توسط کاربر). برای سریهای زمانی و تجزیه و تحلیل طراحی مدل پیشگویی کننده، کاربر ، مدل را از طریق جعبه شناساسی و یا اگر مدلی ایجاد می‌نماید . کاربر دارای انعطاف پذیری انتخاب یک شبکة تک لایه دو لایه ، می‌باشد. 4 thought دو حالت از تست مدل را برای تعیین زمان توقف ارائه می‌دهد :

تست ساده : ابزار داده ها را به گروههای آموزشی و تست تقسیم می‌کند ، و از یک گروه تست در سراسر فاز آموزشی برای تعیین نقطة انقضاء وخاتمه ، استفاده می‌کند .

تست کامل : که ابزار چندین مدل را ایجاد می‌کند ، و سعی می‌کند تا یک نقطة توقف بهینه را بیابد.

4 thought ، یک تفسیر گرافیکی و یک نمودار پراکندگی مدل در برابر داده های واقعی و همینطور فهرست دینامیکی از متغیرهای بحرانی را برای کاربر فراهم می‌کند .

در سناریو ، خواه یک نمودار یا منظرة درخت استفاده شود ، کاربر می‌تواند خلاصة، آمار همانند میانگین متوسط انحراف معیار و غیره را مشاهده نماید 4 thought یک گزارش آماری کامل ، یک گزارش مسطح مقطع و گزارش سناریو را ارائه می‌دهد . گزارش آخر ، به کاربر امکان می‌دهد تا مقادیر کل متغیرهای ورودی را برای برگشت پاسخ خروجی انتظاری مدل شناسایی نماید.

مدلهایی که توسط سناریو ساخته شده قابل صدور نیستند ، اما شرحهایی تعقیبی طراحی می‌شوند که دارای قوانین قابلیتهای صدور می‌باشد . 4 thought می‌توانند در ارتباط با اکسل لوتوس 123 و spss کار نمایند . و می‌توانند یک مدل آموخته شده را به صورت یک تابع ریاضی در هر یک از این محیط ها ، صف بندی نمایند.

نتیجه گیری. 4 thought و سناریو هر دو قابلیت های حمایت تصمیم کوکناس را توسعه می‌دهند . و عملی بودن استخراج داده ها را ایجاد می‌نماید . در معیارهای منتشر شده مشتری سناریو ، نتایج خوب و تداخل دوستانة کاربر را نشان می‌دهد . 4thought دسترسی به درجه بندی های معقول بر اساس عملکرد و اعتبار را گزارش می‌کند .

داروین ( اوراکل )

بررسی . داروین که اغب، یکی از ابزارهای ابتدایی استخراج داده ها در نظر گرفته می‌شود،‌ شهرتش را تائید می‌کند . اخیراً ، اوراکل، داروین را از شرکت Thinking Machine برای افزایش پیشنهاد و تولید خود بدست آورد و خصوصاً در فضای CRM که استخراج داده ها همانگونه که قبلاً بحث شد، نقش بحرانی ایفا می‌کند . بحث زیر بر اساس خصوصیات داروین می‌باشد ، درست همانگونه که Thinking Machine توسعه داده و بازاریابی کرد . و ارواکل ، تصمیم می‌گیرد تا هر مشخصه ، اجزاء و معماری ابزار را تغییردهد.

ابزار استخراج داده های داروین به عنوان یک محصول پیچیدة حاوی ابزار استخراج داده ها طراحی شد : شبکه های عصبی ، درخت k نزدیکترین همسایه . ابزار شبکة عصبی داروین ( Darwin Net ) یک سری جامع از توابع را برای ساخت مدل فراهم می‌کند . آن می‌تواند از پیشگویی کننده های مقوله ای و مداوم و متغیرهای هدف استفاده کند . و می‌توان برای مسائل طبقه بندی ، پیشگویی ، و پیش بین مورد استفاده قرار داد.

ابزار درخت تصمیم ( درخت داروین ) از الگوریتمهای CART استفاده می‌کند . می‌توان برای حل مسئله طبقه بندی با متغیرهای مداوم و مقوله ای مورد استفاده قرار داد. ابزار k نزدیکترین همسایه (darwin Match) را می‌توان برای حل مسئله طبقه بندی متغیرهای وابستة مقوله ای و متغیرهای پیشگویی کنندة‌ مقوله‌ای و پیوسته مورد استفاده قرار داد.

اگر چه هر ابزار جزء دارایی نقصهای است . اما Darwin شامل یک سری کامل از توابع برای ارزیابی مدل می‌شود . آن خلاصة آمار ، ماتریس اغتشاش و جداول درجة افزایش را برای کل انواع مدلها ، ایجاد می‌کند .

داروین تداخلهای نسبتاً قوی کاربر را برای افراد مبتدی همینطور کارشناسها ارائه می‌دهد ، اگر چه تداخلها بهتر با یک کاربر کارشناس هماهنگ هستند.

داروین که از یک شرکت معروف به عنوان یکی از اولین سازندگان کامپیوتری موازی حاصل شده است ، مزیت زیادی در پردازش کارایی و قابلیت انعطاف پذیری دارد . الگوریتم های آن برای اثبات موازی بهینه می‌شوند و به اندازة کافی بهینه هستند که در معماریهای موازی و سری اجرا می‌شوند . این قابلیت بطور مشخصی از توجه اوراکل فرار نکرد و به اوراکل کمک می‌کند تا به یک فروشنده اولیه بانک اطلاعاتی و محصـولات کاربر تبدیل شوند که می‌تواند یک مؤسسه جهانی بزرگ را درجه بندی کند.

داروین به عنوان یک سیستم ارباب رجوع / سرور یا خادم طراحی می‌شود و سکوی خادم از پردازشگرهای متحد تا SMPS تا پردازشگرهای موازی از جمله سیستم های وینتل که در ویندوز NT اجرا می‌شوند و همینطور محصولات مبتنی بر UNIX از میکور سیستم های SUN ، HP ، IBM و NER ، Compag/Digital متغیر است.

دسترسی به داده ها ، ساخت و پیش پردازش. داروین می‌تواند داده های محدود با طول ثابت را از فایلهای یکنواخت (ASCII) و بانکهای اطلاعاتی ارتباطی از طریق ODBC وارد نماید . بطور داخلی ، داده ها در یک قالب و فورمت اختصاص ذخیره می‌شوند که می‌توان بطور مؤثر در یک سیستم چندین پردازشگر ، طرح بندی نمود .

قابلیت های ساخت داده های داروین شامل موارد زیر می‌شود.

· قابلیت ادغام برای مجموعه داده های مجزا

· حذف متغیرها از مجموعة اطلاعاتی

· تعیین نوع متغیر ( به عنوان مثال مقوله ای مرتب شده )

· تبدیل به یک محموعة داده های سری به مجموعة داده های موازی

· نمونه گیری داده ها و جداسازی

تکنیکهای استخراج داده ها ، الگوریتم ها و کاربردها. الگوریتم های اصلی که در زمان چاپ تقویت و تائید می‌شوند ، و شبکه های عصبی ، درخت تصمیم نزدیکترین همسایه می‌باشد.

الگوریتم های آموزشی شبکة عصبی شامل انتشار رو به عقب ، تندترین فرود یا نزول ، نیوتن اصلاح شده و غیره می‌باشد . توابع انتقال شامل خطی ، سیگموند ، هیپوتانژانت می‌شوند.

درخت تصمیم از الگوریتم های CART استفاده می‌کند که می‌تواند به طور خودکار درخت را با انتخاب تعداد درختان فرعی که در تجزیه و تحلیل در نظر گرفته می‌شود . هرس نماید.

الگوریتم K نزدیکترین همسایه بر اساس تکنیک استدلال مبتنی بر حافظه ( MBR) می‌باشد آن یک ارزش متغیر وابسته را بر اساس واکنشهای K نزدیکترین ثبت هماهنگ کننده در مجموعة آموزشی پیشگویی می‌کند که در آنجا نزدیکی همسایه با به حداقل رساندن فاصلة وزن دارEuclidean بین متغیرها ، تعیین می‌شود.

شبکة عصبی داورین را می‌توان برای ساخت مدلهای پیشگویی کننده و پیش بینی کننده مورد استفاده قرار دارد و متغیرهای مقوله ای و مداوم را بکار برد . درخت تصمیم و ابزارهای k نزدیکترین همسایه را برای مسائل طبقه بندی مورد استفاده قرار داد.

کار با ابزار داروین ، یک سری غنی از حق انتخابها را برای شناسایی مدل فراهم می‌نماید . به عنوان مثال برای شبکة عصبی ، داورین امکان شناسایی معماری شبکة عصبی ، توپولوژی ، تابع های انتقال الگوریتم آموزشی و تابع هزینة حالت یادگیری و حداکثر تعداد تکرارهای آموزشی را فراهم می‌آورد . این حق انتخابها کاربر کارشناس را هدف قرار می‌دهد.

با این وجود تفسیر شبکه های عصبی ذاتاً مشکل است. داروین ، خلاصه ای از معماری مدل ، توپولوژی اللگوریتم‌ها ، و تابع ها را ارائه می‌دهد جزء درخت تصمیم مدل را به صورت یک مجموعة ساده از قوانین اگر - پس توضیح می‌دهد که کاربر می‌تواند آن را آزمایش نماید.

داروین یک مجموعة جامع از تابعها را که برای ارزیابی مدل از جمله گزارشات در مورد آمار خطا ، فهرستی از خطاهای طبقه بندی نادرست ، گزارشات مقایسه ای از پیامد پیشگویی شده و واقعی ، ماتریس اغتشاش و جدول درجه افزایش فراهم می‌نماید.

نتیجه گیری . مزیت داروین در تقویت الگوریتم ها و با طرحهایی برای افزودن الگوریتم های ژنتیکی و منطق نامعلوم می‌باشد . آن را می‌توان در چندین سکو در شکل ارباب رجوع / خادم اجرا نمود، که خادم ممکن است یک پردازشگر یا چندین پردازشگر متقارن، یا پردازشگر موازی باشد . در حالت خادم چند پرداشگر ، داروین می‌تواند از مشخصه های قابلیت سنجش سخت افزار سود ببرد . در معیارهای منتشر شده یا مشتری ، داورین عملکرد و قابلیت مقایسه قوی را نشان داد . بطور کلی داورین برای اجراها در قیاس متوسط و بزرگ ، مناسب می‌باشد . به عنوان مثال اخیراً داروین برای کاربردهای رابطه مشتری وفاداری مشتری توسط GTE و Credit suisse انتخاب گردید.

ایستگاه کاری استخراج بانک اطلاعتی ( HNC)

بررسی HNC یکی از موفق ترین شرکتهای استخراج داده ها می‌باشد . ایستگاه کاری استخراج بانک اطلاعاتی (DMW) یک ابزار شبکة عصبی است که بطور گسترده برای کاربردهای تجزیه و تحلیل کلاهبرداری کارت اعتباری قابل قبول می‌باشد . DMW مرکب از کاربردهای نرم افزار مبتنی بر ویندوز و یک مورد پردازش مرسوم می‌باشد . سایر محصولات HNC شامل کاربردهای فاکون و پرافیت ماکس برای خدمات مالی و راه حل کشف کلاهبرداری سیستم کنترل سوء استفادة ارتباطات از راه دور پیشرفته (ATACS) می‌باشد که hnc قصد دارد تا در صنعت ارتباطات از راه دور ، صف بندی نمایند .

شبکة عصبی DMW ، الگوریتم شبکة عصبی انتشار رو به عقب را تقویت می‌کند، و می‌تواند در حالات اتوماتیک و دستی کار کند. مدل آن را می‌توان با استفاده از آمار جامع و عملی بودن برای محاسبة همبستگی های بین متغیرهای پیشگویی کننده و حساسیت آنها نسبت به یک متغیر وابسته ، تفسیر نمود.

DMW ، تعدادی از حق انتخابهای مشخص کاربر را ارائه می‌نماید که امکان انعطاف پذیری مهم در اصلاح الگوریتم ، متغیر داده ها و تابعهای ساخت داده ها را فراهم می‌سازد . DMW بطور مؤثر متغیرهای پیوسته و مقوله ای را مورد استفاده قرار می‌دهد که می‌توان برای مسائل پیشگویی ، طبقه بندی و پیش بینی مورد استفاده قرار داد .

DMW، تداخلهایی را برای کاربران مبتدی و با تجربه از جمله حق انتخابهای هماهنگ کنندة پیشرفته و امکانات مورد استفاده قرار داد .

DMW ، برای ایجاد یک مدل معتبر و مؤثر پیشگویی کننده شهرتی را کسب کرده است، عملکرد پردازش آن، قابلیت سنجش آن و برای تائید شرایط اصلی پردازش کارت اعتباری کافی می‌باشد.

دسترسی به داده ها ، ساخت و پیش پردازش . محصول DMW ، بطور مسقیم فایلهای ASCII با طول ثابت را تقویت می‌کند . محصول حمل می‌شود و با DDMS/COPY ترکیب می‌شود (شرکت نرم افزار تصویر ).

این ابزار می‌تواند DBMS اصلی فورمتهای آماری و صفحة گسترده را در یک فورمت ASCII با طول ثابت مناسب برایDMW را تبدیل نماید.

قابلیتهای ساخت داده های DMW شامل موارد زیر می‌باشد:

· حذف متغیرها از یک مجموعه اطلاعاتی

· نوع متغیر تعریف شده توسط کاربر

· تعداد مقوله های تعیین شده توسط کاربر

· تابع عادی سازی داده های تعیین شده توسط کاربر

· تغییر شکل اتوماتیک متغیرهای مقوله ای به متغیرهای دوتایی

· جایگزینی داده های از دست رفته

· نمونه گیری اطلاعاتی انتخاب شده توسط کاربر

ضریب تغییر شکل داده های DMW تساویها را حفظ می‌کند که پارامترهای شکل ، متغیرها و نوع اطلاعات تابع های عادی سازی نرمال، تعداد مقادیر بی نظیر و ارزشهای اختصاص یافته به داده های از دست رفته را توضیح می‌دهد.

تکنیکهای استخراح داده ها ، الگوریتم ، و کاربردها DMW یک الگوریم شبکة عصبی انتشار رو به عقب را بکار می‌برد . یک کاربر می‌تواند تابع انتقال (آستانه ، منطقی ، خطی ، گواسیان عکس تانژانت ، یا تانژانت هیپربولیک)، حالت یادگیری و چندین پارامتر دیگر را مشخص کند .

DMW ، مدلهای پیشگویی کننده ای را برای مسائل طبقه بندی بر پیشگویی و مسائل پیش بینی ایجاد می‌کند . کاربرد تحلیلی اصلی آن، کشف کلاهبرداری ( طبقه بندی ) برای صنعت کارت اعتباری می‌باشد.

کار با ابزار . DMW یک انعطاف پذیری مهم در شناسایی مدل را ارائه می‌دهد . مدل را می‌توان بطور دستی یا خودکار با تعریف معماری اصلی و پارامترهای توپولوژیکی ، مشخص نمود . در حالت اتوماتیک ، DMW می‌تواند با انجام یک تجزیه و تحلیل دسته بندی در حوز‌ه متغیر ، متغیرهای پیشگویی کند تا مناسب را انتخاب نماید.

DMW ، دو تابع را برای تفسیر مدل ارائه می‌دهد : تجزیه و تحلیل حسایت و تابع کمک که تک تک سکویی ها را توضیح می‌دهد. به عنوان مثال این تابع را می‌توان برای توضیح این که چرا کاربر وام رد شد و عوامل رد تا چه حد قوی بودند مورد استفاده قرار دارد.

برای هر مدل ، DMW یک فایل لوگ و فایل مسابقه را ایجاد می‌کند که حاوی اطلاعاتی در مورد این که چه تعداد ارزیابی انجام شد، آمار ارزیابی و جداول پیشگویی های صحیح در برابر پیشگویی های نادرست می‌باشد . نتایج ارزیابی را می‌توان در یک صفحه گسترده اکسل برای تجزیه و تحلیل معاملات کارت اعتبای مورد استفاده قرار داد. اگر چه DMW نمی‌تواند مستقیماً بانک های اطلاعاتی را امتیازدهی نماید، آن یک API موسوم به Deploy Net را برای صف بندی مدلهای ساخته شده با DMW ،‌ارائه می‌نماید.

نتیجه گیری . DMW یک محصول کامل و قوی است و در پذیرش بازار، بسیار موفقیت آمیز بوده است. کاربرد طبقه بندی / کشف کلاهبرداری آن در زمان واقعی برای تجزیه و تحلیل معاملات کارت اعتباری مورد استفاده قرار می‌گیرد. این یک شاهد قوی برای قابلیت سنجش و عملکرد محصول می‌باشد.

ارسال نظر

نام:*
ایمیل:*
متن نظر:
کد را وارد کنید: *
عکس خوانده نمی شود