תוכן עניינים:
הגדרה - מה המשמעות של כריית נתונים?
כריית נתונים היא תהליך ניתוח דפוסי נתונים נסתרים על פי פרספקטיבות שונות לסיווג למידע שימושי, הנאסף ומורכב באזורים משותפים, כמו מחסני נתונים, לניתוח יעיל, אלגוריתמים של כריית נתונים, הקלת קבלת החלטות עסקיות ומידע אחר. דרישות בסופו של דבר לקצץ בעלויות ולהגדלת הכנסות.
כריית נתונים ידועה גם כגילוי נתונים וגילוי ידע.
Techopedia מסביר כריית נתונים
הצעדים העיקריים הכרוכים בתהליך כריית נתונים הם:
- חלץ, הפוך וטען נתונים למחסן נתונים
- אחסן ונהל נתונים במסדי נתונים רב מימדיים
- לספק גישה לנתונים עסקיים באמצעות תוכנת יישומים
- להציג נתונים מנותחים בצורות מובנות בקלות, כמו גרפים
השלב הראשון בכריית נתונים הוא איסוף נתונים רלוונטיים הקריטיים לעסקים. נתוני החברה הם עסקאות, לא פעולות או מטא נתונים. נתונים טרנסקציונליים עוסקים בפעולות יומיומיות כמו מכירות, מלאי ועלות וכו '. בדרך כלל, באופן לא צפוי נתונים לא-מבצעיים, בעוד מטא נתונים עוסקים בתכנון בסיסי לוגי. דפוסים ויחסים בין אלמנטים נתונים מספקים מידע רלוונטי, שעשוי להגדיל את ההכנסות הארגוניות. ארגונים עם מיקוד צרכני חזק עוסקים בטכניקות של כריית נתונים המספקים תמונות ברורות של מוצרים שנמכרו, מחיר, תחרות ודמוגרפיה של לקוחות.
לדוגמה, ענקית הקמעונאות וול-מארט מעבירה את כל המידע הרלוונטי שלה למחסן נתונים עם טרה-בתים של נתונים. על ידי ספקים ניתן לגשת בקלות לנתונים אלה ומאפשרים להם לזהות דפוסי קנייה של לקוחות. הם יכולים ליצור דפוסים על הרגלי קניות, הימים הקונים ביותר, המבוקשים ביותר למוצרים ונתונים אחרים תוך שימוש בטכניקות כריית נתונים.
השלב השני בכריית נתונים הוא בחירת אלגוריתם מתאים - מנגנון המייצר מודל כריית נתונים. העבודה הכללית של האלגוריתם כוללת זיהוי מגמות במערך נתונים ושימוש בפלט להגדרת פרמטר. האלגוריתמים הפופולריים ביותר המשמשים לכריית נתונים הם אלגוריתמי סיווג ואלגוריתמי רגרסיה, המשמשים לזיהוי קשרים בין אלמנטים נתונים. ספקי מסדי נתונים גדולים כמו Oracle ו- SQL משלבים אלגוריתמים לכריית נתונים, כגון אשכול וטרגרסיה, כדי לענות על הביקוש לכריית נתונים.