תוכן עניינים:
הגדרה - מה המשמעות של נתונים מלוכלכים?
נתונים מלוכלכים מתייחסים לנתונים המכילים מידע שגוי. ניתן להשתמש בו גם כאשר מתייחסים לנתונים שנמצאים בזיכרון וטרם נטענו למסד נתונים. ההסרה המלאה של נתונים מלוכלכים ממקור אינה מעשית או בלתי אפשרית כמעט.
ניתן לראות בנתונים הבאים כנתונים מלוכלכים:
- נתונים מטעים
- נתונים כפולים
- מידע לא נכון
- נתונים לא מדויקים
- נתונים לא משולבים
- נתונים המפרים חוקים עסקיים
- נתונים ללא עיצוב כללי
- נתונים מנוקדים או שגויו בצורה שגויה
Techopedia מסביר נתונים מלוכלכים
בנוסף להזנת נתונים שגויה, ניתן לייצר נתונים מלוכלכים בגלל השיטות הלא תקינות בניהול נתונים ואחסון נתונים. להלן כמה סוגי נתונים מלוכלכים:
- נתונים שגויים - כדי להבטיח שהנתונים תקפים או נכונים, הערך שהוזן צריך להיות תואם לערכים התקפים של השדה. לדוגמה, הערך שהוזן בשדה החודש צריך לנוע בין 1 ל 12, או שגילו של אדם צריך להיות פחות מ 130. נכונות ערך הנתונים עשויה להאכוף באופן תכנותי באמצעות טבלאות בדיקה או באמצעות בדיקות עריכה.
- נתונים לא מדויקים - יתכן שערך נתונים יכול להיות נכון, אך לא מדויק. לעיתים מעשי לבחון מול קבצים או שדות אחרים כדי לברר אם ערך הנתונים מדויק על סמך ההקשר בו משתמשים. עם זאת, לרוב ניתן לאמת רק דיוק על ידי אימות ידני.
- הפרות של כללי עסקים - נתונים שמפרים את הכלל העסקי הם סוג אחר של נתונים מלוכלכים. לדוגמה, תאריך אפקטיבי חייב להיות תמיד לפני תאריך התפוגה. דוגמה נוספת להפרה של כללי עסק יכולה להיות תביעת ביטוח הרפואה של המטופל, כאשר המטופל עשוי להיות עדיין מתחת לגיל הפרישה ואינו זכאי למדיקר.
- נתונים לא עקביים - יתירות נתונים לא מסומנת מובילה לחוסר עקביות בנתונים. כל ארגון מושפע מנתונים לא עקביים וחוזרים על עצמם. זה אופייני במיוחד לנתוני לקוחות.
- נתונים לא שלמים - נתונים עם ערכים חסרים הם הסוג העיקרי של נתונים לא שלמים.
- נתונים כפולים - נתונים כפולים עשויים להתרחש עקב הגשות חוזרות, הצטרפות לא תקינה של נתונים או שגיאת משתמש.
על מנת להגדיל את איכות הנתונים ולמנוע נתונים מלוכלכים, ארגונים צריכים לשלב מתודולוגיות בכדי להבטיח את שלמותם, תוקפם, עקביותם ונכונותם של הנתונים.