תוכן עניינים:
הגדרה - מה המשמעות של כריית נתוני טקסט?
כריית נתוני טקסט כוללת סירוק באמצעות מסמך טקסט או משאב לקבלת מידע מובנה בעל ערך. זה דורש כלים אנליטיים מתוחכמים המעבדים טקסט על מנת לאסוף מילות מפתח ספציפיות או נקודות נתונים מרכזיות ממה שנחשב לפורמטים גולמיים יחסית או לא מובנים.
כריית נתוני טקסט ידועה גם ככריית טקסט או ניתוח טקסטים.
Techopedia מסביר כריית נתוני טקסט
בכריית נתוני טקסט, מערכות מהונדסות משתמשות בדברים כמו טקסונומיות וניתוח לקסיקלי כדי לקבוע אילו חלקים ממסמך טקסט חשובים כנתונים שנכרתו. מודלים סטטיסטיים מועילים בדרך כלל, ומערכות עשויות גם להשתמש בהיוריסטיקות, או ניחושים אלגוריתמיים, כדי לנסות לקבוע אילו חלקים של טקסט חשובים. מערכות בקרה אחרות כוללות תיוג וניתוח מילות מפתח, בהן כלים מחפשים שמות עצם ספציפיים או תגיות ומילות מפתח אחרות כדי להבין על מה כתוב.
מרכיב ייחודי נוסף של כריית טקסטים נקרא לעתים קרובות ניתוח סנטימנטים. בניתוח סנטימנטים, שהוא בדרך כלל קשה בהרבה מניתוח סטטיסטי, כלים אנליטיים מנסים להבין את מצב הרוח או הסנטימנט שמאחורי הטקסט הכתוב והיבטים אחרים של מה שהוא מתייחס אליו ברמה הסובייקטיבית והאינטואיטיבית ביותר. עם הופעתם של כלי בינה מלאכותית, הרבה מאוד מקדמים נעשו בניתוח סנטימנטים, כך שכריית נתוני טקסט מודרניים היא יותר מאשר רק איסוף הפניות כמותיות וכרוכה בהבאת מודלים רעיוניים ברמה גבוהה לכריית טקסטים כדי להבין דרכים חדשות וייחודיות. כדי לצבור נתונים יקרי ערך.