ש:
מהן כמה דרכים מרכזיות לאוטומציה של תהליכי מדעי הנתונים ואופטימיזציהם?
ת:ניתן לחלק תהליכים במדעי נתונים בהקשר של למידת מכונה ו- AI לארבעה שלבים שונים:
- רכישת נתונים וחקירה,
- בניין מודל,
- פריסת מודל
- הערכה ועידון מקוון.
מנסיוני, השלבים המכשילים ביותר הם שלבי רכישת נתונים ומודל פריסת מודלים בכל תהליך מדעי נתונים מבוסס-למידה מכונה, והנה שתי דרכים לייעל אותם:
1. הקימו מאגר נתונים נגיש ביותר.
ברוב הארגונים, הנתונים לא נשמרים במיקום מרכזי אחד. בואו ניקח רק מידע שקשור ללקוחות. יש לך פרטי קשר עם לקוחות, דוא"ל לתמיכה בלקוחות, משוב לקוחות והיסטוריית גלישה של לקוחות אם העסק שלך הוא יישום אינטרנט. כל הנתונים הללו מפוזרים באופן טבעי, מכיוון שהם משרתים מטרות שונות. הם עשויים להתגורר בבסיסי נתונים שונים וחלקם עשויים להיות מובנים לחלוטין וחלקם לא מובנים, ואף עשויים להיות מאוחסנים כקבצי טקסט רגילים.
למרבה הצער, הפיזור של מערכי הנתונים הללו מגביל מאוד את עבודת מדעי הנתונים כבסיס לכל בעיות ה- NLP, למידת מכונה ובעיות AI הן נתונים . אז כל הנתונים האלה במקום אחד - מאגר הנתונים - הוא בעל חשיבות עליונה בהאצת פיתוח ופריסת המודל. בהתחשב בכך שמדובר בחלק מכריע בכל תהליכי מדעי הנתונים, ארגונים צריכים להעסיק מהנדסי נתונים מוסמכים שיעזרו להם לבנות את מאגרי הנתונים שלהם. זה יכול להתחיל בקלות כשישוף נתונים פשוט למקום אחד, ולאט לאט לצמוח למאגר נתונים מחושב היטב, המתועד במלואו וניתן לשאול בו באמצעות כלי שירות לייצוא קבוצות משנה של נתונים לפורמטים שונים למטרות שונות.
2. חשוף את הדגמים שלך כשירות לשילוב חלק.
בנוסף לאפשר גישה לנתונים, חשוב גם להיות מסוגל לשלב את המודלים שפותחו על ידי מדעני נתונים במוצר. זה יכול להיות קשה ביותר לשלב מודלים שפותחו בפייתון עם יישום אינטרנט שמופעל על רובי. בנוסף, הדגמים עשויים להיות בעלי תלות נתונים רבה אשר המוצר שלך לא יוכל לספק.
אחת הדרכים להתמודד עם זה היא להקים תשתית חזקה סביב הדגם שלך ולחשוף מספיק פונקציונליות הדרושה למוצר שלך על מנת להשתמש במודל כ"שירות אינטרנט. "לדוגמה, אם היישום שלך זקוק לסיווג סנטימנטים על ביקורות על מוצרים. כל שעליו לעשות הוא להפעיל את שירות האינטרנט, לספק את הטקסט הרלוונטי והשירות יחזיר את סיווג הסנטימנטים המתאים בו המוצר יכול להשתמש ישירות. בדרך זו האינטגרציה היא פשוט בצורה של שיחת API. ניתוק הדגם והמוצר שמשתמש בו מקלים על מוצרים חדשים שאתה מוצא בהם להשתמש גם בדגמים אלה עם מעט טרחה.
כעת, הגדרת התשתית סביב הדגם שלך היא סיפור אחר לגמרי ודורשת השקעה ראשונית כבדה מצוותי ההנדסה שלך. ברגע שהתשתית שם, זה רק עניין של בניית דגמים באופן שמתאים לתשתית.