בית שמע כיצד יכול sql ב- hadoop לעזור בניתוח נתונים גדולים?

כיצד יכול sql ב- hadoop לעזור בניתוח נתונים גדולים?

תוכן עניינים:

Anonim

SQL on Hadoop היא קבוצה של כלי יישומים אנליטיים המשלבים שאילתות ועיבוד נתונים בסגנון SQL עם האלמנטים האחרונים של מסגרת הנתונים של Hadoop. הופעת SQL על Hadoop היא פיתוח חשוב עבור עיבוד נתונים גדולים מכיוון שהיא מאפשרת לקבוצות רחבות יותר של אנשים לעבוד בהצלחה עם מסגרת עיבוד הנתונים של Hadoop על ידי הפעלת שאילתות SQL על הכמויות האדירות של נתונים גדולים שמעבירה Hadoop. ברור שמסגרת Hadoop בעבר לא הייתה נגישה לאנשים באותה מידה, במיוחד מבחינת יכולות השאילתה שלה. בהתבסס על הפיתוח, היו כמה כלים בעבודות שמבטיחים לשפר את הפרודוקטיביות של ארגונים בכל הקשור לעיבוד וניתוח נתונים גדולים באיכות ובמהירות. אין גם צורך להשקיע הרבה בלימוד הכלי, כפי שצריך לעשות ידע מסורתי ב- SQL.

הגדרת SQL ב- Hadoop

SQL on Hadoop היא קבוצת יישומים המאפשרת לך להריץ שאילתות בסגנון SQL על נתונים גדולים המתארחים במסגרת עיבוד הנתונים של Hadoop. ברור, שאילתות נתונים, אחזור וניתוח הפכו קלים יותר עם תוספת SQL על Hadoop. מכיוון ש- SQL תוכנן במקור למאגרי מידע יחסים, היה עליו לשנות אותו לפי דגם Hadoop 1 הכולל את MapReduce ומערכת הקבצים המופצת Hadoop (HDFS), ואת הדגם Hadoop 2 שאין לו MapReduce ו- HDFS.

אחד המאמצים המוקדמים ביותר לשלב SQL עם Hadoop הביא ליצירת מחסן הנתונים Hive עם תוכנת HiveQL שיכולה לתרגם שאילתות בסגנון SQL למשרות MapReduce. לאחר מכן פותחו מספר יישומים שיכולים לבצע עבודות דומות. בולטים בין הכלים המאוחרים הם Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) ו- Tez (Hive on Tez).

כיצד יכול sql ב- hadoop לעזור בניתוח נתונים גדולים?