תוכן עניינים:
הגדרה - מה המשמעות של סורק אתרים?
סורק אינטרנט הוא בוט אינטרנטי המסייע באינדקס באינטרנט. הם זוחלים עמוד אחד בכל פעם דרך אתר עד לאינדקס של כל הדפים. סורקי רשת עוזרים באיסוף מידע אודות אתר אינטרנט וקישורים הקשורים אליו, ומסייעים גם באימות קוד HTML והיפר-קישורים.
סורק אינטרנט ידוע גם כעכביש רשת, אינדקס אוטומטי או סורק פשוט.
Techopedia מסביר את סורק האינטרנט
סורקי אתרים אוספים מידע כגון כתובת האתר של האתר, מידע על תג המטא, תוכן דף האינטרנט, הקישורים בדף האינטרנט והיעדים המובילים מאותם קישורים, כותרת דף האינטרנט וכל מידע רלוונטי אחר. הם עוקבים אחר כתובות האתרים שכבר הורדו כדי להימנע מהורדת אותו דף שוב. שילוב של מדיניות כמו מדיניות ביקור חוזר, מדיניות בחירה, מדיניות מקבילה ומדיניות נימוס קובע את התנהגות סורק האינטרנט. קיימים אתגרים רבים לסורקי הרשת, היינו האינטרנט העולמי הגדול והמתפתח ללא הרף, פתרונות בחירת תוכן, חובות חברתיות והתמודדות עם יריבים.
סורקי רשת הם המרכיבים העיקריים במנועי חיפוש ומערכות ברשת הבוחנים דפי אינטרנט. הם עוזרים באינדקס של רשומות האינטרנט ומאפשרים למשתמשים לשלוח שאילתות כנגד האינדקס וגם מספקים את דפי האינטרנט התואמים לשאילתות. שימוש נוסף בסורקי רשת הוא בארכיב אינטרנט, הכולל קבוצות גדולות של דפי אינטרנט שנאספים ומועברים בארכיון. סורקי אינטרנט משמשים גם בכריית נתונים, בהם דפים מנותחים עבור מאפיינים שונים כמו סטטיסטיקות, ואז מבצעים ניתוח נתונים עליהם.
