תוכן עניינים:
הגדרה - מה המשמעות של עכביש?
בהקשר האינטרנט, עכביש הוא תוכנה ייעודית המיועדת לסרוק באופן שיטתי ולעיין ברשת האינטרנט לרוב לצורך אינדקס דפי אינטרנט על מנת לספק אותם כתוצאות חיפוש עבור שאילתות חיפוש משתמשים. המפורסם מבין עכבישים כאלה הוא Googlebot, הסורק הראשי של גוגל, המסייע להבטיח כי תוצאות רלוונטיות יוחזרו לשאילתות חיפוש.
עכבישים ידועים גם כסורקי רשת, בוטים לחיפוש או פשוט בוטים.
Techopedia מסביר את ספיידר
עכביש הוא למעשה תוכנית המשמשת לקטיף מידע מהאינטרנט. הוא זוחל בין דפי אתרים המוציא מידע ומוסיף אותו לאינדקס לשימוש מאוחר יותר, בדרך כלל לתוצאות של מנועי חיפוש. העכביש מבקר באתרים ובדפים שלהם דרך הקישורים השונים אל הדפים וממנה, כך שדף בלי קישור אחד שיגיע אליו יהיה קשה לאינדקס ועשוי להיות מדורג ממש נמוך בדף תוצאות החיפוש. ואם יש הרבה קישורים שמפנים לדף, פירוש הדבר שהדף פופולרי והוא יופיע למעלה בתוצאות החיפוש.
שלבים המעורבים בסריקת רשת:
- העכביש מוצא אתר ומתחיל לסרוק את דפיו.
- העכביש באינדקס של מילות האתר ותכניו.
- העכביש מבקר בקישורים שנמצאים באתר.
עכבישים או סורקי אתרים הם רק תוכניות, וככאלה הם פועלים לפי כללים שיטתיים שנקבעו על ידי המתכנתים. בעלי אתרים יכולים להיכנס לעניין זה על ידי אמירת העכביש אילו חלקים באתר יש להוסיף לאינדקס ומי לא צריך. הדבר נעשה על ידי יצירת קובץ "robots.txt" המכיל הוראות לעכביש ביחס לאילו חלקים לאינדקס וקישורים לעקוב ואילו מהם עליו להתעלם. העכבישים המשמעותיים ביותר שם הם כאלה שבבעלות מנועי חיפוש גדולים כמו גוגל, בינג ויאהו, וכאלה המיועדים לכריית נתונים ולמחקר, אך ישנם גם כמה עכבישים זדוניים שנכתבו כדי לאתר ולאסוף מיילים עבור המשתמש למכור לחברות או למצוא פגיעויות באבטחת רשת.
