מדריך למתחילים מסמלית בדפדוף דפי אינטרנט

נתונים ומידע באינטרנט צומחים מיום ליום. בימינו, רוב האנשים משתמשים בגוגל כמקור ידע ראשון, בין אם הם מחפשים ביקורות על עסק או מנסים להבין מונח חדש.

עם כמות הנתונים הזמינים ברשת, זה פותח הרבה הזדמנויות עבור מדעני הנתונים. לרוע המזל, מרבית הנתונים באינטרנט אינם זמינים. זה מוצג בפורמט לא מובנה המכונה פורמט HTML שאינו ניתן להורדה. לפיכך, היא דורשת את הידע והמיומנות של מדען נתונים כדי לעשות בו שימוש.

גירוד באינטרנט הוא תהליך המרת נתונים הקיימים בפורמט HTML לפורמט מובנה שניתן לגשת אליו ולהשתמש בו בקלות. כמעט כל שפות התכנות ניתנות לשימוש לגילוט אתרים תקין. עם זאת, במאמר זה אנו נשתמש בשפת R.

ישנן מספר דרכים בהן ניתן לגרד נתונים מהאינטרנט. חלק מהפופולריים ביותר כוללים:

1. הדבקת העתקה אנושית

זוהי טכניקה איטית אך יעילה מאוד של גרידת נתונים מהאינטרנט. בטכניקה זו, אדם מנתח את הנתונים שהוא / ה עצמו / ת ואז מעתיק אותם לאחסון המקומי.

2. התאמת דפוס טקסט

זוהי גישה נוספת פשוטה אך עוצמתית להפקת מידע מהאינטרנט. זה דורש שימוש במתקני התאמה לביטוי רגילים של שפות תכנות.

3. ממשק API

המון אתרים כמו טוויטר, פייסבוק, לינקדאין וכו 'מספקים לך ממשקי API ציבוריים או פרטיים אשר עשויים להיקרא באמצעות קודים סטנדרטיים לאחזור נתונים בפורמט שנקבע.

4. ניתוח DOM

שים לב שתוכנות מסוימות יכולות לאחזר תוכן דינמי שנוצר על ידי הסקריפטים שלצד הלקוח. אפשר לנתח דפים לעץ DOM שמבוסס על התוכניות בהן תוכלו להשתמש כדי לאחזר חלקים מהדפים הללו.

לפני שתתחיל עם גרידת אתרים ב- R, אתה צריך להיות בעל ידע בסיסי ב- R. אם אתה מתחיל, ישנם מקורות רבים ומגוונים שיכולים לעזור. כמו כן, אתה נדרש להיות בעל ידע ב- HTML ו- CSS. עם זאת, מכיוון שרוב מדעני הנתונים אינם מדויקים עם הידע הטכני של HTML ו- CSS, תוכלו להשתמש בתוכנה פתוחה כמו גאדג'ט של Selector.

לדוגמה, אם אתה מגרד נתונים באתר IMDB עבור 100 הסרטים הפופולריים ביותר שיצאו בתקופה מסוימת, עליך לגרד את הנתונים הבאים מאתר: תיאור, זמן ריצה, ז'אנר, דירוג, הצבעות, השתכרות ברוטו, במאי ו- ללהק. לאחר שגרדתם את הנתונים, תוכלו לנתח אותם בדרכים שונות. לדוגמה, ניתן ליצור מספר הדמיות מעניינות. עכשיו כשיש לך מושג כללי מהי גרידת נתונים, אתה יכול לפלס את דרכך!

mass gmail