Підручник з веб-скребків Chrome від експерта Semalt

Якщо ви використовуєте Google Chrome, для вашого веб-переглядача є розширення, яке може допомогти скребкувати веб-сторінки. Він відомий як "Скрепер", і ним можна користуватися без проблем. Scrapper допоможе скребкувати вміст веб-сайту та завантажувати результати в документи Google.

Як зламати веб-сайт за допомогою розширення Scraper?

1. Виберіть веб-магазин Chrome в Google Chrome;

2. У розширеннях здійснюйте пошук "Scrapper";

3. Перший результат пошуку - розширення, відоме як "Scrapper";

4. Виберіть кнопку, вказану як "" Додати в Chrome ";

5. Поверніться до списку депутатів Великобританії;

6. Клацніть наступне посилання ;

7. Тепер знайдіть одного депутата та переконайтеся, що запис позначений;

8. Клацніть правою кнопкою миші, щоб вибрати опцію "Скасувати схожий ...";

9. Консоль скрепера вискочить в іншому вікні;

10. Переглянути скребковий вміст на консолі скрепера;

11. Щоб забезпечити збереження вмісту як електронної таблиці Google, виберіть "Зберегти в Документах Google ..."

Розширене вискоблювання

Перш ніж дотримуватися цього рецепта, корисно зрозуміти основи HTML. Наприклад, ви можете прочитати короткий вступ до HTML за цим посиланням

Уявімо, що нас цікавлять усі фільми, в яких знялася відома італійська акторка Азія Ардженто.

1. У IMDB є дуже детальний архів акторів. Сайт Asia Argento: http://www.imdb.com/name/nm0000782/;

2. Тут ви можете переглянути всі ролі, які грає актриса. Почнемо скручувати інформацію, яка нас цікавить;

3. Спробуйте вичесати його так, як це було описано вище;

4. Ви побачите, що список дещо спотворений. Це пов’язано з тим, що список тут можна структурувати по-різному;

5. Поверніться до консолі скрепера. У верхньому лівому куті ви побачите маленьку скриньку, де написано XPath;

6. Xpath - це різновид мови запитів, яка працює для XML та HTML;

7. XPath може допомогти знайти частини сторінки, яка вас цікавить. Наступне - знайти відповідний елемент і написати XPath для нього;

8. Тепер упорядкуємо наш стіл;

9. Ви побачите, що наш існуючий XPath, у якому є всі необхідні дані, є "// div [3] / div [3] / div [2] / div";

10. XPath інформує Систему переглянути HTML-документ і вибрати третій елемент, потім другий елемент, а потім усі їх;

11. Але ми хотіли б, щоб наші дані були відокремлені;

12. Використовуйте розділ стовпчиків на консолі для скрапера для цього;

13. Давайте спочатку знайти нашу назву РІР, “ Використання Перевірте елемент для перегляду назви;

14. Перевірте заголовок у тезі. Додайте тег до XPath;

15. Здається, що вираз функціонує належним чином, тому зробіть це першим стовпцем;

16. У розділі "Стовпці" замініть ім'я першого стовпця на "заголовок";

17. Додайте до нього XPath;

18. У розділі стовпців XPaths відносні, це означає, що "./b" вибере елемент <b>

19. У XPath для стовпця заголовка додайте "./b" та виберіть "scrape";

20. Тепер продовжимо рік. Роки можна знайти в межах одного проміжку;

21. Створіть новий стовпець, вибравши малий плюс біля стовпця для заголовка;

22. За допомогою XPath "./span" створіть стовпець для "year";

23. Клацніть скребок та перегляньте, як додано рік;

24. Готово!