Как вытащить данные с сайта
Перейти к содержимому

Как вытащить данные с сайта

Получение данных веб-страницы путем предоставления примеров

Получение данных с веб-страницы позволяет пользователям легко извлекать данные из веб-страниц. Однако часто данные на веб-страницах не находятся в простых таблицах, которые легко извлекать. Получение данных из таких страниц может быть сложным, даже если данные структурированы и согласованы.

Есть решение. С помощью функции «Получить данные из Интернета» можно по сути отображать данные Power Query, которые необходимо извлечь, предоставив один или несколько примеров в диалоговом окне соединителя. Power Query собирает другие данные на странице, которая соответствует вашим примерам. С помощью этого решения можно извлечь все виды данных из веб-страниц, включая данные, найденные в таблицах и других не табличных данных.

Get data from web by example.

Цены, перечисленные в изображениях, являются только для целей.

Использование получения данных из Интернета по примеру

Выберите веб-параметр в выборе соединителя, а затем нажмите кнопку «Подключиться«, чтобы продолжить.

В интернете введите URL-адрес веб-страницы, из которой вы хотите извлечь данные. В этой статье мы будем использовать веб-страницу Microsoft Store и покажем, как работает этот соединитель.

Если вы хотите продолжить, можно использовать URL-адрес Microsoft Store, который мы используем в этой статье:

Web dialog.

При нажатии кнопки «ОК» вы перейдете в диалоговое окно «Навигатор» , где отображаются все автоматически заданные таблицы на веб-странице. В приведенном ниже примере таблицы не найдены. Выберите » Добавить таблицу», используя примеры .

Navigator window.

Добавление таблицы с помощью примеров представляет интерактивное окно, в котором можно просмотреть содержимое веб-страницы. Введите примеры значений данных, которые требуется извлечь.

В этом примере вы извлеките имя и цену для каждой игры на странице. Это можно сделать, указав несколько примеров на странице для каждого столбца. При вводе примеров Power Query извлекает данные, соответствующие шаблону примеров записей с помощью алгоритмов интеллектуального извлечения данных.

data by example.

Предложения по значению включают только значения меньше или равно 128 символам длины.

Когда вы довольны данными, извлеченными на веб-странице, нажмите кнопку «ОК «, чтобы перейти в редактор Power Query. Затем можно применить дополнительные преобразования или сформировать данные, например объединение этих данных с другими источниками данных.

applying more transformations.

См. также

  • Добавление столбца из примеров
  • Фигура и объединение данных
  • Получение данных
  • Устранение неполадок соединителя Power Query Web

Веб-скрейпинг: как бесплатно спарсить и извлечь данные с сайта

Технический аудит сайта

можно ли одним способом, например, RegExp, заменить все остальные модели получения данных?, не совсем понятна логика выбора, от чего к чему переходить, выбирая надежный вариант. насколько я знаю, способ XPath дает больше всего ошибок/расхождений.

Admin
29.08.2022 09:28:03

Здравствуйте, с одной стороны регулярные выражения самые распространенные и самые гибкие в использовании, но и с другой самые медленные. На счет точности работы XPath не могу ничего сказать, но примеров по нему в интернете достаточно.

Чтобы оставить комментарий необходимо авторизоваться.

Как вытащить данные из сайта?

Всем привет! Нужно вытащить информацию с сайта.Подробнее: результаты футбольных матчей с сайта myscore.ru Выслушаю любые принадлежности.

Отслеживать
задан 23 окт 2012 в 12:55
Владимир92 Владимир92
25 1 1 золотой знак 2 2 серебряных знака 4 4 бронзовых знака
Если нет АПИ, то только ручной парсинг регулярками и тд, с которым связано масса проблем.
23 окт 2012 в 13:03

на каком языке программирования-то хоть? можно и просто сохранить страницу и блокнотом скопировать нужные данные))

23 окт 2012 в 16:16

2 ответа 2

Сортировка: Сброс на вариант по умолчанию

Я делаю это на python’е с помощью модуля lxml.html. Точнее, с помощью пары функций из него. Одна называется document_fromstring. Она делает DOM-дерево из ответа http-сервера. Другая же делает к этому дереву xpath-запрос, который возвращает нужный элемент. Общая идея примерно такова:

from lxml.html import document_fromstring doc = document_fromstring(response.text) tbl = doc.xpath('//table[descendant::tr[position()=1]/th[text()="Заголовок"]]') 

(Этот код вылавливает из документа такую таблицу, у которой первая строка содержит заголовочную ячейку с текстом «Загловок».)

Как извлечь информацию сайта в удобную таблицу?

Имется сайт, например со списком товаров на несколько страниц. У каждого товара картинка и краткое описание и ссылка на подробное описание. Требуется получить картинку, поле из краткого описания и поле из подробного описания и поместить это всё в удобную таблицу. В этой таблице должна быть фильтрация, сортировка, добавление собственных полей.
Задача встречается очень часто при выборе товаров в онлайн магазинах, поиска тем на форумах без встроенных развитых поисковых механизмов и так далее.
Требование к инструменту:
-возможность использования бесплатно
-не требующий знания других языков/технологий
-должен работать со сложными сайтами на java script, с авторизацией

Этот интсрумент нужен для того чтобы решать проблему выбора товаров/программ/услуг в условиях большого предложения

  • Вопрос задан более трёх лет назад
  • 13738 просмотров

Комментировать
Решения вопроса 1

LB777

На счет бесплатных не знаю, но под ваши задачи полностью подойдет программка Content Downloader
Она умеет все из перечисленного и да же больше.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *