+6

Парсинг источников в сюжетах новостей Яндекса

Пиксель Тулс 4 месяца назад • обновлен 4 месяца назад 0

Идея: реализовать инструмент, который будет парсить акцепторов (источники) со страниц доноров (новостные страницы), найденных в подборках новостей Яндекса (https://news.yandex.ru/).

Входные данные:

    На выходе:


    ДонорКоличество ссылокАкцептор
    kp.ru1tass.ru


    Механика работы:


    1. Идём в сюжет по ссылке.
    2. Берём все URL из подборки (условный base_list).
    3. Парсим все ссылки на источники из контента каждой страницы (условный donor_to_acceptor_list).

    Сравниваем два полученных списка (donor_to_acceptor_list и base_list), удаляем все несоответствия и получаем нужный список (условный acceptor_list)



    Сервис поддержки клиентов работает на платформе UserEcho