Пишем парсер на Python - грабим Proxy ч.1

Gidroponika · 25.10.2018

Конечно же все вы когда-нибудь пользовались прокси, и сегодня мы научимся делать парсер для добычи оных.

Прокси-сервер — промежуточный сервер, позволяющий замаскировать собственное местоположение.

Парсер - это программа, которая автоматизирует сбор информации с заданных ресурсов.

Приступим:

Для начала мы накидаем такую конструкцию

Код:

import requests
from bs4 import BeautifulSoup


if __name__ == '__main__':
    main()

Модуль requests нужен для обращения к серверу, BeautifulSoup анализирует html код, и последняя запись это точка входа в главную функцию main() которую мы напишем в самом конце программы.

Далее создадим функцию get_html которая принимает аргумент site. Переменная r обращается к requests методом get и получает чтение site. Функция возвращает r выведенную в текст.

Код:

def get_html(site):
    r = requests.get(site)
    return r.text

Далее создаём вторую функцию get_page_data для получения данных со страницы html. Эти сырые данные попадают в переменную soup. Обрабатывает данные BeautifulSoup, принимая код html. И в качестве парсера указываем 'lxml.

Код:

def get_page_data(html):
    soup = BeautifulSoup(html, 'lxml')

Добывать прокси мы будем с

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

поэтому заходим по этому адресу, открываем инструменты разработчика кнопкой F12. Удобнее всего, на мой взгляд реализовано в ГуглХром. Кому-то нравится в лисе, но это не так важно. Наша задача определить в исходном коде, где находятся нужные нам строки.

В исходнике мы видим что proxy заключены в таблицу, и у этой таблицы есть id 'theProxyList'

Внутри таблицы находится тег tbody

А внутри тега tbody есть теги tr при наведении на которые выделяется строка (линия) с нужными данными.

Значит чтобы спарсить эту линию добавим в нашу функцию такую строку

Код:

line = soup.find('table', id='theProxyList').find('tbody').find_all('tr')
# Ищем с помощью find 'tbody' и с помощью find_all все 'tr'

Прекрасно, начало есть. Но это ещё не всё друзья, не так быстро дела делаются.

В функцию get_page_data теперь добавим цикл, в котором мы будем обращаться по индексу к нужным данным. Дата и время проверки не будем парсить, так как это не такая нужная информация. Остальное преобразуем в текст с помощью text

Код:

for tr in line:
        td = tr.find_all('td')
        ip = td[1].text
        port = td[2].text
        country = td[3].text
        anonym = td[4].text
        types = td[5].text
        time = td[6].text

Теперь полученные данные запишем в словарь

Код:

      data = {'ip': ip,
                'Порт': port,
                'Страна': country,
                'Анонимность': anonym,
                'Тип': types,
                'Время отклика': time}

И выведем на печать print(data).

Осталось написать главную функцию, в ней мы принимаем url сайта, и по цепочке идёт обработка предыдущими функциями.

Код:

def main():
    url = 'http://foxtools.ru/Proxy'
    get_page_data(get_html(url))

Наконец-то запускаем скрипт и видим следующую картину:

Данные успешно спарсились, но картинка не такая как хотелось бы. Присутствует куча мусора в виде \xa0, \r\n, \r\n\t\t\t\t\t

Значит будем от него избавляться. С помощью replace удалим всё лишнее, и для этого поправим наш цикл

Код:

    for tr in line:
        td = tr.find_all('td')
        ip = td[1].text
        port = td[2].text
        country = td[3].text.replace('\xa0', '')
        anonym = td[4].text.replace('\r\n        ', '')
        types = td[5].text.replace('\r\n\t\t\t\t\t', '').replace('\r\n        ', '')
        time = td[6].text

Запускаем по новой - другое дело, уже всё читабельно.

Исходник:

Код:

import requests
from bs4 import BeautifulSoup


def get_html(site):
    r = requests.get(site)
    return r.text


def get_page_data(html):
    soup = BeautifulSoup(html, 'lxml')
    line = soup.find('table', id='theProxyList').find('tbody').find_all('tr')

    for tr in line:
        td = tr.find_all('td')
        ip = td[1].text
        port = td[2].text
        country = td[3].text.replace('\xa0', '')
        anonym = td[4].text.replace('\r\n        ', '')
        types = td[5].text.replace('\r\n\t\t\t\t\t', '').replace('\r\n        ', '')
        time = td[6].text

        data = {'ip': ip,
                'Порт': port,
                'Страна': country,
                'Анонимность': anonym,
                'Тип': types,
                'Время отклика': time}

        print(data)


def main():
    url = 'http://foxtools.ru/Proxy'
    get_page_data(get_html(url))


if __name__ == '__main__':
    main()

Ну вот мы и научились некоторым приёмам парсинга страниц. В следующей статье мы продолжим работать с этим парсером и добавим функционал.

До встречи!

karimovigor · 25.10.2018

круто)

L3VI4F4N · 26.10.2018

Спасибо за инфу

Автор	Заголовок	Раздел	Ответы	Дата
G	Пишем парсер на Python - грабим Proxy ч.2	Бруты/Парсеры/Чекеры	0	26.10.2018
	Интересно Пишем любой текст на листочке который держит обнажённая девушка. 18+	Свободное общение и флейм	0	22.12.2023
	Интересно Пишем вредоносное ПО с помощью ChatGPT. Формат mp4. English-speaking.	Полезные статьи	0	20.12.2023
A	Пишем свой RAT на Python > {Часть 1}	Уязвимости и взлом	3	19.04.2021
U	Интересно PHP - Пишем свой фишинг скрипт для кражи тт аккаунтов {Уровень: EASY}	Другие ЯП	10	23.03.2021
L	Интересно C# - Пишем Watchdog (Модуль защиты вашего трояна)	.NET	2	14.12.2020
L	Интересно C# - Динамическая загрузка DLL (пишем стиллер в 9кб)	.NET	4	11.12.2020
K	Интересно [Roman Akhromieiev] Telegram. Пишем ботов на Node JS и Telegraf (2020)	Другое	1	23.07.2020
3	Взлом вашей второй Половинки или Конкурента связь [email protected] Eсли вы хотите узнать что делает ваша вторая половинка в сети пишем нам на почту	Корзина	0	16.07.2020
X	Взлом вашей второй Половинки или Конкурента связь [email protected] Eсли вы хотите узнать что делает ваша вторая половинка в сети пишем нам на поч	Ищу работу. Предлагаю свои услуги.	1	08.07.2020
	Пишем малютку для скана сайта	Софт от наших юзеров	6	15.05.2020
	Интересно Пишем брут на любой(почти) банк [OFX]	Другие ЯП	1	18.03.2020
S	Пишем свой перехватчик СМС Android	Другие ЯП	3	03.07.2019
S	Взлом вашей второй Половинки или Конкурента связь [email protected] Eсли вы хотите узнать что делает ваша вторая половинка в сети пишем нам н	Ищу работу. Предлагаю свои услуги.	0	02.03.2019
T	Пишем WinLocker на Delphi	С/C++	0	20.11.2018
N	Пишем отзывы и получаем от 200 рублей в день.	Способы заработка	12	15.11.2018
G	Пишем скрипт для работы с VirusTotal-ом	Полезные статьи	0	31.08.2018
G	Пишем шифровальщик на python	Полезные статьи	0	24.08.2018
	Пишем спамер Telegram, на Python	Другое	0	13.08.2018
	Пишем свой стиллер на Python	Другие ЯП	5	13.08.2018
	WinLocker на python. Пишем вирус.	Другое	0	13.08.2018
V	Пишем переносной кейлоггер на C++	Полезные статьи	1	11.12.2017
O	Пишем стиллер на Batch	Вирусология	15	23.06.2017
A	Delphi для начинающих – Урок 6 – Пишем свой калькулятор	С/C++	0	20.03.2017
E	[PHP] Пишем свой движок 2.0	Другие ЯП	0	12.02.2017
	Пишем многопоточный Brute	С/C++	0	30.12.2016
R	Пишем билдер C# вариант 1	.NET	2	29.08.2016
	Продам Telegram парсер участников чата по сообщениям	Куплю/Продам	0	28.04.2023
	Бесплатный парсер бот в Телеграм [ Parser Pro ]	Бруты/Парсеры/Чекеры	7	19.03.2023
T	ТГ-ПАРСЕР – спарси половину Telegram!	Бруты/Парсеры/Чекеры	2	21.02.2023
	Интересно Парсер e-mail по списку сайтов	Другое	1	13.01.2023
C	Проверено Datacol 7.341 [x32] [Универсальный парсер] [Cracked by Coder-V]	Продажа софта	2	03.09.2022
B	Проверено [SELL] Инструменты для добычи уязвимых дедиков :: RDP/Shodan.io Парсер/Сканер уязвимостей	Продажа софта	2	30.06.2022
	Закрыто Telegram Граббер, парсер и автопостер в канал	Корзина	1	05.06.2022
B	Парсер Dropmefiles.com + функция подбора пароля	Продажа софта	1	25.01.2022
A	A-Parser - универсальный многопоточный парсер	Продажа софта	1	29.04.2021
N	TeleGrand - софт для продвижения в Telegram / Рассылка / Парсер / Инвайт	Продажа софта	1	13.03.2021
	Парсер 2GIS 6.0.1.5 (Полностью актуальная версия)	Продажа софта	0	28.09.2020
I	Facebook комбайн. Парсер Facebook. 5 лет на рынке ПО.	Бруты/Парсеры/Чекеры	1	07.07.2020
E	Интересно TeleGram-Scraper: Парсер/Инвайтер/Спаммер	Бруты/Парсеры/Чекеры	5	19.04.2020
E	Интересно Парсер картинок на php	Другие ЯП	0	18.04.2020
	INLINE Переписанный приватный парсер номеров [1 из 13]	Проекты Private Keeper	1	30.03.2020
E	VkSearch — бесплатный парсер пользователей ВК	Бруты/Парсеры/Чекеры	1	24.01.2020
	Private Keeper [B/C] sportmaster.ua + Парсер баз number:password	Проекты Private Keeper	4	07.07.2019
S	Парсер скриншотов с prnt.sc	Раздача email	0	16.01.2019
	[Private Keeper] Igrun брут & чекер by WSN \| Парсер баз number:password	Проекты Private Keeper	0	16.10.2018
A	[Парсер пользователей BHF.IO]	Другие ЯП	4	30.09.2018
G	Парсер и чеккер телеграм контактов	Бруты/Парсеры/Чекеры	0	18.09.2018
G	Парсер и чеккер телеграм контактов	Бруты/Парсеры/Чекеры	12	10.09.2018
W	SQL Hunter1.2 (парсер для Google и поиск уязвимостей sql)	Spam/DDOS/Malware	12	05.09.2017

Пишем парсер на Python - грабим Proxy ч.1

Gidroponika

karimovigor

L3VI4F4N

Название темы