1. Источник парсинга: поисковые системы гугл, яндекс, рамблер, результаты поиска по запросу страниц содержащих e-mail адрес (каждая из поисковых систем выбирается пользователем, частично или все сразу или по выбору).
Пример: При запросе в поиске «трубная продукция» отображаются все результаты страниц и email адреса содержащиеся на этих страницах. Формат отображения : E-mail — сайт на котором найден адрес электронной почты – данные получателя (если есть).
2. Необходимо в найденных по поиску результатах (страницах) отображать ссылку на страницу и e-mail адреса с этих страниц.
3. Выбор всех e-mal адресов из спасрсенного списка, либо только тех, что отметит пользователь.
4. Сохранение результата в текстовый файл. Файлу присевается имя запрос_дата пасинга.txt поиска. Возможность сохранения только списка e-mail, страницы сайта, данных владельца email. Определяется выбором. Кстати, если вам нужнаы Email рассылки обращайтесь на сайт http://smtp587.ru.
6. Возможность работы с полученными списками удаление дубликатов.
7. Многопоточность парсера обеспечить прокси серверами (обновление списка автоматическое), возможность выбора числа потоков выбирается пользователем.
8. Парсер должен парсить все страницы найденного сайта на наличие email адресов. Отсекая результаты содержащие фразы admin support и дубликаты.
9. Парсер работает только по указанию пользователя, работа по расписанию не предусматривается.
10. Возможность парсить как результат выдачи поисковых систем, так и сайт указанный пользователем (адрес сайта) на наличие e-mail адресов их сбор и сохранение. Как указано выше.
11. Все исходные коды передаются заказчику.
12. Требования к языку программирования и технические характеристики для использования программного продукта предлагает исполнитель, по согласованию с заказчиком.
Дальнейшее развитие парсера потребуется, поэтому изначально нужно предусмотреть грамотную архитектуру. Надеемся вам понравилась наша статья и вы теперь знаете что такое техзадание на парсер.