PyCon Russia 2015
18-19 сентября
под Екатеринбургом

Извлечение информации из веб страниц

Михаил Коробов 02.06.2014

Рассказ о том, как извлечень данные из веб-страниц с использованием Python:
- как извлечь информацию из одного-единственного сайта;
- как сделать это без написания xpath, css селекторов и т.д.;
- как извлекать информацию, если структура сайта неизвестна заранее;
- когда стоит применять методы машинного обучения и как это делать;
- какие инструменты доступны на Python.

Доклад рассчитан на тех людей, кому хочется извлекать какую-то структурированную информацию из веб-страниц или из текста. Это могут быть задачи информационного поиска, анализа данных, составления каталогов, получения информации для каких-то исследований и т.д.
Какую пользу слушатели получат?

"Ручной" разбор веб-страниц через XPath / CSS селекторы - не единственный инструмент. Возможно, некоторые задачи, которые раньше казались очень сложными, покажутся вполне решаемыми.

Веб-разработка