Две лекции от Владимира Батыгина (Яндекс) по сбору и обработке данных
26 февраля 2011: Автоматический сбор данных по примерам
В настоящее время в интернете наблюдается стремительный рост количества полезной для пользователей информации. Чтобы в ней хорошо ориентироваться, нужны все более умные поисковые системы, собирающие не просто тексты, а структурированную информацию. За её сбор отвечает направление web content mining. В докладе рассказывается об этом направлении, а также дается обзор методов ведущих специалистов в этой области.
Для себя посмотреть определения: xpath, treepattern