Сила Xpath | Блог RushteR

Недавно мне потребовалось спарсить сайты на движке dle. Почти на всех сайтах запись лежит в div c id='news-id-число'. Регулярные выражения здесь не очень подойдут, т.к откуда контент начинается мы знаем, а вот где заканчивается нет. Внутри много вложенных тэгов, поэтом спарсить всё от <div> до </div> не подойдёт, нужно будет считать кол-во открытых и кол-во закрытых дивов внутри. Тут нам и придёт на помощь Xpath, который с легкостью позволяет осуществлять навигацию по DOM.

import lxml.html
doc = lxml.html.document_fromstring(data)
id = 1
content = doc.xpath('//*[@id="news-id-%s"]'%(id)) # получаем всё что внутри этого div
title = doc.find(".//title").text # Тайтл # получаем title
text =  lxml.html.tostring(content[0],pretty_print=True)

Сам путь XPath можно получить с помощью плагинов для firefox, например с помощью Firebug.

Категория: All

5 Ответов на “Сила Xpath”

Chrome~ сказал:
Спасибо за информацию. Надо будет посмотреть, есть ли в Delphi/PHP готовые модули для работы с XPath.

Июнь 26th, 2011 at 16:52
seoplayer сказал:
simple html dom parser практически аналогично работает…

Июнь 27th, 2011 at 10:14
Крайст сказал:
Долго тупил с этим Xpath, почему-то не обращался к манам, а пробовал вбивать путь из Firebug, но через минут 40 еб*тни просто плюнул, поматерился и вернулся к beatifusoap =)
Но спасибо, может вторая попытка будет не такой уж ужасной =)

Август 9th, 2011 at 17:00
rushter сказал:
Bsoup заметно медленней и на невалидный html ругается

Август 9th, 2011 at 18:57
Крайст сказал:
странно, у меня не ругался.
зато ты дал стимул ещё раз повозиться с XPath =)

Август 17th, 2011 at 13:45

Ссылки

Рубрики

Найти меня в:

Счетчики

06.26Сила Xpath

5 Ответов на “Сила Xpath”

Оставить комментарий

Копирование материалов без согласия автора строго запрещено.
RushteR © 2008-2011.

Ссылки

Рубрики

Найти меня в:

Счетчики

06.26Сила Xpath

5 Ответов на “Сила Xpath”

Оставить комментарий

Копирование материалов без согласия автора строго запрещено. RushteR © 2008-2011.

Копирование материалов без согласия автора строго запрещено.
RushteR © 2008-2011.