Попытки в чтение HTML
Итак, чет вштырило мне написать хоть какой-то нормальную глядяелку для опенкомпов, что бы можно было просто адекватно открыть страничку и ее смотреть,
даже на текстовом уровне.
Так что первое что приходит на ум это вспомнить как выглядит сам HTML. Википедия говорит:
ЦитатаHTML — теговый язык разметки документов. Любой документ на языке HTML представляет собой набор элементов, причём начало и конец каждого элемента обозначается специальными пометками — тегами. Элементы могут быть пустыми, то есть не содержащими никакого текста и других данных. В этом случае обычно не указывается закрывающий тег (например, тег переноса строки
<br/>
— одиночный и закрывать его не нужно) . Кроме того, элементы могут иметь атрибуты, определяющие какие-либо их свойства (например, атрибутhref="
у ссылки).
И тут уже получается что нужно писать текстовый движок который умеет читать эту разметку (еще не забываем что она иногда бывает сломаной)
Для начала я вспомнил что HTML очень похож на XML и начал гуглить на эту тему либы.
Нашлась либа xml2lua, но НО. В XML никогда не было тегов без закрытия. Так что либа благополучно шлет нас в пень когда мы читаем содержимое head.
Так что задав вопросы Яндексу я получил нормальную либу lua-htmlparser.
И она вполне норм работает.
Причем можно получить данные какие захочешь. Что очень упрощает работу. И сама либа работает без бубнов под OC.
Так что следующий шаг это сделать удобный установщик для либы и уже писать скрипт для отображения, проблемы скорее всего всплывут на этапе интерфейса, так что будем страдать :/
-
1
2 комментария
Рекомендуемые комментарии