Перейти к содержимому

Taruu

Пользователи
  • Публикации

    62
  • Зарегистрирован

  • Посещение

  • Победитель дней

    4

Записи блога, опубликованные пользователем Taruu

  1. Taruu
    Оказалось что парсер может парсить сайты НО! Как всегда будет НО которое испортит кайф. Получилось так что памяти не хвататет что логично.
    Так что как бы не хотелось то велосипеды придется писать... Хотя время надо еще наскрести, но блок-схему уже накидал.
     
    И хотя нефига не видно из за того что это картинка, если кратко то просто выписал список тегов которых чаще всего хранят текст
    и буду их рекурсивно их сканировать до тех пор пока мы ничего не найдем.
    И сразу же на пути будем записывать в файл что бы не хранить все в опертиве.
     
    Главное только CSS убивать что бы он не попадался. . .  
     
  2. Taruu
    Итак, чет вштырило мне написать хоть какой-то нормальную глядяелку для опенкомпов, что бы можно было просто адекватно открыть страничку и ее смотреть,
    даже на текстовом уровне.
    Так что первое что приходит на ум это вспомнить как выглядит сам HTML. Википедия говорит:
     
    И тут уже получается что нужно писать текстовый движок который умеет читать эту разметку (еще не забываем что она иногда бывает сломаной)
    Для начала я вспомнил что HTML очень похож на XML  и начал гуглить на эту тему либы.
    Нашлась либа xml2lua, но НО. В XML никогда не было тегов без закрытия. Так что либа благополучно шлет нас в пень когда мы читаем содержимое head.
    Так что задав вопросы Яндексу я получил нормальную либу lua-htmlparser.
    И она вполне норм работает.
     
     
    Причем можно получить данные какие захочешь. Что очень упрощает работу. И сама либа работает без бубнов под OC.
    Так что следующий шаг это сделать удобный установщик для либы и уже писать скрипт для отображения, проблемы скорее всего всплывут на этапе интерфейса, так что будем страдать :/
×
×
  • Создать...