Оказалось что парсер может парсить сайты НО! Как всегда будет НО которое испортит кайф. Получилось так что памяти не хвататет что логично.
Так что как бы не хотелось то велосипеды придется писать... Хотя время надо еще наскрести, но блок-схему уже накидал.
И хотя нефига не видно из за того что это картинка, если кратко то просто выписал список тегов которых чаще всего хранят текст
и буду их рекурсивно их сканировать до тех пор пока мы ничего не найдем.
И сразу же на пути б
Итак, чет вштырило мне написать хоть какой-то нормальную глядяелку для опенкомпов, что бы можно было просто адекватно открыть страничку и ее смотреть,
даже на текстовом уровне.
Так что первое что приходит на ум это вспомнить как выглядит сам HTML. Википедия говорит:
И тут уже получается что нужно писать текстовый движок который умеет читать эту разметку (еще не забываем что она иногда бывает сломаной)
Для начала я вспомнил что HTML очень похож на XML и начал гуглить на эту т