<?xml version="1.0"?>
<rss version="2.0"><channel><title/><link>https://computercraft.ru/blogs/blog/63-shkodim-po-krupnomu/</link><description><![CDATA[
<p>
	Попытки в луа с заметками скорее для себя <span>:/</span>
</p>
]]></description><language>ru</language><item><title>HTML &#x44D;&#x442;&#x43E; &#x431;&#x43E;&#x43B;&#x44C;</title><link>https://computercraft.ru/blogs/entry/671-html-eto-bol/</link><description><![CDATA[
<p>
	Оказалось что парсер может парсить сайты НО! Как всегда будет НО которое испортит кайф. Получилось так что памяти не хвататет что логично.<br />
	Так что как бы не хотелось то велосипеды придется писать... Хотя время надо еще наскрести, но блок-схему уже накидал.<br />
	 
</p>

<div class="ipsSpoiler" data-ipsspoiler="">
	<div class="ipsSpoiler_header">
		<span>Скрытый текст</span>
	</div>

	<div class="ipsSpoiler_contents">
		<p>
			<img alt="AqNFmkOe9FVtGPnE5cWhjSSPKgUrOyvqYT8n-03x" class="ipsImage" data-ratio="201.77" height="750" width="371" src="https://lh5.googleusercontent.com/AqNFmkOe9FVtGPnE5cWhjSSPKgUrOyvqYT8n-03xgSvf5jv838R4HDy9tFnudouqT1CQsHTHhJwNupqERjL9PtO70-RIFM3WDp5XpR6TV0xpW-dM7qVyR-8ubM8uqKKlo5syKO0n" />
		</p>
	</div>
</div>

<p>
	И хотя нефига не видно из за того что это картинка, если кратко то просто выписал список тегов которых чаще всего хранят текст
</p>

<p>
	и буду их рекурсивно их сканировать до тех пор пока мы ничего не найдем.
</p>

<p>
	И сразу же на пути будем записывать в файл что бы не хранить все в опертиве.
</p>

<p>
	 
</p>

<p>
	Главное только CSS убивать что бы он не попадался. . .  <br />
	 
</p>
]]></description><guid isPermaLink="false">671</guid><pubDate>Mon, 11 Jan 2021 07:29:37 +0000</pubDate></item><item><title>&#x41F;&#x43E;&#x43F;&#x44B;&#x442;&#x43A;&#x438;  &#x432; &#x447;&#x442;&#x435;&#x43D;&#x438;&#x435; HTML</title><link>https://computercraft.ru/blogs/entry/669-popytki-v-chtenie-html/</link><description><![CDATA[
<p>
	Итак, чет вштырило мне написать хоть какой-то нормальную глядяелку для опенкомпов, что бы можно было просто адекватно открыть страничку и ее смотреть,
</p>

<p>
	даже на текстовом уровне.<br />
	Так что первое что приходит на ум это вспомнить как выглядит сам HTML. Википедия говорит:<br />
	 
</p>

<blockquote class="ipsQuote" data-ipsquote="">
	<div class="ipsQuote_citation">
		Цитата
	</div>

	<div class="ipsQuote_contents">
		<p>
			<span style="background-color:#ffffff;color:#202122;font-size:14px;">HTML — теговый язык разметки<span> </span></span><a href="https://ru.wikipedia.org/wiki/HTML-%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82" style="color:#0b0080;font-size:14px;" title="HTML-документ" rel="external nofollow">документов</a><span style="background-color:#ffffff;color:#202122;font-size:14px;">. Любой документ на языке HTML представляет собой набор<span> </span></span><a href="https://ru.wikipedia.org/wiki/%D0%AD%D0%BB%D0%B5%D0%BC%D0%B5%D0%BD%D1%82%D1%8B_HTML" style="color:#0b0080;font-size:14px;" title="Элементы HTML" rel="external nofollow">элементов</a><span style="background-color:#ffffff;color:#202122;font-size:14px;">, причём начало и конец каждого элемента обозначается специальными пометками —<span> </span></span><i style="background-color:#ffffff;color:#202122;font-size:14px;"><a href="https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%B3_(%D1%8F%D0%B7%D1%8B%D0%BA%D0%B8_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%82%D0%BA%D0%B8)" style="color:#0b0080;" title="Тег (языки разметки)" rel="external nofollow">тегами</a></i><span style="background-color:#ffffff;color:#202122;font-size:14px;">. Элементы могут быть<span> </span></span><i style="background-color:#ffffff;color:#202122;font-size:14px;">пустыми</i><span style="background-color:#ffffff;color:#202122;font-size:14px;">, то есть не содержащими никакого текста и других данных. В этом случае обычно не указывается закрывающий тег (например, тег переноса строки<span> </span></span><code style="background-color:#f8f9fa;border:1px solid #eaecf0;color:#000000;font-size:14px;padding:1px 4px;">&lt;br/&gt;</code><span style="background-color:#ffffff;color:#202122;font-size:14px;"> — одиночный и закрывать его не нужно) . Кроме того, элементы могут иметь<span> </span></span><i style="background-color:#ffffff;color:#202122;font-size:14px;">атрибуты</i><span style="background-color:#ffffff;color:#202122;font-size:14px;">, определяющие какие-либо их свойства (например, атрибут<span> </span></span><code style="background-color:#f8f9fa;border:1px solid #eaecf0;color:#000000;font-size:14px;padding:1px 4px;">href="</code><span style="background-color:#ffffff;color:#202122;font-size:14px;"><span> </span>у ссылки).</span>
		</p>
	</div>
</blockquote>

<p>
	И тут уже получается что нужно писать текстовый движок который умеет читать эту разметку (еще не забываем что она иногда бывает сломаной)<br />
	Для начала я вспомнил что HTML очень похож на XML  и начал гуглить на эту тему либы.<br />
	Нашлась либа <a href="https://github.com/manoelcampos/xml2lua" rel="external nofollow">xml2lua</a>, но НО. В XML никогда не было тегов без закрытия. Так что либа благополучно шлет нас в пень когда мы читаем содержимое head.<br />
	Так что задав вопросы Яндексу я получил нормальную либу <a href="https://github.com/msva/lua-htmlparser" rel="external nofollow">lua-htmlparser</a>.
</p>

<p>
	И она вполне норм работает.<br />
	 
</p>

<div class="ipsSpoiler" data-ipsspoiler="">
	<div class="ipsSpoiler_header">
		<span>Скрытый текст</span>
	</div>

	<div class="ipsSpoiler_contents">
		<p>
			<img alt="siMUcQSat4LsY9XvJ1r7es0kYpgvyQM9afxyZt4s" class="ipsImage" data-ratio="63.28" height="632" width="1000" src="https://lh3.googleusercontent.com/siMUcQSat4LsY9XvJ1r7es0kYpgvyQM9afxyZt4s-CKSmvDIQ0lMrf6dHu--645-ypY8rk6tuwrbGT5ZdZUCrfw82qNNpCYpwZhvcwn0eNzXYR3rCbzjax4SD8wG2AUl-Z41Eazy" />
		</p>
	</div>
</div>

<p>
	 
</p>

<p>
	Причем можно получить данные какие захочешь. Что очень упрощает работу. И сама либа работает без бубнов под OC.<br />
	Так что следующий шаг это сделать удобный установщик для либы и уже писать скрипт для отображения, проблемы скорее всего всплывут на этапе интерфейса, так что будем страдать <span>:/</span>
</p>
]]></description><guid isPermaLink="false">669</guid><pubDate>Tue, 22 Dec 2020 19:28:47 +0000</pubDate></item></channel></rss>
