Перейти к содержимому


Фотография

Нужна помощь в парсинге html кода

html

  • Авторизуйтесь для ответа в теме
Сообщений в теме: 7

#1 Оффлайн   qwertyMAN

qwertyMAN
  • Пользователи
  • Сообщений: 1 387
  • Уровень сигнала: 0%
  • В игре: 0 ч. 0 мин.
  • ГородCity17

Награды

                             

Отправлено 01 Октябрь 2017 - 19:50

Всем привет! Спустя столько времени я снова пишу новый пост.

 

В этот раз я занялся изучением CoronsSDK для написания программ под андроид. Увы, те проги, что я хотел написать под андроид уже есть в плей маркете. Но всё же желание разобраться с этим движком осталось.

Залез я в такую тёмную для меня область как парсинг html кода и http запросы.

Ну с http запросами я ещё как-никак разобрался и даже научился скачивать и сохранять код страницы.

А вот с парсингом у меня проблемы. И первая из них заключается в неправильной кодировки.

 

Страница которую я скачал содержит кодировку:

<meta http-equiv="Content-Type" content="text/html; charset=windows-1251">

<meta http-equiv="content-language" content="ru">

И спокойно сохраняет всё в файл. А вот кодировка в CoronaSDK другая и русские слова он принтит как пустые места (знак пробела). То есть не видит их.

В свою очередь, если сохранить русские слова из созданной в CoronaSDK переменной в файл, то при просмотре файла блокнотом видны вот такие символы

привет

На лицо не соответствие кодировок.

Я попытался найти в интернете инфу о том как прочитать и обработать html код в этой кодировки, но не смог.

Возможно из-за невнимательности, а возможно и из-за незнания английского языка.

В общем первый вопрос звучит так: "Как прочитать и обработать русский код в данной html странице?"



#2 Оффлайн   qwertyMAN

qwertyMAN
  • Автор темы
  • Пользователи
  • Сообщений: 1 387
  • Уровень сигнала: 0%
  • В игре: 0 ч. 0 мин.
  • ГородCity17

Награды

                             

Отправлено 01 Октябрь 2017 - 20:03

Цель проекта, дать http запрос и получить страницу с расписанием в виде таблички. Убрать всё лишнее и записать эти данные в массив.

Далее устраивать обработку данных всякого рода, вроде показа расписания на сегодня и прочее. Моя задача научится html таблицы парсить.



#3 Оффлайн   Fingercomp

Fingercomp
  • Гуру
  • Сообщений: 1 943
  • Уровень сигнала: 0%
  • В игре: 0 ч. 0 мин.

Награды

                                               

Отправлено 01 Октябрь 2017 - 20:43

Что? Почему в топике "парсинг HTML [разметки]", а в ОП "помогите с кодировкой 1251 разобраться"? Различие между HTML и кодировкой понятно же? Ну я надеюсь.

 

Надо определиться с вопросом и пояснить, что именно нужно. Либу для парсинга HTML, транслятор Win-1251 -> UTF-8, ...?


  • Alex это нравится

#4 Оффлайн   qwertyMAN

qwertyMAN
  • Автор темы
  • Пользователи
  • Сообщений: 1 387
  • Уровень сигнала: 0%
  • В игре: 0 ч. 0 мин.
  • ГородCity17

Награды

                             

Отправлено 01 Октябрь 2017 - 20:51

Что? Почему в топике "парсинг HTML [разметки]", а в ОП "помогите с кодировкой 1251 разобраться"? Различие между HTML и кодировкой понятно же? Ну я надеюсь.

 

Надо определиться с вопросом и пояснить, что именно нужно. Либу для парсинга HTML, транслятор Win-1251 -> UTF-8, ...?

Лучше и то и другое. Но ПЕРВЫЙ вопрос был о трансляторе. Второй вопрос касается парсинга и в принципе я его не разбирал пока.



#5 Оффлайн   Alex

Alex
  • Администраторы
  • Сообщений: 3 513
  • Уровень сигнала: 0%
  • В игре: 0 ч. 0 мин.

Отправлено 02 Октябрь 2017 - 02:15

оффтоп

@Fingercomp а что это у тебя опять за каша и грязька в подписи, я же вроде поправил на днях? Откуда ты берешь эти теги хатэмлешные? :)

 

@qwertyMAN глянь, может тут что-то тебе пригодится https://github.com/msva/lua-htmlparser

 

п.с. ДжониДжонсон кидает либу для UTF-8 <=> unicode/ASCII https://forums.coron...networkrequest/
а что это за сайт с кодировкой Win-1251 до сих пор? Такие бывают еще?

поспрашивай там у них на форуме тогда у них транслятор.



#6 Оффлайн   Totoro

Totoro
  • Хранители Кода
  • Сообщений: 1 663
  • Уровень сигнала: 0%
  • В игре: 0 ч. 0 мин.

Награды

                                      

Отправлено 02 Октябрь 2017 - 13:09

а что это за сайт с кодировкой Win-1251 до сих пор? Такие бывают еще?
 

 

VK, к примеру, до сих пор юзает charset=windows-1251.

Маньяки, сэр.



#7 Онлайн   NEO

NEO
  • Java
  • Сообщений: 1 669
  • Уровень сигнала: 0%
  • В игре: 0 ч. 0 мин.
  • ГородСолнце

Награды

   2                        

Отправлено 02 Октябрь 2017 - 21:19

оффтоп

@Fingercomp а что это у тебя опять за каша и грязька в подписи, я же вроде поправил на днях? Откуда ты берешь эти теги хатэмлешные? :)

 

@qwertyMAN глянь, может тут что-то тебе пригодится https://github.com/msva/lua-htmlparser

 

п.с. ДжониДжонсон кидает либу для UTF-8 <=> unicode/ASCII https://forums.coron...networkrequest/
а что это за сайт с кодировкой Win-1251 до сих пор? Такие бывают еще?

поспрашивай там у них на форуме тогда у них транслятор.

этот парсер вроде бы создает дом дерево не последовательно исходному тексту, по этому я когда - то свой парсер писал.

 

P.S

Проверил, вроде бы нормально, значит я другой юзал или же он себя проявляет в более сложных ситуациях.


Сообщение отредактировал NEO: 02 Октябрь 2017 - 21:41


#8 Оффлайн   qwertyMAN

qwertyMAN
  • Автор темы
  • Пользователи
  • Сообщений: 1 387
  • Уровень сигнала: 0%
  • В игре: 0 ч. 0 мин.
  • ГородCity17

Награды

                             

Отправлено 03 Октябрь 2017 - 18:03

а что это за сайт с кодировкой Win-1251 до сих пор? Такие бывают еще?

@Alex Ну, это всего лишь официальный сайт Петербургского университета. Ничего нового. 


Сообщение отредактировал qwertyMAN: 03 Октябрь 2017 - 18:04






Темы с аналогичным тегами html

Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных