Malcolm, думаю, не прав. Нафиг нам парсить целую страничку, все они схожие, делаем простенький парсер который сканирует немного шапки, цсс, центр страницы и конец. В цсс берем настройки, как из конфига по ассоциациям параметр - значение с иерархией классов, я с веб разработкой не знаком, поэтому пишу как представляю. Когда в страничке находим применение стиля класса, то по его названию ищем в таблице класс - не находим - ставим стандартный, находим - ставим его текущим. Если рисуем текст взятый из странички, то применяем информацию из текущего класса с оформлением. Классы, скорее всего, меняем на Hashtable, таблицу с классами - на неё же. Достать что либо из страницы не проблема, если мы не знаем что это - пропускаем, знаем - делаем чтонить с ним.
Ссылка на пост
28 дек 2010 в 17:45