Вернуться к списку форумов Вернуться

Платные Услуги

Здесь Вы можете заказать разнообразные услуги, по дизайну, программированию и техподдержке

Хочется программный модуль

Это мой дом
По сути, возникло осознание необходимости некоего модуля, грабера.
Чтобы не думать не хороших мыслей - сразу исчерпывающие пояснения.
За последние несколько дней, обратился в несколько компаний производителей с просьбой о предоставлении материала для наполнения сайта о их продукции. Ответы некоторых удручающие.
Так, например сегодня, ответственный за веб проект incotexcom.ru, ответил, что у них попросту нет ничего, чем могли бы поделиться. И предложил использовать материалы их сайта. Там, говорит, у нас и картинки, и техничка, берите что хотите.
Ну, я для очистки совести, решил конкретизировать:
- Что, предлагаете копипастить ваш контент и ни разу не стесняться?
- Ну да, мы нисколько не возражаем.

Ответственный за веб проект WAGO, вчера сделала идентичное предложение.

Итак, с чистотой совести разобрались, идем дальше.

Скопипастить 20 страниц не проблема. Проблемой окажется, когда счет пойдет на сотни, а может даже и на тыщщи!

Тут я стал держать совет со своим сюзереном. И велел он мне поспрашивать у вас, а потом решать, как с этим жить дальше.

Таким образом, получается, что нам нужна софтинка или модуль, способный драть контент и складировать для дальнейшей обработки.
Для примера рассмотрения, есть такой скрипт - e-swa.ru/portator/ (здесь результат его работы)
называется вебдванольнутый портатор от Вадима Ласто.
Он выдирает контент страниц из указанного раздела сайта и создает готовые страницы на сайте реципиенте.
Однако, это несколько не то, что надо. А надо, чтобы скрипт тащил контент страницы и складывал в файл. Да не просто сунуть весь контент, а как нибудь растасовать его, может даже и в эксель.
В виду того, что мозг по этому поводу еще не напрягал, то более определенно сказать как, не могу.
Тут конечно надо мозговать.
Готовы ли вы, что-то с этим сделать?

Это мой дом
Это называется парсер вебстраниц.
Грабить надо товары?

есть стандартные механизмы обмена данными между системами
один из стандартов - XML
у меня есть парсер XML и Yandex-Маркетных файлов - причем он сграбит и картинки
если сайт работает с ЯНдекс маркетом - значит они ему подсовывают такой файл - это значит я смогу его запарсить и внедрить в импорт для сайта.

также был опыт парсинга целого сайта с занесением в товары.
киньте ссылку на сайт , который надо запарсить и я рассмотрю ваше предложение. Я работаю только с теми случаями, которые смогу довести до конца и не берусь за то, чего не смогу.

Не могу если не найду закономерностей при выводе страниц.
НАпример товарные страницы открываются как index.php?id=1,index.php?id=2, ... index.php?id=10000 - это наилучший вариант, так как программно можно составить карту сайта и потом запускать робота-парсера. В ином случае требуется писать робота (или воспользоваться тем же телепортом-про для составления карты), который составит карту сайта, затем убрать ненужные страницы - и парсить только их, но это плохой вариант для ежедневной работы. Поэтому закономерности найти - это главное.

свой движок я защитил от простого парсинга с занесением товаров в БД, он конечно не защищен от teleport-pro - но это будет просто не рабочая копия сайта, а не БД с товарами, то что вам надо.
дело в том, что я убрал закономерности и кто захочет сграбить на моем движке - тому следует попотеть.

Еще можно запарсить RSS и многое чего. Если движок известный, то есть закономерности. Так что наработки есть
Это мой дом
incotexcom.ru (глянул одним глазом) похоже на голом ХТМЛ без закономерностей. придется писать паука под него перед парсингом.
Это мой дом
кстати у вас в комплекте есть парсер RSS новостей. находите сайт отдающий RSS - и вуаля - новости у вас на сайте.
так у меня на главной выводятся новости ЯНдекса и Хабра. Пока жаль не готова система сохранения и навигации между запарсенными новостями. но за небольшую сумму готов сделать мощную вещь. Или ждите пока руки дойдут.
Это мой дом
Кстати e-swa.ru отдает RSS это значит вы можете парсить оттуда новости на главную страницу пор вашей тематики
Это мой дом
Кстатиe-swa.ru отдает RSS это значит вы можете парсить оттуда новости на главную страницу пор вашей тематики

Ну про е-swa я знаю. Это мой сайт. У него фишка в том, что портатор и есть парсер сам по себе. Там, думается мне, была хитрая затея.
По дефолту, портатор заточен на грабинг сайта ферра.ру. Вадим Ласто сделал весьма не слабый ход конем. Сделал этот скрипт и продает его за небольшую денежку манимейкерам сапистам. Портатор вытаскивает контент из rss не в виде анонсов, а целиком страницу. Сапистам остается только ссылками келишить туда-сюда. А фера.ру имеет недутрственную цитируемость и трафик юзеров.
Однако, туда можно прикручивать сигнатуры и для других сайтов.
Но для серьезных дел он не годится. Это просто дор.
http://incotexcom.ru (глянул одним глазом) похоже на голом ХТМЛ без закономерностей.

Смахивает на скрипт из 2-3 сотен строк php кода. И все файлы лежат в одной папке.
На этом сайте интересна тема только про счетчики. И делать под него специально, нецелесообразно в принципе. Стырю руками.
есть стандартные механизмы обмена данными между системами
один из стандартов - XML
у меня есть парсер XML и Yandex-Маркетных файлов - причем он сграбит и картинки
если сайт работает с ЯНдекс маркетом - значит они ему подсовывают такой файл - это значит я смогу его запарсить и внедрить в импорт для сайта.

также был опыт парсинга целого сайта с занесением в товары.

А вот с этим, надо будет покумекать. парсить сразу в товары, это хорошо. Тольковсе равно надо придумывать способы правки титулов, дискрипшинов, ну и тд.
Оно ведь как, контора крута, да не факт, что сео у них на высоте.
Я вот, не зря вас терроризировал по этому поводу. На выдачу в яшке как миленький встает, а снипеты - как доктор прописал.
А если парсить как есть, да хоть бы и incotexcom, за топ в серпе придется вести великий бой.
Так, что, тут покумекать чуток надо.
К стати, есть такая софтина, называется - ночной бдун. Она тащит контент от тега до тега, причем по разделам. Только сложновата для обслуживания. И требует регулярного обновления лицензии.
Это мой дом
Я крут и могу сделать что в голову придет.
Особенно если смогу это сделать быстро.
вы пришлите ТЗ я гляну, подумаю.
Это мой дом
Беда в том, что я не знаю что именно изложить, как ТЗ. Есть абстрактное видение желаемого, а концептуально не складывается.
Если бы делалось для одного донора, то и проблем нет. Сделал шаблон и знай себе юзай.
Стало быть, надо иметь некое управление шаблоном формы. И вот когда пытаюсь внедрить свой мыслеаппарат в концептуальное осознавание механизмов контент-менеджмента узкого русла широчайших просторов необъятных потребностей...
Дальше продолжать?
Стабильное данное: - парсинг с занесением в товары.
- возможность массовой правки группы ячеек.
А дальше - абсолютный плюрализм мнений.
Мысли, как-то сами собой постоянно возвращаются к идее, складывать стыренное в эксель. В виде шаблона для загрузки.
И есть еще такой момент, нужно представлять хоть сколько нибудь величину вашего интереса. Надо ведь бюджет инвестирования с боссом устаканить. А-то, вдруг скажет - не дам!
И чо тогда?
Это мой дом
Примерно:

паук сайта - 3-10 т.р. в зависимости от сложности и закономерностей
парсер в TXT под импорт товаров или под контент (новости, RSS и т.п.) - 3-5 т.р.

- возможность массовой правки группы ячеек.

если товаров много, сразу возникают вопросы разделения на страницы, и связанные с этим проблемы, - идентификация строк и т.п.
Да и не пойму зачем это надо.
Это мой дом
Цена приемлема, но самой идее видимо придется пока утихнуть.
У самого в голове полная неразбериха.
Парсер контента как таковой ненужен. А как получить заполненную товарную карту например из этой страницы: - www.iek.ru ума не приложу.
И даже если совершить великое глумление над собой и сочинить такую тырилку, то становится абсолютно не понятным, как ее заставить работать на сайте legrand.ru
И самое главное, сайты производителей обычно не имеют каталога в виде отдельных товарных единиц.
А делать парсер ради того, чтобы в итоге все перелопатить руками ...
В общем, чем глубже всмысливаюсь в это, тем сильнее даунисимизируюсь.
Это мой дом
Как правило такие сайты сделаны на каком то движке.
как правило у движка есть rss, yml и прочие документы, которые можно спарсить. даже если на них ссылок нет.
Это мой дом
Предлагаю, пока оставить этот вопрос. Буду считать его преждевременным, но держать в голове.
А каждую свободную минуту задумываться с целью глубокого осмысления темы.
Это мой дом
ок

Добавить ответ:

                  
Ответьте на вопрос: CKoлbKo бyдeT дBa плюс Tpu?