Перейти к содержимому


Фотография
- - - - -

Реально ли разработать модуль обработки данных с парсера?


Сообщений в теме: 11

#1 robotwerder

robotwerder

Отправлено 09 August 2015 - 20:52

Есть вот такой пример во вложении. собран парсером. там 14 столбцов.

Но много данных находится в столбце услуги и в других . Вот мне бы такой модуль, который сам будет разбрасывать инфу из по доп. столбцам, которые мне необходимы?

 

Задача до конца не сформирована, просто необходимо узнать, можно ли это реализовать?!

http://demo.urolog66.com/1.xlsx


Сообщение отредактировал robotwerder: 09 August 2015 - 20:54

  • 0

#2 programmos

programmos

Отправлено 10 August 2015 - 08:41

Есть вот такой пример во вложении. собран парсером. там 14 столбцов.

Но много данных находится в столбце услуги и в других . Вот мне бы такой модуль, который сам будет разбрасывать инфу из по доп. столбцам, которые мне необходимы?

 

Задача до конца не сформирована, просто необходимо узнать, можно ли это реализовать?!

http://demo.urolog66.com/1.xlsx

Это фантастика)

В услугах и других колонках, разная информация, и как это модуль должен понимать какие именно изменяющиеся по структуре данных столбцы, должны куда попадать.

Вам проще парсер настроить на сортировку и обработку данных для загрузки.

Например, я так так делаю, и всегда все нормально - так как данные с сайтов постоянно изменяются, что добавили или удалили - чтобы создать такой модуль, уйдет очень много времени .

 

Поэтому, самый простой выход делать это уже при парсинге и все, а уже в JBZOO заливать готовые данные


  • 3

#3 robotwerder

robotwerder

Отправлено 10 August 2015 - 09:43

Разраб парсера сказал что это невозможно на его стороне, тк данных очень много ..

 

Я мыслю как делетант, но если есть одинаковые наименования "Европейская кухня" , Wi-Fi , Бизнес ланч, Заказ столиков.

Разве нельзя задать алгоритм который сможет раскидать их по соответствующим столбикам, напрмеир по наименованию, ведь они все одинаковые


  • 0

#4 Cheren-dow

Cheren-dow

Отправлено 10 August 2015 - 09:59

robotwerder, раскидать то можно, но полноценного решения с кликом по одной кнопке нет. 


  • 0
Изображение
 

#5 programmos

programmos

Отправлено 10 August 2015 - 10:02

Почему вы думаете что если вам, разработчик парсера пишет, что сложно так как много данных, то как со всеми данными должен разобраться, компонент\модуль? И даже если поля будут заранее настроены, откуда у вас уверенность, что нечего не измениться на сайтах откуда вы берете информацию? 

 

Вообщем, для понимая - пока напишите (Парсер программный, т.е. десктопный? Или он на php?)


robotwerder, раскидать то можно, но полноценного решения с кликом по одной кнопке нет. 

Да я считаю, вообще это нужно делать до загрузки данных на сайт, так как это всегда так и делается.

 

А так похоже больше на создание дорвея, на автомате :))


  • 1

#6 Cheren-dow

Cheren-dow

Отправлено 10 August 2015 - 10:05

Да я считаю, вообще это нужно делать до загрузки данных на сайт, так как это всегда так и делается.

Все верно, получивший CSV нужно обрабатывать до структуры которая нужна для JBZoo, а потом заливать. 


Сообщение отредактировал Cheren-dow: 10 August 2015 - 10:05

  • 0
Изображение
 

#7 robotwerder

robotwerder

Отправлено 10 August 2015 - 10:07

(Парсер программный, т.е. десктопный? Или он на php?)

 

Скорее программый, хотя точно мне не известно.. это парсер с ДубльГис .. Знаю только что он обновляется, сразу после обновления 2 Гис, это естественно.

Да я считаю, вообще это нужно делать до загрузки данных на сайт, так как это всегда так и делается.

в идеале да.. но если парсер обновляется регулярно то как быть?

 

Так что, мне бы в любом случае пришлось бы платить за каждую его доработку.. поэтому и он мне посоветовал решить проблемы на силами сайта.

раскидать то можно, но полноценного решения с кликом по одной кнопке нет.

Я понмиаю, но


  • 0

#8 DMTR3000S

DMTR3000S

Отправлено 10 August 2015 - 10:26

Мы занимаемся парсерами. Скажу так: спарсить можно всё что угодно и в каком угодно виде, если парсер грамотно написан. Вопрос только в сроках выполнения и в цене. По стоимости это может быть и 2К, а может и 15К или дороже, всё зависит от сайта, который нужно парсить, и от объёма данных.

Если структура сайта меняется - приходится платить за доработку парсера, хотя мелочи мы правим бесплатно.

Можно воспользоваться готовыми решениями, типа датакол, но он справляется далеко не всегда, да и нужную структуру csv файла там получить иногда сложновато.


  • 1

#9 robotwerder

robotwerder

Отправлено 10 August 2015 - 11:15

Мы занимаемся парсерами. Скажу так: спарсить можно всё что угодно и в каком угодно виде, если парсер грамотно написан. Вопрос только в сроках выполнения и в цене. По стоимости это может быть и 2К, а может и 15К или дороже, всё зависит от сайта, который нужно парсить, и от объёма данных.

Если структура сайта меняется - приходится платить за доработку парсера, хотя мелочи мы правим бесплатно.

Можно воспользоваться готовыми решениями, типа датакол, но он справляется далеко не всегда, да и нужную структуру csv файла там получить иногда сложновато.

 

Все в тему..да..

А если меняется структура данных (в моем случае дубль гис) ?! Чтобы получить готовый результат вы платно дорабатываете?

 

Погуглил.. датакол тож не бесплатен.. Да и справится ли он?!

 

Между тем пошол другим путем..

 

Сделал чек бокс и заполнил несколько материалов ..
http://screenshot.su...ca7fbbb0d59.jpg

далее  Сделал экспорт
вот чо вышло (это одна строка)

114~114~^Ресторан кольцо урала^~restoran-kolco-urala~italyanskaya-kuhnya|||evropejskaya-kuhnya|||yaponskaya-kuhnya|||wi-fi|||zakaz-stolikov~~~1~^images/logos/apple.png|||Пицца пицца^~190~~~2|||4.5000~CN|||RU|||ES~est~restoran~^Мамина Сибиряка 151^~^(343) 357 50 45^~^улица Мамина-Сибиряка 151, Екатеринбург, Свердловская область, Россия^~robotwerder@mail.ru~http://бла-бла-бла.рф~~1

~ это разделитель между полями в zoo
А вот ||| это видимо символ деления между данными в одном поле..

То есть по логике мне необходимо заменить разделитель ||| на тот что в моем csv файле и попробовать сделать импорт???????

 

.. только смущает транслит, откуда он взялся  в экспортируемых данных его нет(
 


  • 0

#10 programmos

programmos

Отправлено 10 August 2015 - 11:55

.. только смущает транслит, откуда он взялся  в экспортируемых данных его нет(

 

 Ждем пока Денис, ответит в этой теме) http://forum.jbzoo.c...pisme-odnoj-s/ 

Там как раз вопрос о транслитерации.

 

Да е-мое, Content Downloader рулезный вариант(любые данные, и без проблем)-куча проектов сделал(для разных сайтов)на нем, не разу не было осечек(ну бывают лишь небольшие правки на выходе,хотя редко), в JBZOO все заливается "со свистом" :)

Datacol просто гавно(хотя с него и начинал)- глючит, да половину что есть в Content Downloader просто нет.


  • 1




Click to return to top of page in style!