Как захватить таблицы с различной структурой из сети

Question

Как захватить таблицы с различной структурой из сети

У меня есть тысячи веб-страниц (необходимо войти в систему с именем пользователя и паролями), таких как https://xxx.incometax.xxx/Preview/ViewDetail?TIN_INFO_NO=11935, где меняются только последние четыре цифры (11935 для этого примера) для каждого URL. Каждый URL получает налоговую информацию для налогоплательщиков в разных типах таблиц. Таблицы подаются на основе информации, введенной в систему для каждого налогоплательщика, например, в информационной таблице некоторых налогоплательщиков указан номер Национальной идентификационной карты (NID) для тех, кто создал электронный идентификационный номер налогоплательщика (eTIN) с использованием NID, а для информационной таблицы некоторых налогоплательщиков - номер паспорта (для тех, кто создал eTIN, используя номер паспорта). Таким образом, суть в том, что информационная таблица различна для разных налогоплательщиков. Теперь мне нужна автоматизация, которая извлекает эти таблицы таким образом, чтобы все вновь найденные столбцы были созданы, и помещает данные соответствующих столбцов в соответствующие столбцы.

Например, предположим, что один налогоплательщик может создать eTIN, используя либо NID, либо номер паспорта, но не оба. Например, система автоматизации первого прохода находит информацию NID, а во втором проходе находит информацию паспорта, теперь она создаст новый столбец с именем passport и поместит соответствующую информацию в он и, если на третьем проходе он находит информацию NID, он помещает эту информацию в ранее (на первом проходе) созданный столбец NID. Наконец, система автоматизации сгенерирует один файл CSV.

NB. Нет никаких юридических ограничений для извлечения информации с этого сайта. Я хотел бы иметь непрограммное решение.

0

automation csv scraping

Источник

SIslam 16 окт '17 в 09:51

0 ответов

Другие вопросы по тегам automation csv scraping