Подход или инструменты для преобразования необработанных данных в удобные форматы — консолидация данных, подготовка данных
Мы работаем над подготовкой данных для проекта Datawarehousing, чтобы создать хранилище данных уровня предприятия. В качестве промежуточного уровня мы переносим всю информацию об исходной базе данных в озеро данных Hadoop в виде таблиц-ульев.
В нашем случае у нас есть около 3000+ исходных таблиц. Мы хотели бы объединить исходные данные в новую схему в озере больших данных. В рамках этого нам необходимо выполнить профилирование/подготовку данных для всех таблиц исходной базы данных, анализируя каждый столбец для сопоставления/группировки в соответствующую значимую таблицу назначения.
Попросите экспертов предложить любые инструменты (с открытым исходным кодом или лицензированные), чтобы облегчить процесс.
Спасибо, Сактивел.