Описание тега hdfs

По вопросам, касающимся распределенной файловой системы Hadoop (HDFS), которая является частью проекта Apache Hadoop.
1 ответ

Настройка сети Linux для предотвращения tcp rcvpruned и отставание?

Мои датоды в моем кластере hbase вызывают некоторые tcp rcvpruned и время от времени сбрасывают отставание: Кажется, что есть по крайней мере два угла, чтобы приблизиться к этому в: Настройте HBase/HDFS и т. Д., Чтобы они не запускались Настройте се…
19 сен '14 в 13:33
1 ответ

Hadoop hdfs namenode выдает ошибку

Полный список ошибок: hb@localhost:/etc/hadoop/conf$ sudo service hadoop-hdfs-namenode start * Starting Hadoop namenode: starting namenode, logging to /var/log/hadoop-hdfs/hadoop-hdfs-namenode-localhost.out 12/09/10 14:41:09 INFO namenode.NameNode: …
10 сен '12 в 09:14
2 ответа

Отключить оповещение о недопублицированных блоках в Cloudera Manager

У меня есть один серверный кластер Hbase, который я использую только в качестве приемного конца репликации HBase. Поэтому я не хочу реплицировать какие-либо блоки в этом кластере (так как источник имеет реплицированные блоки, я не чувствую, что мне …
17 июл '14 в 20:05
1 ответ

Flume- журнал ошибок при использовании FileChannel

Я использую Flume flume-ng-1.5.0 (с CDH 5.4) для сбора журналов со многих серверов и загрузки в HDFS. Вот моя конфигурация: #Define Source , Sinks, Channel collector.sources = avro collector.sinks = HadoopOut collector.channels = fileChannel # Defin…
08 май '15 в 11:39
0 ответов

Балансировка HDFS, как сбалансировать данные hdfs?

у нас есть версия Hadoop - 2.6.4 На машине датоде мы видим, что данные hdfs не сбалансированы На некоторых дисках мы используем разные размеры, как SDB 11G и SDD 17G /dev/sdd 20G 3.0G 17G 15% /grid/sdd /dev/sdb 20G 11G 9.3G 53% /grid/sdb <-- WHY …
07 мар '19 в 17:23
1 ответ

Конфигурация hdfs

Я новичок. Попытка настроить систему hdfs для обслуживания моих данных (я не планирую использовать mapreduce) в моей лаборатории. Пока я прочитал, настройки кластера, но я все еще в замешательстве. Несколько вопросов: Нужно ли иметь вторичный намено…
18 окт '10 в 12:07
1 ответ

Настройка разрешений в Cloudera Hadoop 4 (CDH4)

Я хотел бы настроить разрешения HDFS в CDH4 со следующими требованиями: Каждый может прочитать все из всех каталогов HDFS Каждый пользователь может писать только в свой каталог пользователя на HDFS За исключением специального пользователя, который м…
28 июл '13 в 07:55
0 ответов

Необходимо установить разрешение 000 для конкретного блока данных hdfs через командную строку

Я пытаюсь установить разрешение "000" для конкретного блока. Я использовал команду ниже, чтобы найти информацию о блоке: su - hdfs -c "hdfs fsck -locations -files -blocks /user/rohit/partition_filter_table/india.25.20.101.95000" Теперь я хочу устано…
19 окт '16 в 09:22
0 ответов

Когда и как создаются начальные каталоги в HDFS

У меня есть настройка Hadoop, в которой настроенный umask HDFS равен 027 вместо значения по умолчанию. Некоторые из изначально созданных каталогов имеют правильные разрешения (например, tmp drwxrwxrwx) но другие, такие как /home не могут быть исполь…
27 мар '14 в 11:45
0 ответов

"Том для файла был изменен извне..." и настройка размеров файла при записи в NFS из Windows

Я настроил NFS доступ к HDFS. Я могу подключиться к корневому общему ресурсу по умолчанию с клиентов Windows и Linux, и все клиенты могут читать с общего ресурса. Запись с Linux-клиента тоже в порядке. При попытке скопировать файл на общий ресурс с …
22 июл '14 в 14:37
1 ответ

Компиляция hdfs-fuse в комплекте с Hadoop

Я пытаюсь скомпилировать расширение hdfs-fuse из Hadoop 0.20.2 на машине с Fedora 14. Ниже приведены пакеты, которые я установил: Предохранитель-2.8.5-2.fc14.x86_64 плавкие LIBS-2.8.5-2.fc14.x86_64 Предохранитель-Devel-2.8.5-2.fc14.x86_64 Затем я оз…
02 фев '11 в 19:11
0 ответов

Как заставить HDFS использовать UID пользователя LDAP

У меня есть кластер cloudera со службами HDFS и Hue, и я пытаюсь унифицировать аутентификацию с использованием LDAP. Мой LDAP-сервер работает благодаря 389-й версии (не уверен, что это лучший способ), и я могу войти в Hue с пользователями с LDAP-сер…
27 ноя '14 в 17:45
0 ответов

HDFS выступления на Apache Spark

У меня есть несколько вопросов, связанных с HDFS, которые могут иметь разные корни. Я публикую как можно больше информации с надеждой, что смогу узнать ваше мнение хотя бы по некоторым из них. В основном это следующие случаи: HDFS классы не найдены …
13 июл '15 в 20:53
1 ответ

Данные, потерянные после того, как клиент Hdfs был убит

Я написал простой инструмент для загрузки журналов в HDFS. И я обнаружил какое-то любопытное явление. Если я запусту инструмент на переднем плане и закрою его с помощью "Ctrl - C", в HDFS появятся некоторые данные. Если я запускаю инструмент в фонов…
25 сен '12 в 03:07
2 ответа

Загрузить большие файлы с curl без кеш-памяти.

Я использую curl для загрузки больших файлов (от 5 до 20 Гб) в HOOP на основе HDFS (Hadoop Cluster) следующим образом: curl -f --data-binary "@$file" "$HOOP_HOST$UPLOAD_PATH?user.name=$HOOP_USER&op=create" Но при загрузке больших файлов он пытае…
24 май '15 в 07:53
0 ответов

Команды Hadoop возвращаются очень долго

Я вошел (через SSH) в NameNode моего кластера Hadoop; проблема у меня в том, что любой hadoop fs команды, даже простые, такие как hadoop fs -ls завершены быстро, но потребуется много минут, чтобы вернуть контроль над оболочкой пользователю. Например…
06 июл '12 в 23:12
1 ответ

Дополнительные параметры хранения для узлов Hadoop HDFS

У нас небольшой производственный кластер Cloudera Hadoop (14 узлов, но растущий). По мере того, как мы расширили использование этого кластера, мы обнаружили, что дисковое хранилище является нашим самым большим блокирующим устройством и требованием. …
16 янв '14 в 19:47
2 ответа

Hadoop DataNode дает мне несовместимый идентификатор пространства имен

Когда я запускаю скрипт start-all.sh из моего главного узла, некоторые из моих узлов данных не запускаются; файл журнала сообщает об исключительной ситуации IOException: несовместимые идентификаторы пространства имен в /tmp/$MY_USER_NAME.
28 июн '12 в 18:07
1 ответ

Ceph: Почему большее количество "групп размещения" является "плохой вещью"?

Я исследовал распределенные базы данных и файловые системы, и, хотя я изначально интересовался Hadoop/HBase, потому что я программист на Java, я нашел этот очень интересный документ о Ceph, который в качестве основного плюса теперь интегрирован в Яд…
22 апр '11 в 11:20
3 ответа

Есть ли способ скопировать сжатый контент в формате hdf без его распаковки?

Я ищу способ zgrep hdfs файлы что-то вроде: hadoop fs -zcat hdfs://myfile.gz | grep "hi" или же hadoop fs -cat hdfs://myfile.gz | zgrep "hi" это действительно не работает для меня в любом случае, чтобы достичь этого с помощью командной строки?
22 янв '15 в 10:49