Оптимальная замена в параллельных процессах R

Я понимаю, что оптимальная подкачка зависит от приложения. Серверы баз данных часто имеют подкачку, близкую к нулю, тогда как во многих других случаях, очевидно, рекомендуется сохранять значение по умолчанию, равное 60. Однако я не уверен, какой параметр подходит моему сценарию.

Сервер работает под управлением Ubuntu 20.04, имеет 8 процессоров, около 30 ГБ оперативной памяти и SSD-накопитель. Я использую его для выполнения параллельных (кластер SOCK) сценариев R, обычно использующих геопространственные данные. При запуске сценария R я не запускаю никаких других приложений на компьютере. И я читаю данные непосредственно из файла на диске, а не из какой-либо SQL или другой системы баз данных. В текущей задаче процесс превышает доступную оперативную память каждые несколько минут в течение нескольких секунд, а в остальном остается значительно ниже этого предела. Вероятно, в пакете, который я использую, есть некоторые недостатки. Однако я не буду ни корректировать код пакета, ни устанавливать дополнительную оперативную память. Я хотел бы установить значение подкачки, которое лучше всего подходит для моего приложения.

Было бы неплохо иметь практическое правило в отношении таких приложений в области науки о данных.

0 ответов

Другие вопросы по тегам