HPC: среда паралелльных вычислений прямого доступа кластеров Скиф без элементов виртуализации

( Не включает  особенности кластеров СКИФ-ГПБ и Скиф-Cell)

    Последние изменения:

  • обновлено 22.03.17 – удалены все устаревшие рекомендации

  • обновлены ссылки на дополнительную документация на кластере

  • обновлен раздел ХРАНЕНИЕ И АРХИВИРОВАНИЕ ДАННЫХ

ОБЩИЕ ПОЛОЖЕНИЯ ИСПОЛЬЗОВАНИЯ

  1. ЛОКАЛЬНЫЙ АДРЕС

    Для получения второго локального IP адреса доступа через подсеть 10.34.  в вычислительное сети ОИПИ  без ограничения по портам необходимо предоставить MAС адрес сетевого устройства доступа.

  2. СИСТЕМА ОЧЕРЕДЕЙ

    Запуск вычислительных задач на кластере осуществляется с использованием системы очередей Torque/Maui/Gold, для расширенного использования которых необходимо ознакомиться с базовым руководствами по этим системам, доступными в сети Интернет или по ссылкам в данном тексте. Некоторые базовые скрипты запуска параллельных задач и прикладных пакетов находяться в каталоге /share/for_users/EXAMPLES/ на головной машине установки.
    Примеры файлов сборки Makefile и запуска заданий через систему очередей *.pbs для C/C++ примеров cpi.c и ring.cc также расположены в каталоге /share/for_users/Examples/.

  3. ОГРАНИЧЕНИЯ ЗАПУСКА ЗАДАЧ, РЕСУРСОВ И ВРЕМЕННЫЕ ПЕРИОДЫ ВЫПОЛНЕНИЯ

    Запуск на головном узле ресурсопотребляющих задач и затрудняющих таким образом работу остальных пользователей привод к удалению таких задач без предупреждения. Все задачи компиляции, конфигурации, отладки выполняются на выделенных вычислительных узлах в целевой среде без явных огранничений. Намеренное неоднократное выполнение задач ,приводящих к отказу в работоспособности любых узлов, влечет отключение пользователя от системы.
    По умолчанию тестовые задания и задания пользователей общего доступа имеет ограничения по схеме:

    USERCFG[DEFAULT] MAXIJOB=1 MAXJOB=1 MAXWC=864000 MAXPROC=16 PRIORITY=1
    

    т.е. одна задача ожидания, одна задача выполнения, суммарное время запроса в секундах, суммарное число ядер. Иные ограничения устанавливаются отдельно для каждого аккаунта и в соответствии с договором и дополнениями к нему.

  4. ФАЙЛОВОЕ ПРОСТРАНСТВО

    Файловое пространство имеет начальное ограничение 50Gb, но при значительно больших требованиях проекта необходимо согласование.

  5. ОПТИМИЗАЦИЯ ЗАДАЧ

    При проектировании или конфигурации задач рекомендуется использование внутренней системной сети Infiniband. При больших нагрузках на сервисную сеть Ethernet в процессе вычислений или активный файловый ввод-вывод через СХД при использовании алгоритмов с низким уровнем параллельности выполнения и незначительным использовании процессора и оперативной памяти желательно согласование для сохранения оптимальной скорости выполнения.

  6. ДОПОЛНИТЕЛЬНЫЕ ПРОГРАММНЫЕ ПАКЕТЫ

    На управляющей машине кластера НЕ установлены библиотеки Open MPI и MVAPICH в качесвте среды сборки програмных пакетов. Данный узел не имеет целевой исполняемой среды. Любая сборка, компиляция и отладка в исполняемой среде выполняется в целевой очереди, выделенном узле или на выделенных тестовых узлах с временным ограничением до 30 минут для последних. При отсутствии некоторых стандартных пакетов в инсталляции вычислительных узлов, но при присутствии их на официальном зеркале репозитариев, данные пакеты устанавливаются по запросу. Установка дополнительных общесистемных пакетов рассматривается при конкретном описании необходимости и доступности данного ПО при условии отсутствия в нем общеизвестных проблем безопасности. Для определения списка ПО на вычислительном узле достаточно выполнить консольную команду:

    $ rpm -qa | sort
    

    в интерактивной сессии. Все другое ПО в пространстве пользователя, а также вопросы его совместимости и качества, устанавливается и конфигурируется пользователем самостоятельно в рамках проекта.
    На вычислительных узлах установлены библиотеки Open MPI и MVAPICH  из пакетов поставки стабильных версий. В /share/software/mpi – отдельно собранные версии.
    При необходимости установки и конфигурирования одного ПО для нескольких пользователей, предоставляется специальная директории по запросу.
    Неработоспособность сложных или специфических пакетов свободного программного обеспечения, устанавливаемого самостоятельно пользователем, по причине не обнаруженных (или не исправленных) на момент использования ошибок, обсуждается пользователем с разработчиком ПО, как и специфические требования последнего.
    Исключением являются случае корретировки настроек среды или предварительное обсуждение совместимости специализированного ПО в кластерных системах.

  7. Вычислительная операционная среда – SLES 11.

  8. Графический терминал KDE доступен через клиента NX c ключом из директории /share/NX.

  9. КОНФИГУРАЦИЯ УЗЛОВ, ПРОЦЕССОРЫ, ПАМЯТЬ

    Данные по вычислительным процессорам на узлах можно получить подключившись на любой из вычислительных узлов в среде кластера через интерактивную сессию. Каждый из 50 вычислительных узлов имеет физический ресурс оперативной памяти 8Gb. Для оптимизации скорости работы с использованием директории /tmp, на каждом вычислительном узле данная директория подключена через физическую память с режимом свопа на диск при превышении лимита. Данный момент следует учитывать при запуске задач, генерирующих локальные файлы большого размера на вычислительных узлах. В некоторых случаях оптимальным будет указать меньшее количество процессов в задании на один узел. Мониторинг состояния задачи доступен при подключении к узлу через ssh в списке выделенных для рабочей сессии.

  10. ОБЩИЕ ФОРМЫ ЗАПУСКА ЗАДАЧ

    Общая форма запуска интерактивной задачи на тестовой группе:

    $ qsub -I -l nodes=(1|2):test:ppn=8 -q test
    

    Признак доступности очереди или узла – присутствие аккаунта в группе q_test.

    При постановке заданий в очередь на выполнение, рекомендуется указывать разумное запрашиваемое время резервации узлов (walltime) и очередь по умолчанию (batch). Пример:

    $ qsub -l nodes=5:batch:ppn=8,walltime=02:00:00 -q batch
    

    В данный момент требуется явное указание очереди запуска. По умолчанию разрешен доступ к очереди пользователя dedUSERNAME и test. Доступность иных общих или специализированных очередей для аккаунта определяется присутствием его в группе очереди. Список групп доступен по команде id и идентифицируется по участию пользователя в соответствующей группе – q_batch, q_test, q_ansys, q_lsdyna … .
    Общая форма запуска параллельной задачи:

    $ qsub -l nodes=X:batch:ppn=X -q batch
    

    Общая форма запуска интерекативной задачи:

    $ qsub -I -l nodes=X:batch:ppn=X -q batch
    

    Также задание очереди выполнения может осуществляться путем добавления строк в скрипт запуска

    #PBS -q batch
    

    или для задания в cli строке

    $ qsub -q batch name_of_scritps
    

  11. РЕГЛАМЕНТ ОБСЛУЖИВАНИЯ

    Последняя пятница месяца является технологическим днем и ресурсы кластера  могут быть доступны в ограниченном количестве. Управляющая машина доступна круглосуточно при отсутствии технологического обслуживания последней в установленный ранее и сообщенный промежуток времени.

  12. ПЕРЕДАЧА ФАЙЛОВЫХ ДАННЫХ

    Загрузка и выгрузка файловых данный рекомендуется выполнять с помощью программы winscp для Windows пользователей (в /share/for_users/NX) или любыми клиентами по протоколу sftp остальных операционных систем.
    В случае отсутствия необходимости шифрования трафика можно использовать передачу по протокол FTP с подключением на порт 2121 любым FTP клиентом. Рекомендуется производить предварительную архивацию по томам, создание проверочных сумм для больших обьемов критичных данных.

  13. КОМАНДНЫЙ ИНТЕРФЕЙС КОНТРОЛЯ ЗАДАЧ

    Полезными и обязательными утилитами работы и мониторинга в порядке важности являются:

    qsub, qdel - запуск и удаление
    showq, qstat, checkjob - состояние (Run, Idle, Blocked) и его причины
    canceljob, showbf -f - отмена и поиск нужного ресурса
    

    и дополнительное описание на
    http://www.skif-blades.bas-net.by/docs/maui
    и
    http://www.skif-blades.bas-net.by/docs/torque

МОНИТОРИНГ ЧЕРЕЗ WEB

  • На всех узлах установлены агенты мониторинга метрик с meta агентом на головной машине ПО GANGLIA. Интерфейс доступен всем по адресу http://skif-blades.bas-net.by.
    Система Web мониторинга ПО GANGLIA дополнена возможностью мониторинга запущенных задач в контекстах пользователя, очереди и аттрибутов запуска задачи и ее состояния.
    Интерфейс доступен по адресу http://skif-blades.bas-net.by из сети Интернет.
    Дополнительные системы мониторинга будут установливаться по мере оценки их стабильности и необходимости. В текущем режиме возможны проявления скрытых ошибок ПО. Пожалуйста контролируйте загрузку узлов вашими заданиями и контролируйте сами задания.

БИЛИНГ СИСТЕМЫ

  • Доступ к билинговой системе аккаунтов предоставляется через WEB интерфейс по адресу https://skif-blades.bas-net.by. Расширенный доступ возможен из командной строки через группу утилит gls*, gch* и дополнительных. Справочная данные по работе утилит доступны через опцию  ”-man”.

    В данный момент для всех пользователей существует одна единица учета в кредитном эквиваленте процессор/секунда.
    Резервация вычисляется по схеме:
    Окончательное списание кредитов высчитывается из числа процессоров в задаче умноженное на rate и на реальное время резервации.

    пример: ( ( 16 [Processors] * 1 [ChargeRate{Resource}{Processors}] ) ) * 1234 [WallDuration] = 19744 (процессор/секунда.)

    Стоимость процессора/часа для коммерческого использования устанавливается в случае необходимости соответствии с договорными отношениями.
    Более подробная статистика по каждой задаче с учетом узлов выполнения также доступна из базы планировщика по запросу.

ХРАНЕНИЕ И АРХИВИРОВАНИЕ ДАННЫХ

  • На всех узлах вычислительной системы установлен архиватор 7z под лицензией GPL.
    Рекомендуется перед загрузкой или выгрузкой файловых данных осуществлять архивирование и сжатие.
    Данные процесс в частном случае можно выполнять в интерактивной сессии на вычислительном узле, что имеет преимущества по использованию процессора, однако в данный момент не запрещено и на управляющей машине. Большинство файловых данных ( в частности исходные коды, логи, отчеты ) за исключением мультимедийных, имеют коэффициент сжатия 3 и более раз. Архиватор удобен для размещения в коде исполняемых скриптов. Описание команды вызова доступно по команде ‘man 7z’. В графической сессии NX рекомендуется использовать утилиту Arc из списка главного меню в сессии KDE или аналогично в Gnome. Например:

    7z a -t7z -m0=lzma -mx=9 -mfb=64 -md=32m -ms=on archive.7z dir1
    

    добавляет все файлы из директории “dir1” в архив “archive.7z” используя специальные установки
    -t7z 7z тип архива
    -m0=lzma lzma метод сжатия
    -mx=9  уровень сжатия = 9 (Ultra)
    -mfb=64 параметр для LZMA = 64
    -md=32m размер словаря = 32 megabytes
    -ms=on цельный архив = on

    7z a -t7z -v4480m -mx0 -r archive.7z dir1
    

    -t7z – тип 7z;
    v4480m – размер части 4480 мб;
    -mx0 – использовать нулевую компрессию;
    -r – рекурсивно (если нужно сжать папку с подпапками).

    7z a -sfx archive.exe dir1
    

    добавляет все файлы из директории “dir1” в самораспаковывающийся архив archive.exe

    7z a -mhe=on -pmy_password archive.7z a_directory
    

    добавляет все файлы из директории “a_directory” в архив “archive.7z”
    (с шифрованием заголовка и данных)

Scroll to top