ARENADATA

Аналитическая платформа с открытым кодом

ARENADATA

Главная

 / Продукты

Рекомендации по установке продукта

#ARENADATA

Описание и состав дистрибутива

#ARENADATA DISCOVERY

 

Дистрибутив содержит набор пакетов для развертывания компонентов Apache Hadoop на распределённых и псевдо-распределённых системах (некоторые компоненты не могут должным образом работать на псевдо-распределенных системах из-за технических ограничений самих компонентов). В дистрибутив включены последние стабильные версии официальных релизов Apache Hadoop.

 

В дистрибутив могут быть включены подготовленные Arenadata патчи, не входящие в официальные проекты Apache Hadoop, необходимые для обеспечения стабильного функционирования компонентов, их взаимодействия и развертывания в рамках данной сборки.

 

В текущей версии дистрибутива добавлен архив «ADH-1.3.0.1.tar.gz», включающий следующий набор компонентов и их версий:

 

• Hadoop 2.7.1

• Zookeeper 3.4.6

• HBase 0.98.12

• Pig 0.15.0

• Hive 1.2.1

• Tez 0.6.2

• Sqoop 1.4.5

• Mahout 0.11.0

• Flume 1.6.0

• Hue 3.9.0

В случае если on-line доступ в сеть Интернет регламентирован, для обеспечения возможности off-line установки платформы Hadoop подготовлен архив «ADH-UTILS-1.3.0.1.tar.gz» с набором следующих сторонних компонентов и их версий:

 

• Bigtop Groovy 2.4.4

• Bigtop Utils 1.1.0

• Bigtop JSVC 1.0.15

• Bigtop Tomcat 6.0.36

• EPEL 6.8

• ExtJS 2.2.1

• FPing 2.4

• Hadoop-Lzo 0.6

• Libconfuse 2.7

• LZO 2.0.6

• MySQL Java Cconnector 5.1.29

• Perl-Crypt-DES 2.0.5

• Perl-Net-SNMP 5.2.0

• RRD-Tool 1.4.5

• Snappy 1.0.5

• Postgresql Server 8.4.20

 

Каждый архив содержит скрипт «setup_repo.sh» для создания YUM репозитория и проверки прав доступа в автоматическом режиме.

 

 

Конфигурация кластера Hadoop

 

Кластеры Hadoop и Hbase имеют два типа машин:

 

• Master – HDFS NameNode, YARN ResourceManager и HBase Мастер;

• Slave – HDFS узлы DataNode, YARN NodeManagers и Hbase RegionServers.

 

DataNodes, NodeManagers и Hbase RegionServers могут быть расположены совместно или для коалокации данных. Кроме того, для управления кластером Hbase необходимо использование отдельного компонента Zookeeper.

 

Рекомендуется разделять главные узлы («admin nodes») и подчиненные узлы по следующим причинам:

• нагрузка на подчиненных узлах должна быть изолирована от мастеров;

• подчиненные узлы часто требуют технического обслуживания ввиду большой нагрузки как на процессор, так и на дисковую подсистему.

 

Для целей разработки и тестирования есть возможность развернуть Hadoop на одном узле (при условии, что все мастера и подчиненные процессы находятся на той же машине).

 

Конфигурация из двух узлов требует разделения NameNode и ResourceManager на главном узле и DataNode и NodeManager на подчиненном узле.

 

Кластеры из трех или более машин, как правило, используют один узел для NameNode, один для ResourceManager и все остальные компоненты как подчиненные узлы.

 

Кластер высокой доступности использует первичный и вторичный NameNode, также возможно использование первичного и вторичного ResourceManager.

 

Средний и большой кластер Hadoop состоит из двухуровневой или трехуровневой архитектуры и построен на серверах, размещенных в отдельных стойках. Каждая стойка серверов взаимосвязана с другими с помощью 1 или 10 GbE через один или несколько коммутаторов.

 

Для получения полной версии документации необходимо заполнить форму запроса на нашей странице: http://arenadata.io/adru-download.html#arenadata-ru-download-easydown.

 

 

Аппаратные рекомендации для узлов кластера Hadoop

 

Конфигурация серверов в зависимости от типа нагрузки представлена в таблице:

Тип сервера

Рабочая нагрузка / Тип кластера

Хранение

Процессор (# ядра)

Память (ГБ)

Сеть

 

Slaves

Сбалансированная нагрузка

Вычисления / нагрузка на процессор, память

Хранение / нагрузка на дисковую подсистему

Двенадцать

2-3 ТБ диски

Двенадцать

1-2 ТБ диски

Двенадцать

4 + диски ТБ

8

10

8

128 -256

128-256

128-256

1 GB onboard,
2x10 GBE mezzanine/external

1 GB onboard,
2x10 GBE mezzanine/external

1 GB onboard,
2x10 GBE mezzanine/external

Сбалансированная нагрузка

Четыре или более

2-3 ТБ RAID 10

8

128-256

1 GB onboard,
2x10 GBE mezzanine/external

NameNode

Сбалансированная нагрузка

Четыре или более

2-3 ТБ RAID 10

8

128-256

1 GB onboard,
2x10 GBE mezzanine/external

Resource Manager

Подготовка окружения для установки Arenadata Ambari

 

Системные требования, необходимые для установки Arenadata Ambari, представлены в таблице:

 

Поддерживаются следующие операционные системы:

• Red Hat Enterprise Linux (RHEL) 6.4+ (64-бит)

• CentOS 6.4+ (64-бит)

• SUSE Linux Enterprise Server (SLES) 11 SP3

Установщик использует много пакетов из репозиториев базовой ОС. Все машины в кластере должны иметь доступ к полному набору репозиториев базовой ОС. Хранилища могут быть установлены локально или через прокси сервер из другого места.

Операционная система (ОС)

 

Мастер создания кластера является веб-инструментом и работает в браузере. Необходимо использовать машину, на которой возможно запускать веб-браузер. Также возможно просто иметь сетевое подключение к машине, где установлен сервер «Ambari». Требования к браузерам:

• Windows (Vista, 7)

     • Internet Explorer 9.0 и выше (для Vista + Windows 7);

     • Firefox последний стабильный релиз;

     • Safari последний стабильный релиз;

     • Google Chrome последняя стабильная версия.

• Mac OS X (10.6 или более поздняя)

     • Firefox последний стабильный релиз;

     • Safari последний стабильный релиз;

     • Google Chrome последняя стабильная версия.

• Linux (RHEL, CentOS, SLES)

     • Firefox последний стабильный релиз;

     • Google Chrome последняя стабильная версия.

Браузер

Необходимо установить следующие компоненты на всех узлах:

• YUM и Репозитории (RHEL / CentOS)

• Python (2.6 или новее)

• Httpd, NTP

Программное обеспечение

Поддерживаются следующие среды выполнения Java:

• «Oracle JDK-7u79-Linux-x64.tar.gz» или более поздняя версия

Java

Ambari, Hive / HCatalog и Oozie требуют наличие собственных баз данных.

• Ambari по умолчанию использует инстансы сервера «PostgreSQL 8.x», установленных Ambari. Также можно использовать существующий инстанс «PostgreSQL 9.x», «MySQL 5.x» или «Oracle 11g»;

• Hive / HCatalog: Ambari устанавливает экземпляр MySQL на хосте Hive Metastore. Также можно использовать существующий инстанс «PostgreSQL 9.x», «MySQL 5.x» или «Oracle 11g»;

• Oozie по умолчанию использует инстанс Derby, установленный Ambari. Также можно использовать существующий инстанс «PostgreSQL 9.x», «MySQL 5.x» или «Oracle 11g».

На всех узлах требуется «OpenSSL-1.0.1e-16.el6.x86_64» или выше

База данных

OpenSSL

КОНТАКТЫ

Появились вопросы?

Свяжитесь с нами

 

#ARENADATA

Платформа эффективного

хранения и обработки данных

info@arenadata.io

Написать письмо на почту

www.arenadata.io

Проект компании   ©IBS, 2017. Все права защищены.