ARENADATA

Аналитическая платформа с открытым кодом

ARENADATA

Главная

 / Продукты

Рекомендации по установке продукта

ARENADATA

Описание и состав дистрибутива

ARENADATA HADOOP 1.4.1

 

Arenadata Hadoop (Универсальная платформа данных) – это интегрированный набор компонентов корпоративного уровня на базе решений с открытым исходным кодом. Платформа включает в себя все необходимые компоненты для управления данными, доступа к данным, анализа данных, интеграции, безопасности и администрирования.

 

Полная версия документации размещена на странице загрузки продукта: docs.arenadata.io.

 

Все компоненты ADH 1.4.1, представленные в данном документе, являются наиболее стабильными версиями официальных релизов продуктов Apache Software Foundation. Arenadata оставляет за собой лишь право добавления необхоимых изменений и патчей для обеспечения стабильного функционирования компонентов и их интеграции.

 

Состав и версии компонентов ADH 1.4.1:

 

•  Apache Ambari 2.5.1

•  Apache HDFS 2.7.3

•  Apache YARN 2.7.3

•  Apache Zookeeper 3.4.6

•  Apache Tez 0.7.1

•  Apache Hive 1.2.1

•  Apache HBase 1.1.3

•  Apache Phoenix 4.9.0

•  Apache Pig 0.15.0

•  Apache Sqoop 1.4.6

•  Apache Flume 1.7.0

•  Apache Oozie 4.3.0

•  Apache Atlas 0.7.1

•  Apache NiFi 1.1.2

•  Apache Apex 3.5.0

•  Apache Flink 1.1.3

•  Apache Kafka 0.10.1

•  Apache Knox 0.12.0

•  Apache Mahout 0.12.2

•  Apache Ranger 0.7.0

•  Apache Ranger KMS 0.7.0

•  Apache Solr 6.6.0

•  Apache Spark 2.1.0

•  Apache Zeppelin 0.7.0

•  Apache Giraph 1.1.0

•  Apache Kite 1.1.0

Дополнительные компоненты, включенные в состав дистрибутива:

•  Hue 3.11.0

•  Bigtop Groovy 2.4.4

•  Bigtop Utils 1.2.0

•  Bigtop JSVC 1.10.15

•  Bigtop Tomcat 6.0.45

•  EPEL 6.8

•  extks 2.2.1

•  fping 3.10

•  lzo-devel 2.06

•  lzo-minilzo 2.06

•  LZO 2.0.6

•  MySQL Java Cconnector 5.1.25

•  Perl-Crypt-DES 2.0.5

•  Perl-Net-SNMP 5.2.0

•  RRD-Tool 1.4.8

•  Snappy 1.1.0

•  numactl-libs 2.0.9

 

Каждый архив содержит скрипт «setup_repo.sh» для создания YUM репозитория и проверки прав доступа в автоматическом режиме.

 

 

Конфигурация кластера Hadoop

 

Кластеры Hadoop и Hbase имеют два типа машин:

 

•  Master – HDFS NameNode, YARN ResourceManager и HBase Мастер;

•  Slave – HDFS узлы DataNode, YARN NodeManagers и Hbase RegionServers.

 

DataNodes, NodeManagers и Hbase RegionServers могут быть расположены совместно или для коалокации данных. Кроме того, для управления кластером Hbase необходимо использование отдельного компонента Zookeeper.

 

Рекомендуется разделять главные узлы («admin nodes») и подчиненные узлы по следующим причинам:

•  нагрузка на подчиненных узлах должна быть изолирована от мастеров;

•  подчиненные узлы часто требуют технического обслуживания ввиду большой нагрузки как на процессор, так и на дисковую подсистему.

 

Для целей разработки и тестирования есть возможность развернуть Hadoop на одном узле (при условии, что все мастера и подчиненные процессы находятся на той же машине).

 

Конфигурация из двух узлов требует разделения NameNode и ResourceManager на главном узле и DataNode и NodeManager на подчиненном узле.

 

Кластеры из трех или более машин, как правило, используют один узел для NameNode, один для ResourceManager и все остальные компоненты как подчиненные узлы.

 

Кластер высокой доступности использует первичный и вторичный NameNode, также возможно использование первичного и вторичного ResourceManager.

 

Средний и большой кластер Hadoop состоит из двухуровневой или трехуровневой архитектуры и построен на серверах, размещенных в отдельных стойках. Каждая стойка серверов взаимосвязана с другими с помощью 1 или 10 GbE через один или несколько коммутаторов.

 

 

Аппаратные рекомендации для узлов кластера Hadoop

 

Конфигурация серверов в зависимости от типа нагрузки представлена в таблице:


Тип сервера

Рабочая нагрузка / Тип кластера

Хранение

Процессор (# ядра)

Память (ГБ)

Сеть

 

Slaves

Сбалансированная нагрузка

Вычисления / нагрузка на процессор, память

Хранение / нагрузка на дисковую подсистему

Двенадцать

2-3 ТБ диски

Двенадцать

1-2 ТБ диски

Двенадцать

4 + диски ТБ

8

10

8

128 -256

128-256

128-256

1 GB onboard,
2x10 GBE mezzanine/external

1 GB onboard,
2x10 GBE mezzanine/external

1 GB onboard,
2x10 GBE mezzanine/external

Сбалансированная нагрузка

Четыре или более

2-3 ТБ RAID 10

8

128-256

1 GB onboard,
2x10 GBE mezzanine/external

NameNode

Сбалансированная нагрузка

Четыре или более

2-3 ТБ RAID 10

8

128-256

1 GB onboard,
2x10 GBE mezzanine/external

Resource Manager

Подготовка окружения для установки Arenadata Ambari

 

Системные требования, необходимые для установки Arenadata Ambari, представлены в таблице:


 

Поддерживаются следующие 64-разрядные ОС:

•  Red Hat Enterprise Linux (RHEL) v7.x;

•  CentOS v7.x

Установщик использует множество пакетов из базовых репозиториев ОС. Если нет полного набора базовых репозиториев ОС, доступных для всех компьютеров во время установки, могут возникнуть проблемы.

В случае возникновения проблем с недоступными базовыми хранилищами ОС, необходимо обратиться к системному администратору для обеспечения проксирования или зеркалирования этих дополнительных репозиториев.

Операционная система (ОС)

 

Мастер установки Ambari работает как веб-приложение на основе браузера. Поэтому необходимо наличие машины, способной использовать графический браузер для применения данного веб-инструмента.
Минимальные требуемые версии браузера:

•  Windows (Vista, 7,8)

     •  Internet Explorer 9.0 (устаревшая версия);

     •  Firefox 18;

     •  Google Chrome 26;

• Mac OS X (10.6 и выше)

     •  Firefox 18;

     •  Safari 5;

     •  Google Chrome 26.

• Linux (CentOS, RHEL, SLES)

     •  Firefox 18;

     •  Google Chrome 26.

На платформе рекомендуется обновить браузер до последней, стабильной версии (кроме Internet Explorer 9.0).

Браузер

На всех узлах кластера необходимо установить следующие компоненты:

•  YUM и rpm (RHEL / CentOS);

•  Zypper и php_curl (SLES);

•  Scp, curl, unzip, tar и wget;

•  OpenSSL (v1.01, build 16 или новее);

•  Python v2.7.

Программное обеспечение

Поддерживаются следующие среды выполнения Java:

•  Oracle JDK 1.8 64-разрядный: минимум JDK 1.8.64

Во время установки необходимо выбрать JDK 1.8, поскольку ADH 1.4 несовместим с JDK 1.7.

Java

Ambari требует реляционной базы данных для хранения информации о конфигурации кластера и топологии. При установке ADH Stack с Hive или Oozie – для них также требуется реляционная база данных.


Ambari:

     •  PostgreSQL 8;

     •  PostgreSQL 9.1.13+, 9.3;

     •  MariaDB 5.5;

     •  Oracle 11gr2, 12c.

По умолчанию Ambari устанавливает инстанс PostgreSQL на хост сервера Ambari. При этом использование данного инстанса PostgreSQL, MySQL или Oracle необязательно. Дополнительная информация указана в пункте «Настройка сервера Ambari 2.2.1» (см. п. 3.3).


Hive:

     •  PostgreSQL 8;

     •  PostgreSQL 9.1.13+, 9.3;

     •  MariaDB 5.5;

     •  Oracle 11gr2, 12c.

По умолчанию (на RHEL / CentOS), Ambari устанавливает инстанс MySQL на хосте Hive Metastore. Также можно использовать указанный инстанс PostgreSQL, MySQL или Oracle. Дополнительная информация указана в пункте «Настройка сервера Ambari 2.2.1» (см. п. 3.3).


Oozie:

     •  PostgreSQL 8;

     •  PostgreSQL 9.1.13+, 9.3;

     •  MariaDB 5.5;

     •  Oracle 11gr2, 12c.

По умолчанию Ambari устанавливает инстанс Derby на хосте Oozie Server. При этом использование данного инстанса PostgreSQL, MySQL или Oracle необязательно. Дополнительная информация указана в пункте «Настройка сервера Ambari 2.2.1» (см. п. 3.3).

Инстанс Derby для рабочей среды не должен использоваться по умолчанию. Если планируется применение Derby для demo-версии, разработки или тестирования окружающей среды, перенос базы данных Oozie из Derby в новую базу данных доступен только в сообществе.


Ranger:

     •  PostgreSQL 9.1.13+, 9.3;

     •  MariaDB 5.5;

     •  Oracle 11gr2, 12c.

Для Ranger необходим указанный инстанс PostgreSQL, MySQL или Oracle.


Для базы данных Ambari, если используется существующая база данных Oracle, необходимо убедиться, что пользователь Oracle работает на порте, отличном от 8080. Это необходимо, чтобы избежать конфликта с портом Ambari, установленном по умолчанию.


Использование параметров базы данных Microsoft SQL Server или SQL Anywhere не поддерживается.

База данных

КОНТАКТЫ

Появились вопросы?

Свяжитесь с нами

 

ARENADATA

Платформа эффективного

хранения и обработки данных

info@arenadata.io

Написать письмо на почту

www.arenadata.io

Проект компании   ©IBS, 2017. Все права защищены.