Strategy ONE

Ab MicroStrategy 2021 Update 4 wird Hadoop Gateway nicht mehr unterstützt.

Überlegungen zur Umgebung

Sicherheit beim Datenzugriff (Authentifizierung)

Der Zugriff auf Ihre Clusterdienste kann durch eine kompatible Kerberos-Implementierung (Kerberos MIT, Active Directory) gesteuert werden. In einer Kerberos-Umgebung kann sich das MicroStrategy Hadoop Gateway als Kerberos-Prinzipal identifizieren und auf die erforderlichen Dienste zugreifen: HDFS, Spark Manager.

Hadoop als Edge- oder Proxy-Modus des Clusters

Aus Sicherheits-, Administrations- und Leistungsgründen wird empfohlen, den MicroStrategy Hadoop Gateway-Host als Teil des Hadoop-Clusters zu verwenden. Ein Edge- oder Proxy-Knoten befindet sich physisch oder logisch innerhalb des Clusters und enthält denselben Satz von Bibliotheken.

Aus Administrationssicht enthält jedes Upgrade der Cluster-Bibliotheksversion den Edge- oder Proxy-Knoten. Dies kommt der Leistung zugute, da die Datenübertragungsgeschwindigkeit höher sein sollte. Dies verbessert die Sicherheit, da für den Knoten dieselben Regeln und die gleiche Authentifizierung gelten können.

Hochverfügbarkeitsmodus in HDFS- und YARN-Clusterdiensten

Gemäß bewährten Methoden hat der Cluster möglicherweise den Hochverfügbarkeitsmodus (HA) für die Dienste implementiert. Ein Serverknoten kann als „Aktiv“ festgelegt und aktiviert werden, während ein zusätzlicher Knoten auf „Standby“ gesetzt werden kann, um den aktiven Knoten jederzeit zu ersetzen. Eine HA-Umgebung würde beim Verweisen auf diese Dienste einen anderen Eigenschaftensatz verwenden. Überprüfen Sie Ihre Umgebung und stellen Sie sicher, dass sie im HA-Modus ausgeführt wird.

Systemanforderungen und unterstützte Konfigurationen

Die Systemanforderungen für ein MicroStrategy Hadoop Gateway sind dieselben wie für ein Spark-Cluster. Die unterstützte Spark-Version ist 1.6.x. Unterstützte Distributionsversion für MicroStrategy Hadoop Gateway ist Cloudera Data Hub 5.10 oder höher und Hortonworks 2.4 oder höher.

In Cluster-Umgebungen mit einem standardmäßigen Authentifizierungsmechanismus kann das MicroStrategy Hadoop Gateway lokal, im YARN-Client und im eigenständigen Spark-Modus betrieben werden. In Umgebungen mit aktivierter Kerberos-Authentifizierung kann das MicroStrategy Hadoop Gateway nur im YARN-Client-Modus betrieben werden.

Folgendes wird auf einem Hadoop-Cluster benötigt:

  • Sie sollten eine Hadoop-Umgebung auf Unix/Linux-Servern installiert haben.

    Im Hadoop-Cluster muss mindestens der HDFS-Dienst installiert sein. Zu den weiteren Diensten, die installiert werden können, gehören Hive, Hue, Oozie und ZooKeeper.

  • MicroStrategy Hadoop Gateway unterstützt den Hochverfügbarkeitsmodus von NameNode und YARN Resource Manager.

    Informationen zum Aktivieren von NameNode High Availability finden Sie unter Durchsuchen des Hadoop Distributed File System und Vorschau von Dateien. Für die Hochverfügbarkeit des YARN Resource Manager ist keine zusätzliche Konfiguration erforderlich. Wird automatisch gehandhabt.

  • Wenn Sie das MicroStrategy Hadoop Gateway im YARN-Client-Modus verwenden, sollten die Dienste YARN und Spark im Hadoop-Cluster installiert sein.
  • Wenn Sie MicroStrategy Hadoop Gateway im Spark eigenständig-Modus verwenden, sollte der Spark-Dienst (eigenständig) im Hadoop-Cluster installiert sein.
    • Verbindungsparameter zum Spark-Master (z. B. spark://SparkMasterNode:7077)
    • Cloudera Manager lässt die Installation dieses Dienstes nicht zu, wenn im Cluster Kerberos aktiviert ist.
  • Zur Fehlerbehebung:
    • Zugriff auf die eigenständige Spark-Website http://SparkMasterNode:18080
    • Zugriff auf die Spark History Server-Website http://SparkHistoryServerNode:18088
    • Zugriff auf die YARN-Ressourcenüberwachungs-Website http://YARNResourceManagerNode:8088
  • Stellen Sie sicher, dass der Spark-Dienst ordnungsgemäß installiert und konfiguriert ist. MicroStrategy Hadoop Gateway 10.11 und höher wird mit der Spark-Submit-Methodik gestartet, um Probleme mit der Konformität und Kompatibilität der Clusterumgebung zu vermeiden.

Von MicroStrategy Hadoop Gateway verwendete Ports

Von

An: Dienststandard-Port

Erläuterung

Intelligence Server

MicroStrategy Hadoop Gateway-Host-Port 30004

Es werden Befehle vom Intelligence Server an das MicroStrategy Hadoop Gateway gesendet, um Daten abzurufen. Die Portnummer kann in der Konfigurationsdatei des MicroStrategy Hadoop Gateway konfiguriert werden: /conf/hgos-spark.properties.

Intelligence Server

MicroStrategy Hadoop Gateway-Host-Port 4020

Port, der von Intelligence Server zum Durchsuchen von HDFS über den MicroStrategy Hadoop Gateway RESTful-Dienst verwendet wird.

Die Portnummer kann in der Konfigurationsdatei des MicroStrategy Hadoop Gateway konfiguriert werden: /conf/hgos-spark.properties.

MicroStrategy Hadoop Gateway

HDFS NameNode-Port 8020

Die Standard-Port-Nummer lautet: 8020. Bitte wenden Sie sich für die spezifische Portnummer an Ihren Clusteradministrator.

HDFS (alle Knoten des Clusters Hadoop)

Intelligence-Server-Port 30241

Wird zum Senden des Abfrageergebnissatzes von MicroStrategy Hadoop Gateway Spark-Anwendungs-Worker-Knoten an Intelligence Server verwendet. Die Portnummer kann in der Betriebssystemregistrierung konfiguriert werden, in der der Intelligence Server installiert ist.

Registrierungsschlüssel: HKEY_LOCAL_MACHINE/SOFTWARE/Wow6432Node/MicroStrategy/DSS Server/Castor/DSPort

Registrierungsdatei unter Linux: MSIReg.reg

MicroStrategy Hadoop Gateway

YARN-Ressourcenmanager-Port 8032

YARN-Konnektivität

MicroStrategy Hadoop Gateway

Funkenanschluss 4040

Spark-Konnektivität

MicroStrategy Hadoop Gateway

Kerberos-KDC-Port 88

Zur Authentifizierung des MicroStrategy Hadoop Gateway für den Zugriff auf andere Dienste (z. B. HDFS).

Wenn die Kerberos-Authentifizierung aktiviert wurde

Informationen zur Kerberos-Installation finden Sie unter: Anleitung zur Installation des Kerberos-Authentifizierungsdiensts.

Unter den folgenden Links erfahren Sie, wie Sie die Kerberos-Authentifizierung in aktivieren Cloudera CDH und Hortonworks HDP Cluster.

Sie benötigen einen Kerberos-Prinzipal (oder SPN in Active Directory), um Ihren MicroStrategy Hadoop Gateway-Prozess zu authentifizieren.

Die Kerberos-Authentifizierung erfolgt in mindestens zwei Ereignissen:

  • Durchsuchen Sie das HDFS-Dateiverzeichnis, um zu importierende Dateien auszuwählen. MicroStrategy Hadoop Gateway stellt eine direkte Verbindung zu NameNode her.
  • Starten des MicroStrategy Hadoop Gateway im YARN-Client-Modus: MicroStrategy Hadoop Gateway stellt Spark-Anwendungen über YARN hinweg bereit und erfordert hierfür ein Kerberos-Ticket.

MicroStrategy Hadoop Gateway sollte mit einem gültigen Linux-Benutzerkonto ausgeführt werden, das mit einem Kerberos-Prinzipal verknüpft ist. Der Name könnte beliebig sein, aber aus Konventionsgründen werden wir ihn als bezeichnen hgos/< HadoopGatewayHostFQDN>@REALM_NAME. Wie jedes andere Cluster-Konto sollte sich dieses Konto bei allen Maschinen des Clusters anmelden können.

Mit diesem Konto sollte die Anmeldung bei HDFS mit Schreibberechtigungen für das Stammverzeichnis (z. B. .) möglich sein hdfs://NameNode:8020/user/hgos).

Clusterknoten sollten über die erforderlichen Bibliotheken verfügen, um als Kerberos-Client zu funktionieren (dies können die Pakete sein). krb5-workstation, openldap-client).

Wenn der Hochverfügbarkeitsmodus aktiviert wurde

Identifizieren Sie den Namensdienst des HDFS-Dienstes.

Auf einem MicroStrategy Hadoop Gateway-Treibercomputer ist Folgendes erforderlich:

  • Host-Betriebssystem: Linux (empfohlen: CentOS-7).
  • Der Host soll als Proxy-Knoten oder Worker-Knoten Teil des CDH-Clusters sein.
  • Java Runtime Environment Version 1.7 oder 1.8 (neueste verfügbare Subversion) installiert.
  • Das Linux-Konto muss über Schreib- und Ausführungsrechte im Installationsordner verfügen.
  • Dem Betriebssystem-Konto sollte ein Benutzerordner in HDFS zugewiesen sein und es sollte über Lese-/Schreibprivilegien (z. B. ) verfügen hdfs://< HDFSNameNode:8020> /Benutzer/< Prinzipalname>/ ) (ein temporäres Verzeichnis . sparkStaging wird erstellt).
  • Konnektivitätsparameter, IP-Adresse und Port für die Verbindung vom Intelligence Server.
  • Für detaillierte Protokolle ersetzen Sie log4j.properties -Datei mit der umfangreicheren Version, die im Abschnitt zur Problembehandlung verfügbar ist.

Wenn die Kerberos-Authentifizierung aktiviert wurde

  • Auf dem Host sollten Kerberos-Clientbibliotheken installiert sein (z krb5-workstation ) und Kerberos-Befehle wie zulassen kinit oder klist.
  • Die Java Runtime Environment sollte über die Java Cryptography Extension-Bibliotheken verfügen, um die AES-256-Verschlüsselung zu unterstützen. Diese Bibliotheken sind unter verfügbar Oracle-Website. Das Java JCE-Paket enthält zwei JAR-Bibliotheken. Verwenden Sie diese und ersetzen Sie sie im Verzeichnis < JRE_HOME>/lib/security (Wenn JDK anstelle von JRE installiert ist, sollte dies der Fall sein < JDK_Home>/jre/lib/security. Bewahren Sie eine Sicherungskopie Ihrer Originalbibliotheken auf.

Aktualisieren Sie für den Intelligence Server-Host die Firewall- und Netzwerkregeln, um die Verbindung von Cluster-Arbeitsknoten zum Port 30241 zu ermöglichen.

Weitere Themen

Einführung in das MicroStrategy Hadoop Gateway

Anleitung zum Bereitstellen des MicroStrategy Hadoop Gateway

Anleitung zum Starten von MicroStrategy Hadoop Gateway

Anleitung zum Registrieren des MicroStrategy Hadoop Gateway

Problembehebung

Bekannte Probleme

Häufig gestellte Fragen (FAQ)