MicroStrategy ONE
A partire da MicroStrategy 2021 Update 4, Hadoop Gateway non è più supportato.
Considerazioni sull'ambiente
Sicurezza sull'accesso ai dati (autenticazione)
L'accesso ai servizi Cluster può essere controllato da un'implementazione Kerberos conforme (Kerberos MIT, Active Directory). In un ambiente Kerberos, MicroStrategy Hadoop Gateway può identificarsi come un'entità Kerberos e avere accesso ai servizi necessari: HDFS, Spark Manager.
Hadoop come modalità Edge o Proxy del cluster
Si consiglia l'inclusione dell'host MicroStrategy Hadoop Gateway nel cluster Hadoop per vantaggi in termini di sicurezza, amministrazione e prestazioni. Un nodo Edge o Proxy si trova fisicamente o logicamente all'interno del cluster e contiene lo stesso set di librerie.
Da un punto di vista amministrativo, qualsiasi aggiornamento della versione della libreria del cluster includerà il nodo Edge o Proxy. Ne va un vantaggio in termini di prestazioni, poiché la velocità di trasferimento dei dati dovrebbe essere maggiore. Migliora la sicurezza, poiché il nodo potrebbe essere vincolato alle stesse regole e autenticazione.
Modalità ad alta disponibilità nei servizi cluster HDFS e YARN
Seguendo le best practice, il cluster potrebbe aver implementato la modalità High Availability (HA) sui servizi. Un nodo server può essere impostato come Attivo e abilitato mentre un ulteriore nodo può essere impostato in Standby per sostituire quello Attivo in qualsiasi momento. Un ambiente HA utilizzerebbe un insieme diverso di proprietà quando fa riferimento a questi servizi. Esamina il tuo ambiente e assicurati che venga eseguito in modalità HA.
Requisiti di sistema e configurazioni supportate
I requisiti di sistema per un gateway MicroStrategy Hadoop sono gli stessi di un cluster Spark. La versione Spark supportata è 1.6.x. La versione di distribuzione supportata per MicroStrategy Hadoop Gateway è Cloudera Data Hub 5.10 o versioni successive e Hortonworks 2.4 o versioni successive.
Per gli ambienti cluster con un meccanismo di autenticazione standard, il gateway MicroStrategy Hadoop può essere utilizzato in modalità locale, client YARN e Spark Standalone. Per gli ambienti in cui è abilitata l'autenticazione Kerberos, MicroStrategy Hadoop Gateway può essere utilizzato solo in modalità client YARN.
In un cluster Hadoop sono necessari:
-
Dovresti avere un ambiente Hadoop installato sui server Unix/Linux.
Nel cluster Hadoop deve essere installato almeno il servizio HDFS. Altri servizi che possono essere installati includono Hive, Hue, Oozie e ZooKeeper.
- MicroStrategy Hadoop Gateway supporta la modalità ad alta disponibilità di NameNode e YARN Resource Manager.
Per abilitare la disponibilità elevata NameNode, vedere Come esplorare il file system distribuito Hadoop e visualizzare in anteprima i file. Non è richiesta alcuna configurazione aggiuntiva per la disponibilità elevata di YARN Resource Manager. Viene gestito automaticamente.
- Se si utilizza MicroStrategy Hadoop Gateway in modalità client YARN, nel cluster Hadoop dovrebbero essere installati i servizi YARN e Spark.
- Se si utilizza MicroStrategy Hadoop Gateway in modalità Spark autonoma, nel cluster Hadoop dovrebbe essere installato il servizio Spark (Standalone).
- I parametri di connettività al master Spark (ad esempio spark://SparkMasterNode:7077)
- Cloudera Manager non consente l'installazione di questo servizio se il cluster ha Kerberos abilitato.
- A scopo di risoluzione dei problemi:
- Accesso al sito web di Spark autonomo http://SparkMasterNode:18080
- Accesso al sito Web di Spark History Server http://NodoSparkHistoryServer:18088
- Accesso al sito Web di monitoraggio delle risorse YARN http://YARNResourceManagerNode:8088
-
Assicurati che il servizio Spark sia installato e configurato correttamente. MicroStrategy Hadoop Gateway 10.11 e versioni successive saranno lanciati con la metodologia spark-submit per evitare problemi di conformità e compatibilità con gli ambienti cluster.
Porte utilizzate da MicroStrategy Hadoop Gateway
|
Da |
A: porta predefinita del servizio |
Spiegazione |
|---|---|---|
|
Intelligence Server |
Porta host 30004 del gateway MicroStrategy Hadoop |
Invio di comandi da Intelligence Server a MicroStrategy Hadoop Gateway per recuperare i dati. Il numero della porta è configurabile nel file di configurazione di MicroStrategy Hadoop Gateway: /conf/hgos-spark.properties. |
|
Intelligence Server |
Porta host 4020 del gateway Hadoop MicroStrategy Hadoop |
Porta utilizzata da Intelligence Server per esplorare HDFS tramite il servizio RESTful di MicroStrategy Hadoop Gateway. Il numero della porta è configurabile nel file di configurazione di MicroStrategy Hadoop Gateway: /conf/hgos-spark.properties. |
|
MicroStrategy Hadoop Gateway |
Porta nomeNode HDFS 8020 |
Il numero della porta predefinito è: 8020. Contatta gli amministratori del tuo cluster per il numero di porta specifico. |
|
HDFS (tutti i nodi del cluster Hadoop) |
Porta 30241 dell'Intelligence Server |
Utilizzato per inviare la serie di risultati delle query dai nodi di lavoro delle applicazioni Spark di MicroStrategy Hadoop Gateway a Intelligence Server. Il numero di porta è configurabile nel registro del sistema operativo in cui è installato Intelligence Server. Chiave del Registro di sistema: HKEY_LOCAL_MACHINE/SOFTWARE/Wow6432Node/MicroStrategy/DSS Server/Castor/DSPort File di registro in Linux: MSIReg.reg |
|
MicroStrategy Hadoop Gateway |
Porta 8032 del gestore risorse YARN |
Connettività FILATO |
|
MicroStrategy Hadoop Gateway |
Porta Spark 4040 |
Connettività scintillante |
|
MicroStrategy Hadoop Gateway |
Porta KDC Kerberos 88 |
Per autenticare MicroStrategy Hadoop Gateway per accedere ad altri servizi (come HDFS). |
Se l'autenticazione Kerberos è stata abilitata
Per informazioni sull'installazione di Kerberos, vedere: Come installare il servizio di autenticazione Kerberos.
Fare riferimento ai seguenti collegamenti per abilitare l'autenticazione Kerberos in Cloudera CDH e Hortonworks HDP cluster.
Sarà necessaria un'entità Kerberos (o un SPN in Active Directory) per autenticare il processo di MicroStrategy Hadoop Gateway.
L'autenticazione Kerberos avviene in almeno due eventi:
- Esplorazione della directory dei file HDFS per selezionare i file da importare. Il gateway MicroStrategy Hadoop connette direttamente il NameNode.
- Avvio di MicroStrategy Hadoop Gateway in modalità client YARN: MicroStrategy Hadoop Gateway distribuirà applicazioni Spark su YARN e per questa operazione richiede un ticket Kerberos.
MicroStrategy Hadoop Gateway deve essere eseguito con un account utente Linux valido collegato a un'entità Kerberos. Potrebbe avere qualsiasi nome, ma per convenzione lo chiameremo hgos/< HadoopGatewayHostFQDN>@REALM_NAME. Come qualsiasi altro account del cluster, questo account dovrebbe essere in grado di accedere a tutte le macchine del cluster.
Questo account dovrebbe essere autorizzato ad accedere a HDFS con privilegi di scrittura nella relativa home directory (ad esempio hdfs://NomeNodo:8020/user/hgos).
Per funzionare come client Kerberos, i nodi del cluster dovrebbero disporre delle librerie necessarie (potrebbero essere i pacchetti krb5-workstation, client-openldap).
Se la modalità ad alta disponibilità è stata abilitata
Identificare il servizio dei nomi del servizio HDFS.
Su un computer con driver MicroStrategy Hadoop Gateway sono necessari:
- Sistema operativo host: Linux (consigliato: CentOS-7).
- L'host che fa parte del cluster CDH come nodo proxy o nodo di lavoro.
- Java Runtime Environment versione 1.7 o 1.8 (ultima versione disponibile) installata.
- L'account Linux deve avere privilegi di scrittura ed esecuzione nella cartella di installazione.
- All'account del sistema operativo deve essere assegnata una cartella utente in HDFS e privilegi di lettura/scrittura (ad esempio hdfs://< Nodo nomeHDFS:8020> /utente/< Nome principale>/ ) (una directory temporanea . sparkStaging verrà creato).
- Parametri di connettività, indirizzo IP e porta per connettersi da Intelligence Server.
- Per log dettagliati, sostituire log4j.properties con la versione più completa disponibile nella sezione risoluzione dei problemi.
Se l'autenticazione Kerberos è stata abilitata
- L'host dovrebbe aver installato le librerie client Kerberos (come krb5-workstation ) e consenti comandi Kerberos come kinit o klist.
- Java Runtime Environment dovrebbe disporre delle librerie Java Cryptography Extension per supportare la crittografia aes-256. Le librerie sono disponibili all'indirizzo Il sito web di Oracle. Il pacchetto Java JCE contiene due librerie JAR. Usarli e sostituirli nella directory < JRE_HOME>/lib/security (Se è installato JDK anziché JRE, dovrebbe esserlo < JDK_Home>/jre/lib/security. Conserva un backup delle tue librerie originali).
Per l'host Intelligence Server, aggiornare il firewall e le regole di rete per consentire la connettività nella porta 30241 dai nodi di lavoro del cluster.
Argomenti correlati
Introduzione a MicroStrategy Hadoop Gateway
Come distribuire MicroStrategy Hadoop Gateway
Come avviare MicroStrategy Hadoop Gateway
