Strategy ONE

A partir de MicroStrategy 2021 Actualización 4, Hadoop Gateway ya no es compatible.

Consideraciones sobre el entorno

Seguridad en el acceso a datos (Autenticación)

El acceso a los servicios de su clúster puede controlarse mediante una implementación de Kerberos compatible (Kerberos MIT, Active Directory). En un entorno Kerberos, la puerta de enlace de MicroStrategy Hadoop puede identificarse como una entidad principal de Kerberos y tener acceso a los servicios necesarios: HDFS, Spark Manager.

Hadoop como modo perimetral o proxy del clúster

Recomendamos que el host de MicroStrategy Hadoop Gateway forme parte del clúster de Hadoop por razones de seguridad, administración y rendimiento. Un nodo Edge o Proxy está ubicado física o lógicamente dentro del clúster y contiene el mismo conjunto de bibliotecas.

Desde el punto de vista de la administración, cualquier actualización de la versión de la Library en clúster incluirá el nodo Edge o Proxy. Beneficia el rendimiento, ya que la velocidad de transferencia de datos debería ser mayor. Mejora la seguridad, ya que el nodo podría estar restringido a las mismas reglas y autenticación.

Modo de alta disponibilidad en HDFS y YARN Cluster Services

Siguiendo las mejores prácticas, es posible que el clúster haya implementado el modo de alta disponibilidad (HA) en los servicios. Un nodo de servidor se puede configurar como Activo y habilitarse, mientras que uno adicional se puede configurar en En espera para reemplazar al Activo en cualquier momento. Un entorno HA utilizaría un conjunto diferente de propiedades al hacer referencia a estos servicios. Revise su entorno y asegúrese de que se ejecute en modo HA.

Requisitos del sistema y configuraciones admitidas

Los requisitos del sistema para una MicroStrategy Hadoop Gateway son los mismos que para un clúster de Spark. La versión de Spark compatible es 1.6.x. La versión de distribución compatible para MicroStrategy Hadoop Gateway es Cloudera Data Hub 5.10 o superior, y Hortonworks 2.4 o superior.

Para entornos de clúster con un mecanismo de autenticación estándar, la puerta de enlace de MicroStrategy Hadoop puede funcionar en modo local, cliente de YARN y Spark independiente. En entornos con la autenticación Kerberos habilitada, MicroStrategy Hadoop Gateway solo puede funcionar en modo cliente de YARN.

Se necesita lo siguiente en un clúster de Hadoop:

  • Debe tener un entorno Hadoop instalado en servidores Unix/Linux.

    El clúster Hadoop debe tener instalado al menos el servicio HDFS. Otros servicios que se pueden instalar incluyen Hive, Hue, Oozie y ZooKeeper.

  • MicroStrategy Hadoop Gateway es compatible con el modo de alta disponibilidad de NameNode e YARN Resource Manager.

    Para habilitar la alta disponibilidad de NameNode, consulte Cómo explorar el sistema de archivos distribuido Hadoop y obtener una vista previa de los archivos. No se requiere configuración adicional para la alta disponibilidad de YARN Resource Manager. Se gestiona automáticamente.

  • Si está utilizando la puerta de enlace de MicroStrategy Hadoop en modo cliente de YARN, el clúster de Hadoop debería tener instalados los servicios de YARN y Spark.
  • Si está utilizando MicroStrategy Hadoop Gateway en modo Spark independiente, el clúster de Hadoop debe tener instalado el servicio Spark (independiente).
    • Parámetros de conectividad con el Spark maestro (por ejemplo spark://SparkMasterNode:7077)
    • Cloudera Manager no permite la instalación de este servicio si el clúster tiene Kerberos habilitado.
  • Para fines de solución de problemas:
    • Acceso al sitio web independiente de Spark http://SparkMasterNode:18080
    • Acceso al sitio web de Spark History Server http://SparkHistoryServerNode:18088
    • Acceder al sitio web de Resource Monitor de YARN http://YARNResourceManagerNode:8088
  • Asegúrese de que el servicio Spark esté instalado y configurado correctamente. MicroStrategy Hadoop Gateway 10.11 y posteriores se lanzarán con la metodología de envío rápido para evitar problemas de cumplimiento y compatibilidad con el entorno del clúster.

Puertos utilizados por MicroStrategy Hadoop Gateway

Desde

Destino: puerto por defecto del servicio

Explicación

Intelligence Server

Puerto de host 30004 de la puerta de enlace MicroStrategy Hadoop

Enviar comandos desde Intelligence Server a MicroStrategy Hadoop Gateway para recuperar los datos. El número de puerto se puede configurar en el archivo de configuración de MicroStrategy Hadoop Gateway: /conf/hgos-spark.properties.

Intelligence Server

Puerto de host 4020 de la puerta de enlace de MicroStrategy Hadoop

Puerto utilizado por Intelligence Server para explorar HDFS a través del servicio RESTful de la puerta de enlace de MicroStrategy Hadoop.

El número de puerto se puede configurar en el archivo de configuración de MicroStrategy Hadoop Gateway: /conf/hgos-spark.properties.

Hadoop Gateway de MicroStrategy

Puerto de nodo de nombre HDFS 8020

El número de puerto por defecto es: 8020. Comuníquese con los administradores de su clúster para obtener un número de puerto específico.

HDFS (todos los nodos del clúster Hadoop)

Puerto del servidor de inteligencia 30241

Se utiliza para enviar un conjunto de resultados de consulta desde los nodos de trabajo de la aplicación MicroStrategy Hadoop Gateway Spark a Intelligence Server. El número de puerto se puede configurar en el registro del sistema operativo donde está instalado Intelligence Server.

Clave de registro: HKEY_LOCAL_MACHINE/SOFTWARE/Wow6432Node/MicroStrategy/DSS Server/Castor/DSPort

Archivo de registro en Linux: MSIReg.reg

Hadoop Gateway de MicroStrategy

Puerto 8032 del administrador de recursos de YARN

Conectividad de hilo

Hadoop Gateway de MicroStrategy

Puerto de chispa 4040

Conectividad de chispa

Hadoop Gateway de MicroStrategy

Puerto 88 del KDC de Kerberos

Para autenticar a MicroStrategy Hadoop Gateway para acceder a otros servicios (como HDFS).

Si se ha habilitado la autenticación Kerberos

Para obtener más información acerca de la instalación de Kerberos, consulte: Cómo instalar el servicio de autenticación de Kerberos.

Consulte los siguientes vínculos para obtener información sobre cómo habilitar la autenticación Kerberos en Cloudera CDH y Hortonworks HDP clúster.

Necesitará un principal de Kerberos (o SPN en Active Directory) para autenticar el proceso de la puerta de enlace de MicroStrategy Hadoop.

La autenticación Kerberos ocurre en al menos dos eventos:

  • Navegar por el directorio de archivos HDFS para seleccionar archivos para importar. MicroStrategy Hadoop Gateway conecta directamente a NameNode.
  • Iniciando MicroStrategy Hadoop Gateway en modo cliente de YARN: MicroStrategy Hadoop Gateway implementará aplicaciones Spark en YARN y requiere un ticket de Kerberos para ello.

MicroStrategy Hadoop Gateway debe ejecutarse con una cuenta de usuario de Linux válida vinculada a un principal de Kerberos. Podría tener cualquier nombre, pero por convención nos referiremos a él como hgos/< Hadoop GatewayHostFQDN>@REALM_NAME. Como cualquier otra cuenta del clúster, esta cuenta debería poder iniciar sesión en todas las máquinas del clúster.

Esta cuenta debe poder iniciar sesión en HDFS con privilegios de escritura en su directorio de inicio (por ejemplo hdfs://NameNode:8020/user/hgos).

Los nodos del clúster deberían tener las bibliotecas necesarias para funcionar como cliente Kerberos (pueden ser los paquetes krb5-workstation, cliente-openLDAP).

Si se ha habilitado el modo de alta disponibilidad

Identifique el servicio de nombres del servicio HDFS.

Se necesita lo siguiente en un equipo de controlador de puerta de enlace de MicroStrategy Hadoop:

  • SO host: Linux (recomendado: CentOS-7).
  • El host que formará parte del clúster CDH como nodo proxy o nodo trabajador.
  • Java Runtime Environment versión 1.7 o 1.8 (última subversión disponible) instalada.
  • La cuenta de Linux debe tener privilegios de escritura y ejecución en la carpeta de instalación.
  • La cuenta del SO debe tener asignada una carpeta de usuario en HDFS y privilegios de lectura/escritura (por ejemplo hdfs://< HDFSNameNode:8020> /usuario/< Nombre principal>/ ) (un directorio temporal . sparkStaging se creará).
  • Parámetros de conectividad, dirección IP y puerto para conectarse desde Intelligence Server.
  • Para registros detallados, sustituya el log4j.properties con la versión más completa disponible en la sección de resolución de problemas.

Si se ha habilitado la autenticación Kerberos

  • El host debería haber instalado las bibliotecas cliente de Kerberos (como krb5-workstation ) y permitir comandos de Kerberos como kinit o klist.
  • El entorno de ejecución de Java debe tener las bibliotecas de extensión de criptografía de Java para admitir el cifrado aes-256. Library está disponible en Sitio web de Oracle. El paquete Java JCE contiene dos bibliotecas JAR. Utilícelos y sustitúyalos en el directorio < JRE_HOME>/lib/security (Si está instalado JDK en lugar de JRE, debería instalarse < JDK_Home>/jre/lib/security. Mantenga una copia de seguridad de sus bibliotecas originales).

Para el host de Intelligence Server, actualice las reglas de red y firewall para permitir la conectividad al puerto 30241 desde los nodos trabajadores del clúster.

Temas relacionados

Introducción a MicroStrategy Hadoop Gateway

Instrucciones para implementar la puerta de enlace de MicroStrategy Hadoop

Instrucciones para iniciar MicroStrategy Hadoop Gateway

Instrucciones para registrar la puerta de enlace de MicroStrategy Hadoop

Solución de problemas

Problemas conocidos

Preguntas frecuentes