ＭicroStrategy でのビッグデータの分析

Business Intelligence や分析業界では、ビッグデータは主に、従来のシステムでは処理できない膨大なデータの消費と関係しています。ビッグデータでは、大量のデータセットを保存、処理、検索、分析、視覚化する新しいテクノロジーが必要です。

詳細は、次のトピックを参照してください。

新規ユーザー: 概要 - ビッグデータの一般的な紹介を提供します

経験のあるユーザー:

MicroStrategy でのビッグデータソースの接続と分析 - MicroStrategy を使用してビッグデータソースに接続する方法について説明します
ビッグデータソースへの接続のワークフロー例 – 接続構成例を示します

ビッグデータの概要

このセクションはビッグデータに対する一般的な導入であり、用語や最も一般的な使用事例をまとめます。次のトピックについて説明します。

ビッグデータの使用事例
ビッグデータの特徴
ビッグデータを採用する際の課題
Hadoop コンポーネントの概要

ビッグデータの使用事例

ビッグデータテクノロジーを使用することで、膨大なデータや複雑な分析によってこれまで実現できなかった使用事例が可能になりました。現在、ビッグデータ内に閉じ込められた情報やインサイトを利用することは、あらゆるビジネスタイプに役立ちます。

小売業者は、顧客の購入傾向、現在の製品、価格設定、およびプロモーションに関する情報と関連付けることによって、パーソナライズされたより優れた顧客サービスを提供したいと願っています。MicroStrategy でビッグデータ分析を実行することで、店舗担当者がパーソナライズされた、関連性のある顧客体験を提供する野に役立ちます。
メーカーは効率性の向上、低い価格、およびサービスレベルの維持に対する需要に常に直面しています。これにより、サプライチェーン全体でコストを削減価格を下げることを強いられています。また、消費者の人口統計および購入傾向に関連して製品の売り上げを調査し、消費分析を行う必要があります。メーカーは MicroStrategy を使用することで、分散されたソースでのビッグデータ分析を実施し、完全な注文率や品質を達成し、詳しい消費パターンを把握することができます。
通信会社は、トラフィックや位置データとともに、相関ネットワーク使用率、サブスクライバーの密度によってネットワーク容量を計画および最適化する必要があります。通信会社は MicroStrategy を使用することでネットワーク容量を正確に関しおよび予測し、停電の可能性に対する計画を効果的に行い、プロモーションを実行することができます。
医療ケアは医薬品の売上や患者分析を改善し、支払者のためのより良いソリューションを実現するため、組織が所有するペタバイト単位の患者データの使用を目指しています。MicroStrategy はこれらの使用事例を満たすのに役立つアプリケーションを効果的に構築し、実行できます。
政府はセキュリティの脅威、人口動態、予算策定、およびその他の大規模なオペレーションの中での財務に対処しています。大きく複雑なデータセットにおける MicroStrategy の分析機能は、政府担当者は深い洞察を得ることで、情報に基づいた政策決定を行い、無駄や不正をなくし、市民の詳細のニーズに合わせて計画することができます。

ビッグデータの特徴

ビッグデータは新しい課題をもたらし、課題に対処するための新しいアプローチが必要となります。企業がビッグデータの使用事例を有効にするよう計画する場合は、ビッグデータの 5 つの V 、つまりデータ量 (Volume)、多様性 (Variety)、スピード (Velocity)、変動制 (Variability)、および価値 (Value) を考慮する必要があります。

データ量は、分析が必要な、生成されたデータコンテンツのサイズを表します。
スピードは、新しいデータが生成される速度と、データが移動する速度を表します。
多様性は、分析可能なデータのタイプを表します。これまで、分析業界はテーブルや列に収まる構造化データに焦点を当てていました。これらのデータは一般的に、リレーショナルデータベースに保存されていました。けれども、世界のデータの大部分は現在構造化されておらず、簡単にテーブルに配置することはできません。より広いレベルでは、データは次の 3 つのカテゴリーに分類できます。それぞれに対して、異なるデータ分析アプローチが必要です。
- 構造化データは、構造が判明しているデータです。データはファイルまたはレコードないの固定フィールド内に格納されます。
- 非構造化データは、定義されたデータモデルや組織を持たない情報です。データはテキスト (電子メールの本文、インスタントメッセージ、Word ドキュメント、PowerPoint プレゼンテーション、PDF)、テキスト以外 (音声、ビデオ、イメージファイル) を使用できます。
- 半構造化データは、構造化データと非構造化データの中間です。データは厳密なデータモデル (イベントログデータやキー値の文字列のペアなど) を使用せずに構造化されます。
正確性は、データの信頼性を表します。ビッグデータの多くのソースや形式を使用することで、品質や正確性を制御しにくくなります。
価値は、意味のある出力を生み出すためにアクセスや分析が必要な、明確なビジネスの価値へビッグデータを変える機能を表します。

ビッグデータを採用する際の課題

企業がビッグデータシステム内に存在する情報を発掘するためのソリューションを開発する際、次の課題に直面します。

[パフォーマンス]: 組織は、対話型パフォーマンスを達成するため、ビッグデータに関する高度な分析を実施しようとしています。
データ連携: 現実世界では、プロジェクト間でデータを統合する必要があります。分散された形式で、異なるソースに保存されているデータを連携するのは困難です。
データクレンジング: 企業は、分析の準備をするため、さまざまな形式のデータのクレンジングを行うことが困難だと感じています。
セキュリティ: 暗号化の適切な仕様、データアクセス履歴の記録、さまざまな業界標準認証メカニズムを通じたデータへのアクセスなど、膨大なデータレイクを安全に保つことは困難です。
効率を上げる: 企業はデータから価値を解放するためにかかる時間を短縮しようとしています。様々な種類のデータに対して多数のソースを処理し、それを行うためにポイントソリューションのウェブを使用すると、多くの場合は時間がかかります。

Hadoop コンポーネントの概要

このセクションでは、Hadoop エコシステムのメインコンポーネントについて説明します。

Apache Hadoop は、分散型ストレージおよび分散プロセス用のオープンソースのソフトウェアフレームワークです。組織はこれを使用することで従来のデータベースよりけた違いに大きなデータを、コスト効率の良い、クラスター化環境で保存してクエリできます。以下の図は、Apache Hadoop コンポーネントのアーキテクチャ図を示します。

ビジネス分析に直接関係し、MicroStrategy によって実現する使用事例に関係するエレメントは次のとおりです。

HDFS (Hadoop Distributed File System) は市販マシンのクラスター上上で実行する、Hadoop アプリケーションによって使用されるデータストレージファイルシステムです。HDFS クラスターは、ファイルシステムメタデータおよび実際のデータを保存する DataNode を管理する NameNode で構成されます。HDFS では、Hadoop エコシステム外のアプリケーションからインポートされた大きなファイルのストレージや、Hadoop アプリケーションで処理するインポートされたファイルのステージングが可能です。
YARN (Yet Another Resource Negotiator) はリソース管理を提供し、Hadoop を実行するアプリケーション用に Hadoop クラスター全体でオペレーション、セキュリティ、データ管理ツールを提供する一元的なプラットフォームです。
MapReduce は、市販のマシンの大規模なクラスター上で実行する、分散型データ処理モデルおよび実行環境です。すべてのオペレーションをマップに分割し、関数を削減する MapReduce アルゴリズムを使用しています。
Tez は MapReduce と比較して SQL クエリワークフローのパフォーマンスを改善するよう設計された、汎用データフロープログラミングフレームワークです。
Hive は大量のデータを管理および整理するため、HDFS の上に構築されれた分散型データウェアハウスです。Hive は HDFS 内の未加工のデータでタスクの分析やクエリを実行するため、大量の未加工データや SQL に似た環境を格納する、図式化されたデータストアを提供します。SQL のような Hive の環境は、Hadoop をクエリする最も人気の方法です。さらに、Hive は Map-Reduce、Tez、Spark などのさまざまなクエリエンジンに SQL クエリをチャネルするために使用できます。
Spark はクラスターコンピューティングフレームワークです。ETL 機械学習、ストリームプロセス、およびグラフ計算など、幅広いアプリケーションをサポートするシンプルで表現の豊かなプログラミングモデルを提供します。
Hbase は分散型の、列指向データベースです。参照元ストレージとして HDFS を使用し、MapReduce を使用したバッチスタイルの計算と、トランザクショナルなポイントクエリ (ランダム読み取り) の両方をサポートします。

MicroStrategy でのビッグデータソースの接続と分析

ビッグデータエコシステムは、ユーザーが SQL クエリをビッグデータソースに送ることができる多数の SQL エンジン (Hive、Impala、Drill、など) を搭載し、従来のリレーショナルデータベースのようにデータを分析します。そのため、ユーザーは、SQL 経由で構造化データにアクセスする場合と同じ分析フレームワークを活用することができます。

MicroStrategy は複数の Big Data SQL エンジンとの属性をサポートし、認証します。祷頼のデータベースと同様に、これらの SQL エンジンへの接続は ODBC または JDBC ドライバーを経由しまです。

MicroStrategy は、ユーザーに Hadoop ファイルシステム(HDFS) から直接データのインポートを許可するメソッドを提供します。これは MicroStrategy Hadoop Gateway によって達成されます。クライアントは MicroStrategy Hadoop Gateway を使用することで、SQL クエリエンジンを渡し、分析を行うため、ファイルシステムから MicroStrategy のインメモリキューブに直接データを読み込むことができます。

以下の図は、Hadoop システムから MicroStrategy に到達するため、データが通過するレイヤーを示しています。

データアクセスモードの選択

MicroStrategy を使用することで、ユーザーはビッグデータシステムと BI システムのリソースを連動して効率的に活用し、分析を実行するための最善のパフォーマンスを提供できます。ユーザーには下記のオプションがあります。

データをメモリに取り込む (インメモリアプローチ) - 分析用のデータはインメモリキューブからのみ取得されます。MicroStrategy では、ユーザーはビッグデータソースから最大数百ギガバイトのデータのサブセットをメモリキューブに取り込み、キューブからレポート/dossier を構築できます。一般的に、キューブは定期的な感覚で公開されるよう設定されており、サーバーのメインメモリに保存され、ビッグデータデータベースのクエリに必要な時間をなくします。
ソースから直接データにアクセス (ライブ接続アプローチ) - データはデータベースからのみアクセスされます。MicroStrategy はさまざまなビッグデータソースへの接続を提供し、ソースに対して動的にレポートや dossier を実行します。
ハイブリッドアプローチの適用 - データは必要に応じて、インメモリキューブとデータベースから取得されます。ハイブリッドアプローチでは、ユーザーは、自分たちが送信したクエリに応じてそれらをシームレスに切り替えることができ、上記の両メソッドの力を効果的に活用します。MicroStrategy はキューブとデータベースのどちらで特定のクエリに回答できるかを自動的に決定する動的なソーシングテクノロジーを搭載しているため、それに従ってクエリを導くことができます。

次の図は、3 つのアプローチをまとめたものです。

インメモリアプローチは一般的に最も速い分析パフォーマンスを生み出しますが、膨大な量のデータによって実用的でない場合があります。次のセクションでは、データへのアクセス方法を決定する際のデザインの考慮事項について説明します。

インメモリアプローチ: このアプローチはより早いパフォーマンスを提供しますが、データはメインメモリに収まることのできる小さなセットに制限され、インメモリデータを更新する頻度に応じて、データクラウドが古くなっている可能性があります。このアプローチは、次のような場合に使用します。
- 最終的なデータは凝集型で、BI マシンのメインメモリに適合させることができます。
- 対話型分析を使用するにはデータベースが遅すぎる
- ユーザーはトランザクションデータベースの負荷を軽減する必要があります
- ユーザーがオフラインになる必要がある
- データセキュリティを BI レベルで設定できる
ライブ接続アプローチ: dossier のデータが最新である必要がある状況や、すべてのデータをインメモリキューブに保存できない詳細レベルのデータの場合、ライブ接続オプションを使用して dossier を構築するアプローチが適しています。これにより、実行の度にウェアハウスから最後のデータをフェッチすることができます。このアプローチは、セキュリティがデータベースレベルで設定されていて、各ユーザーがアクセス権を持つデータを表示するためにウェアハウス実行が必要な場合に適しています。このアプローチは、次のような場合に使用します。
- データベースが高速で応答性がある
- ユーザーは、データベース内で頻繁に更新されるデータにアクセスする
- データ量がインメモリの制限を超えている
- ユーザーは事前に実行された dossier のスケジュールに基づいた配信を希望する
- データセキュリティはデータベースレベルで設定される
ハイブリッドアプローチ: このアプローチは、dossier のスプラッシュスクリーンに、ユーザーが詳細にドリルできる高度な集約情報を含む使用事例に適しています。このような場合、アドミニストレーターは、dossier のメイン画面が素早く表示され、ユーザーがドリルダウンしたときに dossier がビッグデータシステム内の下位レベルのデータへ進ことができるよう、集計されたデータをインメモリキューブに公開することができます。MicroStrategy の動的なソーシング機能を使用することで、これらのアプリケーションの構築は、選択したレポートをキューブに変えるときのように容易になります。MicroStrategy はユーザーが要求するデータに応じて、キューブまたはデータベースのどちらを使用するかを自動的に判断します。

サポートされるビッグデータドライバーとベンダー

Hadoop SQL エンジンは特定のデータ操作用に最適化されています。データにアクセスするために実行されるデータ型とクエリに基づいて、使用事例を次の 5 つのグループに分割できます。

バッチ SQL - ビッグデータ上の大規模な変換の実行に使用します
対話型 SQL - ビッグデータにおける対話型分析を有効にします
No-SQL - 一般的に、大規模なデータストレージや素早いトランザクションクエリに使用されます
非構造データ / 検索エンジン – 主に検索機能を使用してテキストデータまたはログデータを分析します
メモリ / Hadoop Gateway へのデータのクレンジングと読み込み – 主にインメモリキューブの公開を素早く行うよう最適化およびし使用されます

次の図は、MicroStrategy で現在サポートされている使用事例とエンジンの間のマッピングを示します。

バッチ処理

Hive は、バッチ処理のための最も人気のあるクエリメカニズムです。フォールトトレラントなため、ETL タイプのジョブに推奨されます。大手の Hadoop ディストリビューターはすべて (Hortonworks、Cloudera、MapR および Amazon EMR など)、Hive ODBC コネクターを提供します。MicroStrategy は上記のすべての Hadoop ベンダーと提携し、Hive 経由で Hadoop への認証接続を提供します。

Hive は、データベースのレイテンシがエンドユーザーに影響しないよう、ディストリビューションサービスと組み合わせたときに、MicroStrategy 内のインメモリアプローチと共に使用したり、ライブ接続アプローチとして使用するのに優れたエンジンです。MapReduce を使用してクエリを処理していますが、バッチ処理は高レイテンシであり、対話型クエリには適していません。

次のテーブルは、サポートされる Hive ディストリビューションの接続情報をリストします。

ベンダー	接続	使用事例	ドライバ名	ワークフロー
Cloudera Hive	ODBC	SQL を取得して Map Reduce に変換し、データにおいて大規模な ETL のような変換を実行するために使用できるツール	MicroStrategy Hive ODBC ドライバー	MicroStrategy Architect および MicroStrategy データインポートを通じてサポートされます
Hortonworks Hive	ODBC	SQL を取得して Map Reduce に変換し、データにおいて大規模な ETL のような変換を実行するために使用できるツール	MicroStrategy Hive ODBC ドライバー	MicroStrategy Architect および MicroStrategy データインポートを通じてサポートされます
MapR Hive	ODBC	SQL を取得して Map Reduce に変換し、データにおいて大規模な ETL のような変換を実行するために使用できるツール	MicroStrategy Hive ODBC ドライバー	MicroStrategy Architect および MicroStrategy データインポートを通じてサポートされます
Amazon EMR Hive	ODBC	SQL を取得して Map Reduce に変換し、データにおいて大規模な ETL のような変換を実行するために使用できるツール	MicroStrategy Hive ODBC ドライバー	MicroStrategy Architect および MicroStrategy データインポートを通じてサポートされます

対話型クエリ

Several Hadoop ベンダーは、対話型クエリを実現するため、素早く実行するエンジンを開発しました。これらのエンジンはベンダー/テクノロジー固有のメカにズムを使用して HDFS のクエリを行っていますが、メタストアとして Hive を使用しています。これらのテクノロジーすべては、大きなデータセットでの応答時間の短縮と高度な分析機能を組み合わせて提供するよう、急速に進化しています。Impala、Drill、Spark などの対話型エンジンを、MicroStrategy ドシエと効果的に組み合わせることで、Hadoop でのセルフサービスのデータ検出が可能となります。エンジンは、MicroStrategy との併用が認定されています。

次のテーブルは、サポートされるディストリビューションの接続情報をリストします。

ベンダー	接続	使用事例	ドライバ名	ワークフロー
Cloudera Impala	ODBC	An open source massively parallel processing (MPP) SQL query Apache Hadoop を実行するコンピュータークラスター内に保存されるデータ用の、オープンソースの超並列 (MPP) SQL クエリエンジン。Impala は独自の処理エンジンを使用し、インメモリオペレーションを実行できます	MicroStrategy Impala ODBC ドライバー	MicroStrategy Architect および MicroStrategy データインポートを通じてサポートされます
Apache Drill	ODBC	MapR によってサポートされる、オープンソースの低レイテンシクエリエンジン。セルフサービスのデータ探索、機能を提供できるよう、スキーマをオンザフライで検出機能を搭載しています	MicroStrategy Drill ODBC ドライバー	MicroStrategy Architect および MicroStrategy データインポートを通じてサポートされます
Apache Spark	ODBC	分散型データコレクションで動作するデータ処理ツールであり、最大のオープンソースコミュニティの 1 つとして開発されました。Spark はインメモリ処理により、MapReduce よりもはるかに高速です	Apache Spark SQL 向け MicroStrategy ODBC ドライバー	MicroStrategy Architect および MicroStrategy データインポートを通じてサポートされます
IBM BigInsights	ODBC	企業が Hadoop のネイティブ形式で膨大な量の構造化データおよび非構造化データを分析できる、高度な分析機能の豊富なセット	BigInsights ODBC ドライバー	MicroStrategy Architect および MicroStrategy データインポートを通じてサポートされます
Pivotal HAWQ	ODBC	HDFS へネイティブにデータを読み書きするパラレル SQL クエリエンジン。ユーザーに完全な ANSI 規格準拠 SQL インターフェースを提供します	MicroStrategy ODBC Driver for Informix Wire Protocol	MicroStrategy Architect および MicroStrategy データインポートを通じてサポートされます
Google BigQuery	ODBC	ユーザーがペタバイトのデータをインタラクティブにクエリできるよう、Google のインターフェイスを活用するクラウドベースのサービス。	MicroStrategy Google BigQuery ODBC ドライバー	MicroStrategy Architect および MicroStrategy データインポートを通じてサポートされます

NoSQL ソース

No SQL ソースは、大きな情報ストレージおよびトランザクションクエリ用に最適化されています。これらは、マルチソースオプションまたはデータブレンドオプションで効果的にペアリングできます。それにより、ユーザーが従来のデータベースから高度な情報を表示したり、No-SQL ソースを使用し、NoSQL ソースとの統合を通じて最下位レベルのトランザクションデータへのドリルダウン機能を提供できます。

次の表は、MicroStrategy が接続を認証した NoSQL ソースをリストしています。

ベンダー	接続	使用事例	ドライバ名	ワークフロー
Apache Cassandra	JDBC	key-value ストア。すべてのデータがインデックス付きのキーと値で構成されます	Cassandra JDBC ドライバー	MicroStrategy データインポートを通じてサポートされます
HBase	JDBC	データを行に保存する代わりに、データの列のセクションとしてテーブルにデータを保存する、カラムストア NoSQL データベース。高性能でスケーラブルなアーキテクチャを提供します	Phoenix JDBC ドライバー	MicroStrategy データインポートを通じてサポートされます
MongoDB	ODBC	従来のテーブルベースのリレーショナルデータべース構造を回避し、特定のタイプのアプリケーションの統合を簡単かつ素早く行えるようにするドキュメント指向データベース	MicroStrategy MongoDB ODBC ドライバー	MicroStrategy データインポートを通じてサポートされます

非構造データ/検索エンジン

検索エンジンは、膨大な量のテキストデータから検索し、dossier 内のデータへコンテキストを追加できる、効果的なツールです。この機能は、MicroStrategy でデータブレンドと併用に活用した場合に強力となり、検索データを従来のエンタープライズソースとペアリングすることができます。

次のテーブルは、サポートされる Hive ディストリビューションの接続情報をリストします。

ベンダー	接続	使用事例	ドライバ名	ワークフロー
Apache Solr	ネイティブ	完全なテキスト検索、ファセット検索およびリアルタイムインデックス作成を許可する、最も人気のあるオープンソースの検索エンジン。MicroStrategy は、Solr と統合するためのコネクターを構築してきました。動的な検索を実行し、Solr からインデックス付きのデータを分析および視覚化する能力を提供します	組み込み	MicroStrategy データインポートを通じてサポートされます
Splunk Enterprise	ODBC	広くし使用されている専有検索エンジン	Splunk ODBC ドライバー	MicroStrategy データインポートを通じてサポートされます

MicroStrategy Hadoop ゲートウェイ

MicroStrategy は、Hadoop Gateway を使用して HDFS へのネイティブ接続を提供します。Hadoop Gateway は Hive をバイパスし、HDFS から直接データにアクセスします。Hadoop Gateway は HDFS ノード上での別のインストールです。

Hadoop Gateway は、Hadoop への接続時、大きなインメモリキューブを作成する使用事例を最適化するよう設計されています。Hadoop から効果的なバッチデータインポートを実現するため、次の手法を採用しています。

Hive をバイパスして直接データにアクセスする: Hive/ODBC を回避する Yarn アプリケーションとして実行する HDFS とネイティブに通信します。これにより、データクエリとアクセス時間をさらに減らします。
HDFS からのデータの並列ロード: 並列スレッド経由でデータを MicroStrategy Intelligence Server にロードし、スループットを高め、ロード時間を短縮します。
インメモリ使用事例用にデータクレンジングのプッシュダウンを有効にする: データラングリングオペレーションは Hadoop で実行され、大規模なラングリングが可能です。

Hadoop Gateway のアーキテクチャの概要

Hadoop Gateway は別の MicroStrategy 専有インストールであり、以下をインストールして、HDFS データおよび名前ノード上にインストールする必要があります。
1. HDFS 名前ノードに Hadoop Gateway クエリエンジン
2. HDFS 実行エンジンに Hadoop Gateway 実行エンジン
MicroStrategy Intelligence Server は Hadoop Gateway 実行エンジンにクエリを送信します。その後、クエリは解析されて、データノードに送られ、処理されます。次に、クエリ用にフェッチされたデータは、インメモリキューブに公開されるよう、データノードから並列スレッドの MicroStrategy Intelligence Server へとプッシュされます。

次の図は、アーキテクチャ図における MicroStrategy Hadoop Gateway を示しています。

Hadoop Gateway の制限

現在、Hadoop Gateway にはいくつかの制限があります。

テキストおよび csv ファイルのみがサポートされます。
データラングリングは、インメモリ使用事例でのみサポートされます
マルチテーブルデータのインポートはサポートされません。
分析機能については、集計とフィルタリングのみがサポートされます。JOIN 操作はサポートされません。
Kerberos セキュリティは共有サービスユーザーと、特定のユーザーに対する委任でサポートされています。

ビッグデータソースへの接続のワークフロー例

このセクションでは、MicroStrategy からビッグデータソースに接続するためのさまざまなワークフローの例を示します。

ウェブデータインポート経由で Hortonworks Hive に接続するには
ウェブデータインポート経由で Hortonworks Hive に接続するには
Hadoop Gateway 経由で接続するには

Developer 経由での Hortonworks Hive への接続

Business Intelligence アドミニストレーター/開発者は、MicroStrategy Developer を使用し、下記の手順でビッグデータソースに接続できます。ワークフローは、従来のデータベースと MicroStrategy の統合方法に似ています。手順は、3 つの概念的エリアに分類できます。

MicroStrategy からソースへの接続を構築します。これには、適切な接続の詳細を使用した ODBC データソースの作成や、ODBC ソースをポイントするデータベースインスタンスオブジェクトの作成が含まれます。
ウェアハウスカタログインターフェイス経由でソースからテーブルをインポートします。
必要なスキーマオブジェクト (アトリビュートやファクトなど) を作成して、レポートや dossier を構築します。

次の手順では、Hortonworks Hive を例として示しています。

MicroStrategy からソースへの接続を構築するには:

ODBC Data Source Administrator を開いて、ソースへのデータソース接続を構築します。[追加] をクリックして新規の接続を作成します。
ドライバー (この例では [Hive ODBC] が選択されています) を選択し、[終了] をクリックします。
適切な接続性の詳細を入力します。
1. データソース名: 接続の保存に使用される名前
2. 説明: オプション
3. Hive サーバータイプ: 環境ごとにサーバーを選択します
4. サービス検出モード: 以下のように、2 つのサービス検出モードを使用できます。ユーザーが「Zookeeper」を選択すると、MicroStrategy では次のように Zookeeper 名前スペースを入力できます。
5. ホスト、ポートおよびデータベース名: 環境に応じて入力される必須フィールド。
6. 認証: MicroStrategy は、Hortonworks Hive に異なる認証メカニズムを認証します。認証なし、Kerberos、ユーザー名、ユーザー名とパスワード。メカニズムの選択に基づき、Thrift トランスポートパラメーターが変化します。例えば、次のようになります。
  - 認証なしの場合 - Thrift トランスポートパラメーターは「バイナリ」
  - Kerberos の場合 - Thrift トランスポートパラメーターは「SASL」
  - ユーザー名、ユーザー名とパスワード - Thrift トランスポートパラメーターは「SASL」になります
7. 接続の詳細を選択して入力した後、[テスト] ボタンを使用してテストできます。
MicroStrategy Developer を開きます。[プロジェクト] にログインして [構成マネージャー] > [データベースインスタンス] に移動し、新しいデータベースインスタンスを作成します。

MicroStrategy Developer を Windows で初めて実行するときは、管理者として実行してください。

プログラムアイコンを右クリックして、[管理者として実行] を選択します。

これは、Windows のレジストリキーを正しく設定するために必要な手順です。詳細は、「KB43491」を参照してください。

以前ソース用に作成した [データソース名] を選択します。必要なユーザーログインおよびパスワードを入力します。
ソースからのテーブルのインポート: [スキーマ] > [ウェアハウスカタログ] > [データベースインスタンスを選択] へ移動し、ソースから必要なテーブルをドラッグアンドドロップします。

カタログを保存して閉じます。
必要に応じてアトリビュートとメトリックを構築します。新しい MicroStrategy レポートを立ち上げて分析を構築します。

ウェブデータインポート経由で Hortonworks Hive に接続するには

ビジネスアナリストやエンドユーザーは、MicroStrategy ウェブデータインポートを活用して、リレーショナルデータソースの場合と同じようにデータを接続および分析できます。3 つの概念的エリアに分類できます。接続、インポート、および分析。

以下は、Hortonworks Hive からの MicroStrategy ウェブデータインポートから接続性ウィンドウです。

クエリエンジンを選択します。MicroStrategy データインポート画面から接続するエンジンを選択します。
インポートオプションを選択します。クエリを構築、クエリを入力、またはテーブルを選択のいずれかを選択します。テーブル選択アプローチは、MicroStrategy のモデル化機能を最大限に活用しているため、お勧めです。
接続を作成します。Hadoop システムへの新しい接続を定義します。
[テーブル] を選択します。データがアクセスするテーブルを選択します。
データをモデル化します。オプションとして、テーブルをモデル化、アトリビュートとメトリックの名前を変更、インポートから列を除外するなどがあります。
データアクセスモードを定義します。データをインメモリキューブとして、またはライブ接続モード経由のどちら公開するかを選択します。
dossier を構築します。