Strategy ONE

データの準備

Data Wranglingを使用して、データを効率的に管理および操作します。サンプルデータ(つまり、実際のデータのサブセット)を使用して、データをクリーニング、変換、準備する関数のスクリプトを構築します。

Data Wranglingへのアクセス

  1. 自動モデルを使用してデータ モデルを作成し、データをインポート

  2. Model Dataページで、ツールバーのData Prepをクリックします。

Data Wrangleインターフェース

データを管理および操作するには、次のオプションを使用します。

Data Previewペイン

プレビューペインの列を次の用途に使用します。

  • 名前の変更削除複製、またはデータの準備を行うには、列ヘッダーのOptions をクリックします。

    プレビューデータは、データセット全体ではなく、サンプルデータに対するWrangle関数の結果を表します。完全なデータでの結果は異なる場合があります。

  • データタイプを変更するには、列のタイプをクリックし、データタイプリストからオプションを選択します。

Data Previewペインには、選択したテーブルのデータのプレビューが表示されます。データをWrangleすると、データが更新されます。

Function Preview

適用されたデータ操作を含む、選択したテーブルのプレビューデータを表示します。Data Prep操作をプレビューすると、グリッド上の今後の変更を確認できます。

  1. ターゲット列と関数を選択します。

  2. Previewをクリックします。

  3. 元のデータを表示するには、Exit previewをクリックします。

  4. 変更を適用するには、Applyをクリックします。

Prep Historyパネル

Prep Historyパネルは、ターゲットテーブルに適用したすべてのWrangling関数を記録します。これにより、Data Wranglingスクリプトが作成されます。

  • スクリプトをエクスポートするには、More Options Export to JSONの順にクリックします。適用された関数は、JSONスクリプトとして順番に保存されます。エクスポートファイルをインポートして、別のデータセットに適用できます。

  • スクリプトをインポートするには、More Options Import to JSONの順にクリックします。

Data Prepパネル

  • Target Columns:Wrangle関数のターゲットとする列を選択します。複数の列または単一の列を選択できます。

  • Functions:ターゲット列に適用する関数をクリックします。使用可能な関数は次のとおりです。

    • Pivot:列を行にピボットする場合、 Mosaic Studioは選択した列名を新しい列の値に統合します。

      行を列にピボットする場合、ターゲット列を選択します。すべての一意の値が新しい列になります。値と、それらの統合関数を指定することもできます。

    • Split:列を複数の列に、またはセルを複数の行に分割します。

    • Merge:複数のデータ列を単一の列にマージします。Wrangleパネルを使用して、マージする列とマージする列の順序を指定します。

    • Extract:選択した列からデータの特定の部分を移動し、新しい列に表示します。

    • Remove:指定された基準に基づいて、行、セル、またはセル内の特定の文字を削除します。

    • Transform:次のいずれかのオプションを使用して、テキストを編集し、データをクリーニングします。

      • Normalize capitalization - To Title Case:テキストをタイトルケースに変更します。各単語は大文字で始まります。

      • Normalize capitalization - To Uppercase:テキストを大文字に変更します。

      • Normalize capitalization - To Lowercase:テキストを小文字に変更します。

      • Convert data type to number:列のデータタイプを数値形式に変更します。データタイプのドロップダウンリストから数値形式を選択します。

      • Convert data type to string:列のデータタイプを文字列形式に変更します。

      • Convert data type to date and time:列のデータタイプを日付と時刻の形式に変更します。データタイプのドロップダウンリストから形式を選択します。

        カスタム形式の値の詳細については、値と例を参照してください。

      • Find and Replace where Cell:セルのコンテンツを検索し、入力したテキストまたは値に置き換えます。

      • Find and Replace Characters in a Cell:セル内の文字を検索し、入力した文字に置き換えます。

      • Trim Leading and Trailing Whitespaces:セルから先頭と末尾の空白をトリミングします。

      • Collapse Consecutive Whitespace:セルから2つ以上の連続した空白のブロックを削除します。

      • Fill Down:空白のセルを前のセルの値で置き換えます。セルにスペースが含まれている場合は、空白にするためにスペースを削除する必要があります。

      • Blank Down:繰り返しデータを含むセルを空白にします。

      • Pad Before:指定した文字をセルの先頭に追加します。

      • Pad After:指定した文字をセルの末尾に追加します。

      • Unescape HTML:HTMLエンコードされたデータのコードを正しい文字に置き換え、テキストを読みやすくします。

    • Cluster:アルゴリズムを使用して、類似した値を識別してマージします。これにより、類似した値が標準化され、より正確なデータが得られます。

      1. Algorithmドロップダウンリストで、データをグループ化するために使用するアルゴリズムを選択します。

        • Fingerprint:この方法は、データの一意の値を識別して、2つの項目が同一かどうかを判断するために使用されます。

        • n-Gram fingerprint:この方法は、テキスト処理に使用されます。テキストを文字、単語などの項目のシーケンスに分割します。

        • Phonetic:この方法は、似たような音の単語を一致させるために使用されますが、スペルが異なる場合があります。

      2. すべてのクラスター値を新しい値に置き換えるには、対応するクラスターのチェックボックスを選択し、New cell Valueに置換値を入力します。

      3. 選択したクラスターの値を置き換えるには、Mergeをクリックします。

      4. Merge後に再クラスターオプションを再生成するには、Reclusterをクリックします。

  • Suggestions:ターゲット列が選択されていない場合、提案がここに表示されます。提案は、プレビューデータに基づいています。