Strategy ONE
データの準備
Data Wranglingを使用して、データを効率的に管理および操作します。サンプルデータ(つまり、実際のデータのサブセット)を使用して、データをクリーニング、変換、準備する関数のスクリプトを構築します。
Data Wranglingへのアクセス
-
Model Dataページで、ツールバーのData Prepをクリックします。
Data Wrangleインターフェース
データを管理および操作するには、次のオプションを使用します。
Data Previewペイン
プレビューペインの列を次の用途に使用します。
-
名前の変更、削除、複製、またはデータの準備を行うには、列ヘッダーのOptions
をクリックします。プレビューデータは、データセット全体ではなく、サンプルデータに対するWrangle関数の結果を表します。完全なデータでの結果は異なる場合があります。
-
データタイプを変更するには、列のタイプをクリックし、データタイプリストからオプションを選択します。
Data Previewペインには、選択したテーブルのデータのプレビューが表示されます。データをWrangleすると、データが更新されます。
Function Preview
適用されたデータ操作を含む、選択したテーブルのプレビューデータを表示します。Data Prep操作をプレビューすると、グリッド上の今後の変更を確認できます。
-
ターゲット列と関数を選択します。
-
Previewをクリックします。
-
元のデータを表示するには、Exit previewをクリックします。
-
変更を適用するには、Applyをクリックします。
Prep Historyパネル
Prep Historyパネルは、ターゲットテーブルに適用したすべてのWrangling関数を記録します。これにより、Data Wranglingスクリプトが作成されます。
-
スクリプトをエクスポートするには、More Options
、Export to
JSONの順にクリックします。適用された関数は、JSONスクリプトとして順番に保存されます。エクスポートファイルをインポートして、別のデータセットに適用できます。 -
スクリプトをインポートするには、More Options
、Import to
JSONの順にクリックします。
Data Prepパネル
-
Target Columns:Wrangle関数のターゲットとする列を選択します。複数の列または単一の列を選択できます。
-
Functions:ターゲット列に適用する関数をクリックします。使用可能な関数は次のとおりです。
-
Pivot:列を行にピボットする場合、 Mosaic Studioは選択した列名を新しい列の値に統合します。
行を列にピボットする場合、ターゲット列を選択します。すべての一意の値が新しい列になります。値と、それらの統合関数を指定することもできます。
-
Split:列を複数の列に、またはセルを複数の行に分割します。
-
Merge:複数のデータ列を単一の列にマージします。Wrangleパネルを使用して、マージする列とマージする列の順序を指定します。
-
Extract:選択した列からデータの特定の部分を移動し、新しい列に表示します。
-
Remove:指定された基準に基づいて、行、セル、またはセル内の特定の文字を削除します。
-
Transform:次のいずれかのオプションを使用して、テキストを編集し、データをクリーニングします。
-
Normalize capitalization - To Title Case:テキストをタイトルケースに変更します。各単語は大文字で始まります。
-
Normalize capitalization - To Uppercase:テキストを大文字に変更します。
-
Normalize capitalization - To Lowercase:テキストを小文字に変更します。
-
Convert data type to number:列のデータタイプを数値形式に変更します。データタイプのドロップダウンリストから数値形式を選択します。
-
Convert data type to string:列のデータタイプを文字列形式に変更します。
-
Convert data type to date and time:列のデータタイプを日付と時刻の形式に変更します。データタイプのドロップダウンリストから形式を選択します。
カスタム形式の値の詳細については、値と例を参照してください。
-
Find and Replace where Cell:セルのコンテンツを検索し、入力したテキストまたは値に置き換えます。
-
Find and Replace Characters in a Cell:セル内の文字を検索し、入力した文字に置き換えます。
-
Trim Leading and Trailing Whitespaces:セルから先頭と末尾の空白をトリミングします。
-
Collapse Consecutive Whitespace:セルから2つ以上の連続した空白のブロックを削除します。
-
Fill Down:空白のセルを前のセルの値で置き換えます。セルにスペースが含まれている場合は、空白にするためにスペースを削除する必要があります。
-
Blank Down:繰り返しデータを含むセルを空白にします。
-
Pad Before:指定した文字をセルの先頭に追加します。
-
Pad After:指定した文字をセルの末尾に追加します。
-
Unescape HTML:HTMLエンコードされたデータのコードを正しい文字に置き換え、テキストを読みやすくします。
-
-
Cluster:アルゴリズムを使用して、類似した値を識別してマージします。これにより、類似した値が標準化され、より正確なデータが得られます。
-
Algorithmドロップダウンリストで、データをグループ化するために使用するアルゴリズムを選択します。
-
Fingerprint:この方法は、データの一意の値を識別して、2つの項目が同一かどうかを判断するために使用されます。
-
n-Gram fingerprint:この方法は、テキスト処理に使用されます。テキストを文字、単語などの項目のシーケンスに分割します。
-
Phonetic:この方法は、似たような音の単語を一致させるために使用されますが、スペルが異なる場合があります。
-
-
すべてのクラスター値を新しい値に置き換えるには、対応するクラスターのチェックボックスを選択し、New cell Valueに置換値を入力します。
-
選択したクラスターの値を置き換えるには、Mergeをクリックします。
-
Merge後に再クラスターオプションを再生成するには、Reclusterをクリックします。
-
-
-
Suggestions:ターゲット列が選択されていない場合、提案がここに表示されます。提案は、プレビューデータに基づいています。
