Version 2021
インポート前にデータ品質を調整するには
インポートする前に、データ ラングリングを使用して、データの品質および使いやすさを向上させます。空白スペースの削除、フィルター、重複した行またはセルの削除、データの検索/置換、列の連結などを行うことができます。さらに、データ検出ツールとして、またはいくつかの従来の抽出、トランスフォーメーション、および読み込み (ETL) 方法をバイパスするために、データ ラングリングを使用することもできます。
データ ラングリング ダイアログで、サンプル データ (実データのサブセット) を使用して作業して、データをクリーニング、変換、および準備するスクリプトを作成します。
データを再公開または更新する場合、データ ラングリングのステップが新しいデータに適用されます。
- 空のドシエを作成するか、既存のドシエを開きます。
-
[データを追加] > [新規データ] を選択して、新しいデータセットにデータをインポートします。
または
[データセット] パネルで、データセット名の隣の [その他] をクリックします をクリックし、[データセットの編集] を選択して、データセットにデータを追加します。[プレビュー] ダイアログが開きます。[新規テーブルを追加] をクリックします。
[データ ソース] ダイアログが開きます。
- Select the data you want to import, according to your data source type.
- Once you have selected the data you want to import, click Prepare Data to open the Preview dialog.
- 上部ペインで、変更したいテーブルのドロップダウン矢印をクリックして、[ラングリング] を選択します。データセットのサンプルを表示した [データをラングリング] ダイアログが開きます。
[列を選択] ドロップダウン リストから、変更する列を選択します。
または
プレビューで、変更する列を選択します。
推奨のリストまたは [関数を選択] ドロップダウン リストから、適用する関数を選択します。詳細はラングリング データ用の関数を参照してください。
入力の必要がない関数の場合は、関数は自動的にデータに適用されます。
関数にパラメーターが必要な場合は、パラメーターを定義して、[適用] をクリックします。
列の日付データ タイプを変更することができます。[列を選択] ドロップダウン リストで、変更したい列を選択します。[関数を選択] ドロップダウン リストの [セルのトランスフォーム] セクションで、[データ タイプを変更] を選択します。次のドロップダウン リストから [日付] を選択し、次のフィールドに日付書式設定を入力して、[適用] をクリックします。詳細はデータをラングリングする際の日付と時刻のデータ型を定義するにはを参照してください。
[列を選択] ドロップダウン リストの [セレクター] のオプションを使用することによって、列データをフィルターすることができます。これらのオプションでは、列のフィルターのためにに調整できる以下のフィルターが、画面の最下部に表示されます。
[テキスト セレクター]: テキストの上にカーソルを置いて、インポートに [包含] するか [除外] するかを選択できます。
[数値セレクター]: 数値の範囲を使用してグラフを表示します。範囲の開始ポイントおよび終了ポイントを移動して値をフィルターします。さらに、[数値]、[非数値]、[空]、[エラー] のチェックボックスを使用して、数値をさらにフィルターします。
[タイムライン セレクター]: 日付の範囲を使用して限定してグラフを表示します。範囲の開始ポイントおよび終了ポイントを移動して日付をフィルターします。さらに、[時間]、[非時間]、[空]、[エラー] のチェックボックスを使用して、日付をさらにフィルターします。
[テキスト検索]: データのフィルターに使用したいテキストを入力します。[大文字と小文字を区別する] を選択すると、大文字と小文字を区別して検索します。[標準式] を選択すると、正規表現 (Regex) 言語を使用できます。
[セレクター] のオプションを使用しても、データは削除されません。代わりに、データはプレビューに表示されなくなります。
各フィルターに関連付けられたドロップダウン矢印を選択することによって、フィルターされたデータに関数を適用することができます。
[リセット]: 特定のフィルターを元に戻します。
[すべてのセレクターをリセット]: すべてのフィルターを元に戻します。
[削除]: 特定のフィルターを削除します。
[すべてのセレクターを削除]: すべてのフィルターを削除します。
- 同じような列データを 1 つのクラスターにグループ化して、値を置き換えるようにするには、変更したい列を選択して、[関数を選択] ドロップダウン リストの [その他] セクションから [クラスターおよび編集] を選択します。[クラスターおよび編集] ダイアログが開いて、列データが、関連するデータのクラスターにグループ化されます。詳細はデータをクラスター化するにはを参照してください。
- 個々のセルをダブルクリックして、直接セル内でデータを編集します。
- ポップアップ ダイアログで、変更を入力します。
- 選択したセルを変更するには、[適用] をクリックします。
- 選択したセル内のデータと一致するすべてのセルを変更するには、[すべてに適用] をクリックします。
- 前の関数を元に戻すには、[履歴スクリプト] 領域で [元に戻す] をクリックします。
- 前の関数を繰り返すには、[繰り返し] クリックします。
- 複数の関数を元に戻すには、保持したい前の関数をクリックします。選択された関数の後に適用された関数はすべて、元に戻されます。関数が元に戻すと、灰色に表示されます。
- 数の関数を再実行するには、再実行したい最後の灰色の関数をクリックします。選択された関数とその前の関数に、再適用されます。
- スクリプト内のすべての操作を削除するには、[リセット] をクリックします。データが元の状態に戻されます。履歴スクリプトは、新しいスクリプトを開始する別の関数が選択されるまで、削除されません。
- [保存] をクリックします。[履歴スクリプトを抽出] ダイアログが開き、完全なスクリプトが表示されます。
- 後で別のデータセットで再利用するためにスクリプトと関数を保存するには、[保存] をクリックします。
- [閉じる] をクリックすると、スクリプトを保存しないで [データをラングリング] ダイアログに戻ります。
- [インポート] をクリックします。[履歴スクリプトをインポート] ダイアログが開きます。
保存したスクリプトをインポートするには、[ブラウズ] をクリックします。
または
テキストボックスの中にリンクを貼り付けます。
- [適用] をクリックします。スクリプトが、データ サンプルに対して実行され、[プレビュー] ダイアログに戻ります。
- [終了] をクリックして、調整したデータをインポートします。