データのクレンジングとは?
そもそも「データクレンジング」とは何を指しているでしょうか?化粧を落とす化粧品をクレンジングといいますが、あれは顔についた汚れを落とす役割を持っていますね。クレンジングには洗浄するという意味合いがありますが、まさに「データクレンジング」とは、「データを綺麗にする」ことなのです。データ分析を行うためには、重複のデータや扶養なデータがあると、扱いにくい状態になります。分析の邪魔となる異常値や空白、重複等を取り除き、分析や集計しやすい状態にすることをデータクレンジングといいます。
今、企業の日々の業務では、例えば販売管理システムや在庫システム、会計システム等、あらゆるソフトを組み合わせて業務を進めているケースが多いと思います。それぞれのシステムから吐き出されるデータを集約し、最終的な売上分析や利益分析等のビジネスデータ分析を行うデータ活用が増えていますが、それら分析を行うに際し、データの品質や状態が悪いと、精度の高い分析結果が得られないのです。そのためにも、今回ご紹介するデータクレンジングは非常に重要な処理であるといえます。
データの品質を担保する要素
国際データマネジメント協会の資料によると、データの品質を担保する基準としては、以下6つの要素が挙げられています。
・Completness(網羅性)
・Uniqueness(唯一性)
・Timeliness(適時性)
・Validity(正当性)
・Accuracy(正確性)
・Consistency(一貫性)
パワークエリを使ったデータクレンジング方法
①トリミングー空白一括除去
トリミングとは、不要なものを取り除くことを指します。データの処理上では、「値」の前もしくは後に存在している空白文字を除去することをトリミングといいます。
これを、従来のExcelでやろうとすると、セルを開いて空白文字を削除するという、比較的非効率なやり方になってしまいます。パワークエリにはトリミングを一括でできる機能が実装されているので、効率的に、空白除去処理をすることができます。
1.トリミング対象の列を選択
トリミングをデータが入っている列を選択します。
2.トリミングを実行
「変換」タブの「書式」をクリックし、「トリミング」をクリックしてトリミングを実行します。
②空白nullなど不要な行の一括削除
次は、パワークエリで不要な行を削除する方法についてご紹介します。パワークエリでは、特定の不条件をフィルタリングして行を削除することができます。このフィルタリング機能を活用し、空白の行だけを一括で削除することが可能です。
フィルタリングしたい列を選択して、「▼」ボタンを押してフィルタ選択プルダウンを開きます。空白だけ除外したい場合は、「(null)」の部分だけ選択を外してOKボタンを押すと、null以外の行のみが表示されるようになります。
②指定したカラム(列)の削除
先ほどは、レコード一覧から指定した行を対象に削除する方法についてご紹介しました。では次に、指定したカラム(列)を削除する方法についてもみていきましょう。
1.削除したい対象の列を選択
削除したい対象の列を選択します。
2.リストに表示されている「削除」を押して、削除
削除したい対象の列を選択したら、「削除」ボタンをおします。
このように終始江した後もし失敗していても、メニューの「クエリ」ー「編集」から、再度修正することができます。通常のExcelよりも、操作の修正がしやすいところもパワークエリが使いやすいといえる特徴の一つです。
最後に
今回は、パワークエリで不要な行や列を削除する方法についてお伝えいたしました。Excelだと、それぞれどのような操作を行ったかが、なかなか後から見てもわかりづらい点もあります。そういった意味でも、パワークエリは操作の手順をステップとして記録できるため、後から手戻りが発生しても修正しやすいです。ぜひあきらめず、パワークエリをマスターしてみましょう。