データサイエンス

始めが肝心!データ分析の進め方

IoT、AI、DXなどの言葉が広がるにつれ製造データを分析する人口も増えてきました。

データ分析を始めたときはノウハウも無いため想像以上にうまく進まず、結局よく分からないまま終わる事例も多々あります。

分析手法はひとまず後回しです。

私の経験を基にデータ分析をやるならまず最初に気を付けるべき事項を解説します。

詳しい解説は目次から項目をクリックしてご確認ください。

全体の流れ

まずはデータ分析の流れを確認します。

大きく以下の手順で進めます。

効率的に進めるためには「1. 目標を明確にする」と「2. データを集める」を丁寧にやることが重要です。

データ分析の流れ

  1. 目的を明確にする
  2. データを集める
  3. データを分析できる形に整える
  4. データを分析して結果を得る
  5. 結果から考察する

目的を明確にする

データ分析の最重要事項は目的を明確にすることです。

何をするにしても時間と労力を使うため無駄な分析を避ける必要があります。

これはデータ分析に限った話ではありません。

見込める効果

データ分析は何かしらの効果を得るために実施する手段の一つです。

まずその手段を使ってどのような効果が見込めるのかを考えます。

普段の改善活動にデータ分析を使うだけですので難しく考える必要はありません。

例えば製造部門においては以下のような効果を考えると取り組みやすくなります。

  • 規格外れが減る
  • 製造時間が短くなる
  • メンテナンス回数が減る
  • 作業負荷が減少する

私の経験として、作業者負担を減らす取り組みは現場も乗り気であり、巻き込んでスムーズに進められる印象です。

評価指標を定める

次に見込める効果を定量的に評価できる手段があるか検討します。

もちろん普段の品質検査項目を活用するのもありです。

ここで注意すべきことはデータの精度を意識して評価指標を決めることです。

例えば分析機器からのデータを用いる場合、測定誤差も考慮に入れなければなりません。

色々進めた後、そもそも測定結果がブレるので使えないデータでした!とならないようにしましょう。

データを集める

目的が決まればデータを集めます。

目的の次に重要な項目だと考えています。

ここで伝えたいのはデータの意味を十分に理解することが重要だということです。

データ間の時刻を考慮する

配管中を流体が移動するプロセス産業においてデータの時刻は重要データです。

特に連続プロセス製造の工程では意識する必要があります。

例えば「製造時の配管内の液温」と「製品の粘度」の関係を調べたいとします。

温度計の位置とサンプリングの位置が離れている場合、その時刻差を考慮しなければなりません。

この場合は流量とサンプリング時刻から逆算し、どの時刻の温度データを使用すれば良いか予測すれば正確性が増します。

サンプリング位置近くに新たな温度計を取り付ける方法もあります。

人によるバラツキを取り除く

1つ前の「データ間の時刻を考慮する」にて取り上げたサンプリングを人が行っていたとします。

活用する温度データはサンプリング時刻から逆算するため、人によるバラツキはデータの信頼性を極端に下げます

サンプリングのタイミングは統一されているでしょうか?

そのルールが守られているでしょうか?

自動で記録されている場合、記録のトリガーは何なのでしょうか?

私自身、記録された数値のみを当てにして失敗した経験があります。

「現場」「現物」「現実」を重んじる三現主義の考え方はここでも生きてきます。

分析機器を疑う

温度や圧力、流量などのプロセスデータの他に、粘度や密度など分析機器を使用したデータもよく使用します。

その際には以下に示すような項目を事前に調査しておきましょう。

特に品質管理項目ではない新たな測定指標を使う場合は注意が必要です。

分析機器のチェック項目

  • 測定誤差は許容できる程度なのか?
  • 成分比などを見る際に検出されない項目はあるか?
  • 機器メンテナンス前後での測定値の変化はあるか?
  • 測定者でバラツキはないか?
  • サンプルの保存期間で測定結果に影響はないか?
  • 前回測定したサンプルの影響はあるのか?

データを加工、分析する

今回、私が伝えたかったのはこれまでお伝えした内容が全てです。

ここからは専門家や便利なソフトウェアの力を借りることもできます。

一方でどれだけ優秀な人やソフトを使用しても目的やデータが悪ければ宝の持ち腐れとなってしまいます。

データを分析できる形に整える

データ分析で時間を費やすと言われる工程がデータの加工です。

ここでは不要データ、破損データ、穴あきデータなど分析の邪魔になる要素を削除します。

クレンジングという言葉が有名です。

80~100℃で推移させる温度計のデータ群に1000℃のデータが誤って含まれていた場合、例えば平均値が異常に高くなります。

その際は1000℃を測定した時刻のデータのみ削除します。

他にも手入力している温度が”百度”と文字で書かれていたら”100℃”に修正します。

ここでは極端な例を挙げましたが、こうした分析の邪魔だな……と思うデータを削除したり修正したりする工程です。

データを分析して結果を得る

果てしないデータの準備を終えると分析工程に移ります。

まずはExcelの機能を使って分析するだけで良いと思います。

統計的な知識はもちろん必要であり、数式の理解は今後必要となります。

ただ、まずはExcelの自動機能を活用することでデータ分析を最後まで実施できるようになりましょう

Excelで作成可能なグラフについては以下の記事で解説しています。

結果から考察する

分析した結果を考察して次の展開を考えます。

ここで重要となるのが実際の製造工程を理解したうえでの考察です。

こうした製品の知識、設備の知識など分析対象に関する特有の知識をドメイン知識と言います。

そのため一人で考えるのではなく周りを巻き込んで考えるのもありです。

まとめ

今回はデータ分析の進め方、特に準備の大切さについて解説しました。

「データ分析や機械学習を行いたいのでまずPythonを勉強する!」

これも間違ってはいませんし、一定水準まで達すると必要になる技術です。

一方で、Pythonを使う以前に目標を決めて正しいデータを集めなければ良いツールを無駄なことに利用しているだけです。

これからデータ分析を始める方は是非ともテーマ選定やデータの質を意識して取り組んでみてください。

AIや機械学習に関する用語解説を以下の記事で行っています。

記事への問い合わせはこちらから

-データサイエンス