データサイエンティストに求められるデータサイエンス力

2021年11月20日 広告

データサイエンティスト協会では「データサイエンス力」「データエンジニアリング力」「ビジネス力」の3項目に分けて必要スキルを表現しています。

ただ公開されているスキルチェックリストの量が多いため理解に少し時間がかかってしまいます。

そのため今回はデータサイエンティストに求められるスキルのうちデータサイエンス力に焦点を当てて解説します

なお本記事を作成にあたりデータサイエンティスト協会のスキルチェックリストver.4を参考にしています。

データサイエンス力とは?

データサイエンス力は情報処理・人工知能・統計学などの情報科学系の知恵を理解し使う力を指します。

課題に対してどのような手法を用いて解決するかを検討する際に力を発揮します。

数理統計学

微分

データ分析を行うにあたり取得したデータを基に予測をする場合があります。

何かの予測に対しての誤差が二次関数のように下に凸(U字)の形で変化するのであれば、一番誤差が小さくなる点があるはずです。

微分はそのような誤差変化量(微分値)がゼロになる位置を探すことで最小誤差を見つける目的で使用されます。

行列・ベクトル

使用するデータの多くは行と列で構成された構造化データと呼ばれるデータの集まりになります。

行列やベクトルで表現した方が式の一般化がしやすく短い式で表現できるためデータサイエンスにおける計算は行列計算が多用されています。

例えば回帰分析で使用されるw0+w1x+w2x2……wpxpという長い式はベクトルを用いてWTxのみで表現することができます。

統計学

統計学は大きく記述統計学、推測統計学、ベイズ統計学の3種類に分類されます。

統計学3分類

  • 記述統計学
    あるデータを表やグラフにまとめて特徴を把握する。
  • 推測統計学
    推定・検定を行い全体データ(母集団)の予測とその予測精度を調査する。
  • ベイズ統計学
    数少ないデータからでも確率を予測し、追加情報を得るたびに確率更新を行うことで真の確率を求める。

記述統計学はデータの種類、平均、標準偏差、期待値、グラフなどデータ分析に関する基礎知識が含まれており、必須の分野になります。

ただし取得するデータの多くは調査すべき対象の一部に過ぎないため、収集したデータ(標本)から全体データ(母集団)を予測する推測統計学を利用します。

機械学習においてはベイズ統計学が利用されます。

データの取り扱い

ここではデータを収集・加工するスキルについて解説します。

またデータ分析を行うにあたり気を付けておきたいポイントに関しては以下の記事で解説しています。

データの収集

分析業務を行うにあたりまずはデータの収集から始めます。

収集方法にも様々あり、層化抽出法・多段階抽出法・クラスタ抽出法など各特長を理解して使い分けなければなりません。

データの収集を効率的に行うには実験計画法が役に立ちます。

データの加工

収集したデータは全て数値であるとは限らず、言葉で分類されたデータ(名義尺度や順序尺度)も加工して分析できる形にする必要があります。

これをデータのクレンジングと呼び、外れ値や欠損値などの処理もここに含まれます。

その他にも対数変換、正規化、主成分分析などデータ加工の方法は多岐に渡ります。

それらを理解したうえで状況に応じて使い分けなければなりません

分析手法

時系列分析

製造部門では時系列分析を多用することになります。

例えば時間変化に大して温度や圧力などパラメータがどのように変化するか折れ線グラフで表示し分析します。

時系列分析にはデータ数の多さや周期があることなど新たな特徴が追加されます。

一口に最大値や平均値を出そうと言ってもいつの時刻のデータを使うかすぐには判断できません。

これが時系列分析の難しいところであり取得必須のスキルでもあります。

そして最終的に時系列分析では先のデータを予測できることが求められます。

その際カルマンフィルタやモンテカルロフィルタ(言葉だけでも覚えておいてください)を用いて予測モデルを作成します。

機械学習

機械学習は大きく教師あり学習・教師なし学習・強化学習と3つに分かれます。

その中に決定木、サポートベクターマシン、クラスター分析、深層学習など様々な手法が含まれています。

また各手法を使うにもサンプリング方法や評価方法、学習方法の選択をする必要があります。

各手法に対して内容と特徴を理解しデータや目的に応じた使い分けができる能力が求められます。

この項目の難しい点は日々新たな手法が提案されていることです。

教科書のみならずネット上から最新情報を入手し理解し使用可否を判断しなければなりません。

基本的な内容として、機械学習とAIやディープラーニングの違いを以下の記事で解説しています。

非構造化データ処理

行と列で構成されたExcelの表形式のようなデータは構造化データと呼ばれます。

それ以外のデータを処理することを非構造化データ処理と呼び自然言語処理、画像処理、動画処理、音声処理などが挙げられます。

非構造化データはデータ処理が特に難しくなり各々特有の処理方法があります。

製造部門での使用頻度を考えると記述統計学や推測統計学、時系列分析を優先して学習した方が良いと思います。

オススメ書籍

・データビジュアライゼーションの教科書

"ビジネスで活用できる"可視化の考え方を分かりやすく解説しています。
データサイエンティストじゃない、Python使わない、そんな方でも絶対読んで欲しい書籍です。

データビジュアライゼーションの教科書
データビジュアライゼーションの教科書

www.amazon.co.jp

・データ可視化学入門

あらゆるデータに対する可視化の方法が網羅的に解説されています。
更に、可視化する指標を何にするか?といった前段の部分から深堀されており、データを見ることに特化した非常に分かりやすい書籍です。

指標・特徴量の設計から始める データ可視化学入門 データを洞察につなげる技術
指標・特徴量の設計から始める データ可視化学入門 データを洞察につなげる技術

www.amazon.co.jp

・Microsoft Power BI入門

もしExcel以外のソフトで可視化しダッシュボードを作りたい場合はMicrosoftのPower BIがオススメです。
中でも「Microsoft Power BI入門」は初学者向けに操作方法以前の基本情報から解説してくれます。

Microsoft Power BI入門 BI使いになる! Excel脳からの脱却
Microsoft Power BI入門 BI使いになる! Excel脳からの脱却

www.amazon.co.jp

まとめ

今回はデータサイエンティストに求められるデータサイエンス力について解説しました。

残り2つのスキルについては以下で解説しています。

データサイエンティストに求められるスキル全体については以下で解説しています。

-データ分析

//