第105話 経営情報システム⑨ データ分析
今回は、データ分析からはじめてみます。
DBに格納されているデータを活用するという観点から基本的な内容を学習する、とスピテキに書かれている。
データ分析で用いられている代表的なデータベースからいきましょう。
1.データウエアハウス(DWH)
企業内で日々蓄積された基幹系システムのデータを整備して意思決定に役立つ情報として活用できるようにしたDBシステム環境のこと。
DWHでは、企業の内外に存在するデータを格納するが、どんなデータを蓄積してどんな形式で蓄積するのかを統一して保有する。また、それらは時系列で蓄積されていくので過去に遡って分析することが可能である。
DWHでは、時系列でデータが蓄積されるので格納されているデータは不変で、新しいデータが次々に追加されていく。だから蓄積されたデータが更新されることはない。
●DWH → 蓄積されていくデータ群
2.データマート(DM)
DWHに蓄積されたデータは膨大。だからすべてのユーザがすべてのデータを必要としているわけではない。DMは利用目的を限定し、利用ユーザを限定した使い方をするもの。DWHから必要なデータのみを抽出して構築するもの。
●データマート(DM) → DWHから必要なデータを抽出
3.オペレーショナルデータストア(ODS)
基幹系システムのデータ(オペレーショナルデータ)を、検索など別の目的で利用するためにそこから抽出し、一時的にデータを保持するDBのこと。
基幹系システムでインプットされたデータはODSに保持される。データ検索する場合は、ODSにデータを探しにいく。ODSに蓄積されたデータの中から必要なデータのみをDWHに格納する。
●ODS → 基幹系システムとDWHの間に存在するDB
4.データマイニング
大容量のデータに隠された因果関係やパターンを探索したりモデル化するための手法。
●データマイニング → データから規則性や法則を発見する手法
5.OLAP(On-Line Analytical Processing)
多次元DB(RDBは2次元)の句陸地をさまざまに変え、データの集計を行う仕組み。
●OLAP → 仮説を検証するための手法
OLAPには次のような基本機能がある。
①ドリルダウン
データの要約レベルを1つずつ掘り下げて、より詳細なデータを表示していく機能。大から小に分析するイメージ。
②ドリルアップ
1つずつレベルを上げて、より大まかなデータを表示していく機能。小から大に分析。
③スライス(スライシング)
1つの次元を表の縦軸に固定して、他の次元を横軸にとり、集計表を作成する機能。
例えば、縦軸を「月別」という軸に固定して横軸を「商品別」「支社別」などに売上データを集計するといったことを行う機能。
④ダイス(ダイシング)
表のタテヨコの軸を事由に入れ替えて集計する機能。
6.データ資源管理
情報システムが利用するデータを一元管理することをいう。データ資源管理情報は、データディクショナリやリポジトリなどと呼ばれるDBに格納される。
データ資源の管理情報は、メタデータと呼ばれ、データの名称や形式などデータ定義に関する情報をいう。このメタデータの集まりを、データディクショナリとよぶ。
なお、リポジトリとは、システム開発の各工程での成果物を管理するものであり、データディクショナリは、データを管理するもの。
●リポジトリ → システム開発の各工程の成果物を管理するもの
7.ビッグデータ
今、話題のやつ(笑)
一般的には大量でかつリアルタイムに発生する構造化データおよび非構造化データを蓄積・処理・分析するための技術とされる。ビッグデータを用いて、先の参院選の議席を当てたというハナシが話題になった。
データの量や種類が増えるにつれてデータ分析が難しくなることから、ビッグデータから有益なパターンを見つけ出し、製品やサービスの改良をはかる人材(データサイエンティスト)の不足が課題になっている。
続いては、バックアップについて。
ファイルの障害に備えて、ファイルを別の媒体にコピーすることであるが、バックアップにはいくつかの種類がある。
①フルバックアップ
ファイル全体をコピーすること。
②差分バックアップ
フルバックアップとの差分をバックアップする。
③増分バックアップ
直前のバックアップとの差分、すなわち、直前のバックアップから増えた分をバックアップする。
なお、バックアップの取得にかかる時間が長いのは、「フル」→「差分」→「増分」。全部バックアップをとるのが「フルバックアップ」だから取得には時間がかかる。当たり前だ。
それに対して、復旧時間が長いのは、「増分」→「差分」→「フル」の順。都度増分を見つけ出しているから復旧に時間がかかる。バックアップ容量は少なくなるが、増分を探す手間がかかり、復旧の時間が長くなるということだ。
●取得時間が長い → 「フル」→「差分」→「増分」
●復旧時間が長い → 「増分」→「差分」→「フル」
次はログ管理。
ログとは、DBシステムが実行した更新履歴を記録するファイルであり、ジャーナルファイルとも呼ばれる。ログは、ログファイルに更新情報を書き込んでからDBの更新を行う。ログの書き出しはDBMSによって自動的に行われる。更新前ログと更新後ログの2種類がある。
システムの障害時に、DBの状態を矛盾のない最新の状態に復帰させる手段として、ロールフォワードとロールバックがある。
①ロールフォワード(前進復帰)
バックアップファイルで、DBを前回のバックアップ時点の状態に復旧してから、ログファイルの更新後情報を用いて、障害発生前に完了したトランザクションによって更新された分を更新する。
●ロールフォワード → 前回バックアップ時に戻す。更新後情報で更新分を復活
②ロールバック(後退復帰)
障害の発生時点で処理中だったトランザクションによる更新を、ログファイルの更新前情報を使って取り消し、DBを処理前の状態に戻す。
トランザクションの処理中に障害が発生しているから、まずは更新前情報を用いて、当該トランザクションの実行前に戻してやるイメージ。
●ロールバック → 更新前情報を用いて処理前の状態に戻す
ここまでデータベース関連をみてきました。いやいや、だんだんとみみっちくなってきますよ~。
初学のときは面白がってやっていたのだけれど、だんだんワケ分からなくなってきて嫌気が差してきたんですよね。ある程度の部分は日常や仕事に絡めた部分で理解が出来るのだけれど、テキスト以外の内容については全く意味不明な状態。だから60点ギリギリをめざそうと。
次回は、ネットワーク関連について概観します。
続く。