第101話　経営情報システム⑦　SQLは結構楽しかった - 自称週末ファーマーの国家試験受験記

少しだけＤＢの続きです。今回はＤＢ設計の考え方について始めます。
ＤＢを設計する場合の重要な考え方を、３層スキーマという。

　●３層スキーマ　→　外部・概念・内部

ＤＢを設計する際、外部スキーマ、内部スキーマ、概念スキーマという三つの階層に分けて設計を行うと、各スキーマで表現されるデータの独立性が維持できるので、帳票のスタイルに変更があった場合でも、それぞれの変化が他の階層に設計に影響を与えないという効果がある。
・外部スキーマとは、特定の利用者やアプリケーションソフトウエアで利用する観点から表現されるデータ構造。具体的にはデータの入力画面や印刷された帳票などで表現される。つまり、アウトプット側の発想だ。
・概念スキーマとは、ＤＢ化したいデータを、ＤＢＭＳのデータモデルに従って記述したもの。データを正規化した表の集まり。
・内部スキーマとは、データの物理的な格納方法を定義したもの。ファイル名や格納位置、領域サイズなどを指定する。インプット側。

　●外部スキーマ　→　ＯＵＴＰＵＴ
　●概念スキーマ　→　正規化された表の集まり
　●内部スキーマ　→　ＩＮＰＵＴ

このようにＤＢを構築するにあたり、３層スキーマと呼ばれる仕組みがある。このようにしておけばＤＢからデータを取り出す際、ルール化された指図方法をすることでアウトプットも正確になるし、データの修正が頻発しようともＤＢとして利用できるというわけだ。

次の話題。次はＳＱＬ。
ＳＱＬとは、Structured Query Language の略で、ＲＤＢ（リレーショナルデータベース）の作成や操作のための標準的な言語である。もともとはアメリカＩＢＭ社が開発したもので、国際的にはＩＳＯ、日本ではＪＩＳが制定している。
つまりは、ＤＢへ指図するときの専用言語、みたいなイメージだろうか。

１）　データベース言語
　ＤＢやテーブルなどの作成、削除、データの検索や更新などを行う言語。この代表格がＳＱＬである。
①データ定義言語（ＤＤＬ： Date Definition Language ）
　ＤＢの構造や容量、整合性、管理方法などの定義を行う。ＲＤＢでは、ＤＢやテーブルの編成、変更、削除、権原の設定を行う。
②データ操作言語（ＤＭＬ： Date Mainpulation Language )
　ＤＢを操作するための言語。ＤＢへのデータの登録、更新、削除、検索などの操作を行う。

　●ＳＱＬのＤＤＬ　→　CRAETE（生成）、ALTER（変更）、DROP（消去）
　●ＳＱＬのＤＭＬ　→　SELECT（参照）、UPDATE（更新）、INSERT（挿入）、DELETE（削除）

③ＳＥＬＥＣＴの基本書式

　●基本書式　→　ＳＥＬＥＣＴ＜列名＞　ＦＲＯＭ＜表名＞　ＷＨＥＲＥ＜条件式＞

ちなみに、【ＳＥＬＥＣＴ】は射影で、どの列を指定するのかを示し、【ＷＨＥＲＥ】は選択で、どの行を指定知るのかを示す。

たとえば、「社員表」という表に社員コードと所属コードと年齢が、「部署表」という表に所属コードと所属名が書かれた表があるとする。

１）社員表から社員名を抽出する場合のＳＥＬＥＣＴ文は
　ＳＥＬＥＣＴ　社員名　ＦＲＯＭ　社員表

２）社員表から社員名と所属コードを抽出するＳＥＬＥＣＴ文は
　ＳＥＬＥＣＴ　社員名，所属コード　ＦＲＯＭ　社員表
　※複数の列がある場合には「，」で区切る

３）社員表から全ての行、列を抽出する場合
　ＳＥＬＥＣＴ　＊　ＦＲＯＭ　社員表

４）社員表から、所属コードが14のデータを抽出する場合
　ＳＥＬＥＣＴ　＊　ＦＲＯＭ　社員表　ＷＨＥＲＥ　所属コード＝14

５）社員表から、年齢が30以上の社員名と年齢を抽出する場合
　ＳＥＬＥＣＴ　社員名，年齢　ＦＲＯＭ　社員表　ＷＨＥＲＥ　年齢＞＝30

６）社員表から、年齢が30以上でかつ所属コードが14であるデータを抽出する場合
　ＳＥＬＥＣＴ　＊　ＦＲＯＭ　社員表　ＷＨＥＲＥ　年齢＞＝30　ＡＮＤ　所属コード＝14

７）　社員表から年齢が20以上30以下のデータを抽出する場合
　ＳＥＬＥＣＴ　＊　ＦＲＯＭ　社員表　ＷＨＥＲＥ　年齢　ＢＥＴＷＥＥＮ　20　ＡＮＤ　30
　※「ＢＥＴＷＥＥＮ」は、～以上～以下の意

８）社員表から社員名の１文字目が“田”で始まるデータを抽出する場合
　ＳＥＬＥＣＴ　＊　ＦＲＯＭ　社員表　ＷＨＥＲＥ　社員名　ＬＩＫＥ’田％’

９）社員表と部署表から、所属コードが12の社員名と所属名を抽出する場合
　ＳＥＬＥＣＴ　社員表．社員名，部署表．所属名　ＦＲＯＭ　社員表，部署表
　ＷＨＥＲＥ　社員表．所属コード＝部署表．所属コード
　ＡＮＤ　社員表．所属コード＝12

具体的な社員表と部署表とがあればもっと分かりやすかったかもね。
ちなみに、ＷＨＥＲＥ句で指定できる抽出条件はいろいろありまして、
「＝」であれば、等しいデータだし、「条件１　ＡＮＤ　条件２」なら条件１と条件２をともに満たすデータだし。文章に表現しにくいからすべてを載せることはしないけれど、なかなかパズルみたいで楽しかった。
なお、「ＢＥＴＷＥＥＮ　値　ＡＮＤ　値」は、例えば、「ＢＥＴＷＥＥＮ　20　ＡＮＤ　30」なら「20以上30以下」を表すが、これは、「ＷＨＥＲＥ　Ａ＞＝20　ＡＮＤ　Ａ＜＝30」と書いても同じ列を抽出することになる。

④グループ化
　グループ化したい場合には「ＧＲＯＵＰ　ＢＹ」句を指定する。たとえば、先ほどの社員表と部署表を用いるなら、例えば、所属コードでグループ化しつつ、グループ化した中で平均年齢を抽出することも可能だ。この場合は集合関数と呼ばれるものをＳＥＬＥＣＴにぶっこんであげるとよい。

１０）社員表から所属コードでグループ化し、グループ内の平均年齢を抽出する場合
　ＳＥＬＥＣＴ　所属コード，ＡＶＧ（年齢）　ＦＲＯＭ　社員表　ＧＲＯＵＰ　ＢＹ　所属コード
　※このときの「ＡＶＧ」が集合関数で平均値を求めるもの。（年齢）は何の平均を求めるのかを明示する

なお、グループ化を行う場合には、ＳＥＬＥＣＴに指定する列名は必ず「グループ化されている列名」でなければならない。
つまり、ＧＲＯＵＰ　ＢＹ句で指定した列名をＳＥＬＥＣＴでも指定してあげることが必要だということだ。

　●ＧＲＯＵＰ　ＢＹ句　→　ＳＥＬＥＣＴで指定した列名とＧＲＯＰ　ＢＹで指定する列名は同じ

⑤ＨＡＶＩＮＧ
　ＧＲＯＵＰ　ＢＹ句はグループ化を、ＨＡＶＩＮＧ句はグループ化したものに対する選択を意味する。だからＨＡＶＩＮＧ句は単独で使われることがなく、当然に、ＧＲＯＵＰ　ＢＹ句とセットで使われることになる。

１１）社員表から所属コードでグループ化して件数が１件を超える所属コードおよび平均年齢を抽出・算出する場合
　ＳＥＬＥＣＴ　所属コード，ＡＶＧ（年齢）　ＦＲＯＭ　社員表　ＧＲＯＵＰ　ＢＹ　所属コード　ＨＡＶＩＮＧ　ＣＯＵＮＴ（＊）＞1
　※「ＣＯＵＮＴ」も集合関数であり、行数を数えろという意味

⑥ＯＲＤＥＲ　ＢＹ
　ＲＤＢにおける表は「行」の集合体であり、各行がどのような順序で抽出されているかは全く保証されていない。ってか、そもそもそんな概念がない。
「行」はヨコであり、行の集合によって「列（タテ）」が出来るのだが、この「ＯＲＤＥＲ　ＢＹ」句を使用することで、昇順・降順に並び替えることが出来る。

　●ＯＲＤＥＲ　ＢＹ句の基本構文　→　ＯＲＤＥＲ　ＢＹ＜列名＞　[ＡＳＣまたはＤＥＳＣ]
※ＡＳＣは昇順、ＤＥＳＣは降順を表し、省略されている倍にはＡＳＣが指定されたとみなされる

１２）社員表の年齢を降順で並び替え、社員表から社員名と年齢を抽出する場合
　ＳＥＬＥＣＴ　社員名，年齢　ＦＲＯＭ　社員表　ＯＲＤＥＲ　ＢＹ　年齢　ＤＥＳＣ

実際の本試験ではつぎのような問題が出題されたことがある。

Ｈ２３改題
下表（省略）は、2011年1月30日から同年2月20日までの販売履歴表である。この表に対して次のＳＱＬ文を実行した場合、どのような結果を得るか。

　　ＳＥＬＥＣＴ　担当者コード，製品名，ＳＵＭ（個数）
　　ＦＲＯＭ　販売履歴表
　　ＧＲＯＵＰ　ＢＹ　担当者コード，製品名
　　ＨＡＶＩＮＧ　ＳＵＭ（個数）＞＝3

実際の問題は、抽出された正しい表を選択させる問題だったと思う。

先の本試験でも出題されたがちゃんと得点できた。
続く。