データ構造について | 奈波輝磨の業務日誌

この文章は一部、ChatGPTによって生成されました。

Contents

プログラミングにおけるデータ構造とは？
線形データ構造
非線形データ構造
ファイル構造

プログラミングにおけるデータ構造とは？

データ構造とは、データを効率的に操作するために、データの表現とその操作方法を定義したものです。データ構造は、プログラミングにおいて非常に重要な役割を果たします。

一般的に、データ構造は以下のように分類されます。

線形データ構造：要素を1列に並べた構造で、単純なデータ構造であり、一方向または双方向のリストとして実装されることがあります。代表的な例として、配列、スタック、キュー、リンクドリストがあります。
非線形データ構造：要素が複数の方向に接続された構造で、ツリーやグラフの形で表現されます。代表的な例として、二分木、ハッシュテーブル、グラフがあります。
ファイル構造：データをファイルに保存する方法を定義した構造です。代表的な例として、シーケンシャルファイル、インデックスファイル、ツリーファイルがあります。

これらのデータ構造を理解することで、プログラミングの効率性が向上し、より高度なアルゴリズムを実装することができるようになります。

線形データ構造

線形データ構造とは、データを一列に並べたもので、データの前後関係が一定の順序で決まっている構造です。

配列

配列は、複数の同じ種類のデータを、一定の順序で格納するデータ構造です。

Pythonでは、リストと呼ばれており、インデックスと呼ばれる番号を使って、格納されているデータにアクセスします。インデックスは0から始まります。また、配列の長さは最初に指定する必要があります。

Pythonには配列という概念がない。Pythonには、リストを使って配列のような機能を実現することができるうえ、リストは動的なサイズ変更が可能で、要素の型も異なる場合があります。

一方、配列は静的なサイズと同じ型の要素を持ち、一度作成されるとサイズを変更することはできません。

ただし、NumPyライブラリを使用することで、Pythonで配列を扱うこともできます。

fruits = ["apple", "banana", "cherry"]

1	fruits = ["apple", "banana", "cherry"]

この場合、fruits[0]は”apple”、fruits[1]は”バナナ”、fruits[2]は”cherry”になります。

スタック

スタックは、LIFO(Last In First Out)と呼ばれる処理方式を持つデータ構造で、最後に入れたデータが最初に取り出されます。

例えば、本棚に本を積み重ねていく場合、最後に積み上げた本を最初に取り出すことができます。

スタックは、プログラムの実行時に使われることが多いため、プログラミングの分野では重要なデータ構造の1つとされています。

スタックは、通常以下の操作が可能です。

push:スタックにデータを追加する。
pop:スタックからデータを取り出す。
top(またはpeek):スタックの一番上のデータを取得する。
empty:スタックが空かどうかを判定する。

スタックは、実装方法によって様々な種類がありますが、配列やリンクドリストを用いた実装方法が一般的です。

キュー

キューは、FIFO(First In First Out)と呼ばれる処理方式を持つデータ構造で、最初に入れたデータが最初に取り出されます。

例えば、列に並んでいる人々の順番を考えると、先に列に入った人から順に先に処理がされます。

キューも、プログラムの実行時に使われることが多いため、プログラミングの分野では重要なデータ構造の1つとされています。

キューは、通常以下の操作が可能です。

enqueue:キューにデータを追加する。
dequeue:キューからデータを取り出す。
front:キューの先頭のデータを取得する。
rear:キューの末尾のデータを取得する。
empty:キューが空かどうかを判定する。

キューも、実装方法によって様々な種類がありますが、配列やリンクドリストを用いた実装方法が一般的です。

非線形データ構造

木構造とは

木構造とは、データを階層的に構造化するためのデータ構造です。名前の通り木をイメージした構造で、根(root)から出発して枝(branch)が伸び、末端に葉(leaf)があるという形状をしています。木構造において、各ノードは一つの親(親)を持ち、複数の子(子供)を持つことができます。

木構造は、再帰的に定義されます。あるノードに対して、その子ノードを再帰的に定義することができるということです。木構造の特徴として、根ノードから葉ノードへの唯一の経路が存在することが挙げられます。そのため、階層的にデータを管理するのに適したデータ構造です。

二分木

二分木は、各ノードが最大で2つの子ノードを持つ木構造です。二分木には、次のような特徴があります。

各ノードは、最大で2つの子ノードを持つ
左の子ノードは、そのノードより小さい値を持つ
右の子ノードは、そのノードより大きい値を持つ

二分木は、探索に特化したデータ構造としてよく使われます。ある要素を探す場合には、その要素と比較して、左の子ノードか右の子ノードかを選択して、再帰的に探索することで、目的の要素を効率的に探すことができます。

          1
        /   \
       2     3
      / \   / \
     4   5 6   7

/ \

2 3

/ \ / \

4 5 6 7

二分探索木

二分探索木は、左側の部分木は根より小さな値を持ち、右側の部分木は根より大きな値を持つ二分木のことです。以下は、二分探索木の例です。

        8
      /   \
     3     10
   /  \      \
  1    6     14
      / \   /
     4   7 13

/ \

3 10

/ \ \

1 6 14

/ \ /

4 7 13

上記の例では、数字がノードの値を表し、枝が親子関係を表します。この二分探索木において、ある値を探索する場合、根ノードから始め、探索値が現在のノードの値よりも小さい場合は左側の部分木、大きい場合は右側の部分木を探索していきます。

たとえば、値6を探索する場合、根ノード8からスタートし、6は8より小さいので、左側の部分木を探索します。そして、ノード3を訪れ、6は3より大きいので、右側の部分木を探索します。最後に、ノード6を訪れることで、探索が完了します。

また、二分探索木に要素を追加する場合、探索値を挿入する場所を探索し、空いている場所に新たなノードを追加します。二分探索木では、挿入された要素は常にソートされた状態を保つため、探索や並べ替えに効率的に利用できます。

       8
      / \
     3   10
    / \    \
   1   6    14
      / \   /
     4   7 13
              \
               20

/ \

3 10

/ \ \

1 6 14

/ \ /

4 7 13

上記の例では、20が追加されています。

グラフ

グラフとは、点（頂点）と点をつなぐ線（辺）を使って、物事の関係性を表現するためのデータ構造です。グラフは、ネットワーク構造、網目構造とも呼ばれます。グラフは多数の分野で用いられ、例えば、コンピュータネットワーク、交通ネットワーク、ソーシャルネットワーク、電子回路設計、組合せ最適化などに利用されます。

グラフには大きく分けて2種類あります。

無向グラフ
有向グラフ

無向グラフは、辺に方向性がなく、頂点間に双方向の関係があるグラフです。例えば、友達関係や道路網などが無向グラフの例です。

有向グラフは、辺に方向性があり、ある頂点から別の頂点への一方通行の関係があるグラフです。例えば、SNS上でフォロー関係や、電力網の送電線などが有向グラフの例です。

また、グラフは以下のような性質を持っています。

頂点(Vertex):グラフ内の各要素
辺(Edge):頂点同士を結ぶ線
パス(Path):頂点をたどる経路
サイクル(Cycle):パスの始点と終点が同じ経路
隣接(隣接):頂点と頂点のつながり
次数(Degree):頂点につながっている辺の本数
連結(Connected):グラフ内の任意の2頂点に対して、1つ以上のパスが存在する状態
木(Tree):連結で閉路のないグラフ
強連結(Strong Connected):有向グラフにおいて、任意の2頂点間において、往復のパスが存在する状態
トポロジカルソート(Topological Sort):有向グラフにおいて、辺の向きを守りつつ頂点を順序付けする方法

   1 ---- 2 ---- 5
   |      |      |
   |      |      |
   3 ---- 4      6
                / \
               7   8

1 ---- 2 ---- 5

| | |

3 ---- 4 6

/ \

7 8

有向グラフのAA

1 -> 2

^ |

| v

4 <- 3

このグラフでは、頂点の集合は {1, 2, 3, 4} であり、有向辺は (1,2)、(2,3)、(3,4)、(4,1) の4本です。また、頂点 1 に対して入次数は 1、出次数は 1 であり、入次数が 2 の頂点は存在しません。

このように、有向グラフの場合は頂点間の接続関係に向きがあるため、アスキーアートでも矢印を使って表現することができます。

無向グラフのAA

無向グラフのアスキーアートは、有向グラフのアスキーアートと違い、エッジが両方向に結ばれているため、矢印の向きがありません。以下は無向グラフのアスキーアートの例です。

       A
      / \
     B---C
        / \
       D---E

/ \

B---C

/ \

D---E

この例では、頂点A、B、C、D、Eがあり、AからB、AからC、BからC、CからD、CからE、DからEにエッジがあります。この無向グラフを隣接リストで表現すると、以下のようになります。

{
  'A': ['B', 'C'],
  'B': ['A', 'C'],
  'C': ['A', 'B', 'D', 'E'],
  'D': ['C', 'E'],
  'E': ['C', 'D']
}

{

'A': ['B', 'C'],

'B': ['A', 'C'],

'C': ['A', 'B', 'D', 'E'],

'D': ['C', 'E'],

'E': ['C', 'D']

}

このように、各頂点が隣接する頂点をリストで表現することで、無向グラフを表現することができます。

グラフの表現方法には隣接行列と隣接リストの2つがあり、それぞれに特徴があります。

隣接行列は疎なグラフ(辺の数が比較的少ない)に向いている一方、隣接リストは密なグラフ(辺の数が多い)に向いています。

どちらの表現方法を使うかはグラフの性質やアルゴリズムによって異なります。

隣接行列とは？

隣接行列とは、グラフを表現するための行列で、各要素に対して、その頂点同士が隣接しているかどうかを表します。

正確には、グラフの頂点間のつながりを表現する行列が隣接行列です。各頂点が行列の行と列に対応し、行列の要素は頂点間のエッジの有無を表します。

例えば、5つの頂点を持つグラフがある場合、頂点1から頂点5へ向かう辺がある場合には、行列の(1, 5)と(5, 1)の要素に1を記録します。つまり、隣接している場合には1を、隣接していない場合には0を記録します。

以下は、頂点1から頂点5へ向かう辺がある場合の隣接行列の例です。

    1  2  3  4  5
  ---------------
1 | 0  0  0  0  1
2 | 0  0  0  0  0
3 | 0  0  0  0  0
4 | 0  0  0  0  0
5 | 1  0  0  0  0

1 2 3 4 5

---------------

1 | 0 0 0 0 1

2 | 0 0 0 0 0

3 | 0 0 0 0 0

4 | 0 0 0 0 0

5 | 1 0 0 0 0

このように、行列の各要素に対して、その頂点同士が隣接しているかどうかを表現することができます。

ただし、この方法では頂点数が非常に大きいグラフに対しては、空間的にも計算量的にも非常に大きなコストがかかるため、適切に選択する必要があります。

隣接リストとは？

隣接リストは、各頂点が隣接する頂点をリスト形式で管理する方法です。

例えば、以下のような無向グラフがあるとします。

  1 -- 2 -- 3
  |         |
  4         5

1 -- 2 -- 3

| |

4 5

このグラフの隣接リストを作る場合、頂点 1 に隣接する頂点は 2 と 4 なので、1 に対応するリストに [2, 4] を格納します。同様に、頂点 2 に隣接する頂点は 1, 3, 5 なので、2 に対応するリストに [1, 3, 5] を格納します。

このように、隣接リストは各頂点が隣接する頂点をリスト形式で保持するため、グラフの密度が低い場合には隣接行列よりもメモリ使用量が少なく済む場合があります。

# 無向グラフの隣接リストを辞書型で表現する
graph = {
    1: [2, 4],
    2: [1, 3, 5],
    3: [2, 5],
    4: [1],
    5: [2, 3]
}

# 無向グラフの隣接リストを辞書型で表現する

graph = {

1: [2, 4],

2: [1, 3, 5],

3: [2, 5],

4: [1],

5: [2, 3]

}

このように、キーが頂点番号、値が隣接する頂点のリストとなるように辞書型にデータを格納することができます。

ハッシュテーブル

ハッシュテーブルは非線形データ構造の1つで、キーと値のペアを保存するデータ構造で、キーに対して高速に値を取り出すことができます。

まず、キーをハッシュ関数に入力します。ハッシュ関数は、キーから一定の長さの値（ハッシュ値）を生成する関数で、一意である必要があります。

このハッシュ値を配列のインデックスとして使用し、値を配列の要素に格納します。このようにして、キーに対応する値を配列からO(1)で取得することができます。

しかし、ハッシュ関数によって生成されるハッシュ値は一意であるとは限らず、別のキーが同じハッシュ値を生成することがあります。

これを衝突と呼びます。この問題を解決するために、一般的には配列の各要素に対してリストを持ち、同じハッシュ値を持つ複数のキーと値をリストに格納することがあります。

以下に、ハッシュテーブルのアスキーアートを示します。

   +---------+          +---------+          +---------+
   |  Key 1  |          |  Key 2  |          |  Key 3  |
   +---------+          +---------+          +---------+
         |                    |                    |
         v                    v                    v
      +-----+              +-----+              +-----+
      | Val |              | Val |              | Val |
      +-----+              +-----+              +-----+

+---------+ +---------+ +---------+

| Key 1 | | Key 2 | | Key 3 |

+---------+ +---------+ +---------+

| | |

v v v

+-----+ +-----+ +-----+

| Val | | Val | | Val |

+-----+ +-----+ +-----+

この例では、ハッシュテーブルには3つのキーと値のペアがあります。それぞれのキーは、ハッシュ関数によって生成されたハッシュ値に基づいて配列のインデックスに配置されます。ハッシュ値が同じ場合は、リスト内に格納されます。そして、各要素は、キーと値のペアを含むことができます。

また、ハッシュテーブルは、データの追加、削除、検索がO(1)で実行できるという利点があります。しかし、ハッシュ関数が不十分であった場合、衝突が発生し、性能が低下することがあります。

ファイル構造

ファイル構造とは、コンピュータ上のファイルをどのように扱うかを定めた構造のことを指します。ファイルをどのように保存し、どのようにアクセスするかについてのルールやアルゴリズムが含まれます。ファイル構造は、データの永続性を保証するために非常に重要であり、多くのファイルシステムやデータベースシステムが構築されています。

シーケンシャルファイル：データを1つの順序に従って保存するファイル構造です。新しいデータを追加する際には、ファイルの最後尾に追加することになります。また、データの削除や検索を行う場合には、全データを順に走査する必要があります。
インデックスファイル：データを検索しやすくするために、インデックスと呼ばれる別のデータを用いて、データの位置を示すファイル構造です。インデックスは通常、キーとポインタのペアとして構成されます。キーはデータを検索するための情報であり、ポインタは実際のデータの位置を示します。インデックスを使用することで、データの検索が高速化されます。
ツリーファイル：データをツリーと呼ばれる構造で保存するファイル構造です。ツリーは、根(root)、枝(branch)、葉(leaf)の3つの要素から構成されます。根は1つで、それ以外の要素は枝と葉に分かれています。葉には実際のデータが格納され、枝には葉を結ぶためのポインタが格納されます。ツリーファイルは、データの追加、削除、検索が高速に行えるという特徴があります。代表的なツリーファイルには、B木やB+木があります。

シーケンシャルファイル

シーケンシャルファイルはデータを順番に並べて保存するファイル構造です。以下のような例を考えます。ここでは、学生の成績データをシーケンシャルファイルに保存することを考えます。

ID    名前   数学  英語  国語
001  山田太郎   80    70    90
002  田中花子   70    80    75
003  鈴木一郎   90    75    85
004  佐藤美和   85    90    80

ID 名前数学英語国語

001 山田太郎 80 70 90

002 田中花子 70 80 75

003 鈴木一郎 90 75 85

004 佐藤美和 85 90 80

このデータをシーケンシャルファイルに保存する場合、以下のように順番に並べて保存します。

001,山田太郎,80,70,90
002,田中花子,70,80,75
003,鈴木一郎,90,75,85
004,佐藤美和,85,90,80

001,山田太郎,80,70,90

002,田中花子,70,80,75

003,鈴木一郎,90,75,85

004,佐藤美和,85,90,80

このように、一列に並べて保存されます。これを読み込む場合には、先頭から順番に読み込んでいきます。

シーケンシャルファイルは、データの追加や削除が簡単にできる反面、データの検索や更新が遅いという欠点があります。データを探す場合には、順番に全てのデータを読み込み、目的のデータを探す必要があるためです。

インデックスファイル

インデックスファイルは、ファイル内のレコードを高速に検索するために、レコードのキーとそのレコードの物理的な位置をインデックスとして保持したファイルです。

例えば、ある商品のデータを保持するファイルがあるとします。そのファイルには商品の名前、価格、在庫数などの情報が書かれていますが、商品名をキーとして使って検索を行う場合、ファイル内を一つ一つ探していくと時間がかかってしまいます。そこで、商品名とそのレコードの位置を対応付けたインデックスファイルを作成し、そのインデックスファイルを使って検索を行うことで高速に目的の商品を見つけることができます。

以下は、インデックスファイルの例です。

+------------------------+
| 商品名 | レコード位置 |
+------------------------+
| あいう |     1      |
+------------------------+
| かきく |     5      |
+------------------------+
| さしす |     8      |
+------------------------+
| たちつ |     10     |
+------------------------+

+------------------------+

| 商品名 | レコード位置 |

+------------------------+

| あいう | 1 |

+------------------------+

| かきく | 5 |

+------------------------+

| さしす | 8 |

+------------------------+

| たちつ | 10 |

+------------------------+

このように、商品名とレコードの位置を対応付けたテーブルがインデックスファイルとなります。このインデックスファイルを使って、商品名が「かきく」である商品を探す場合、インデックスファイルからレコード位置を取得し、その位置にあるレコードを読み込むことで検索が行われます。

インデックスファイルには、B-treeやハッシュテーブルなどの構造を使って高速な検索を実現する方法があります。

ツリーファイル

ツリーファイルは、ディスク上のデータをツリー構造で表現する方法です。ツリー構造は、木構造を基にしており、根（ルート）から葉に向かって分岐する構造を持っています。ツリーファイルでは、根にあたるディレクトリから始まり、各ディレクトリが分岐するたびに新しいノードが追加されます。

例えば、次のようなファイル構造があるとします。

root
├── documents
│   ├── report1.txt
│   ├── report2.txt
│   └── report3.txt
├── images
│   ├── photo1.jpg
│   └── photo2.jpg
└── music
    ├── song1.mp3
    ├── song2.mp3
    └── song3.mp3

root

├── documents

│ ├── report1.txt

│ ├── report2.txt

│ └── report3.txt

├── images

│ ├── photo1.jpg

│ └── photo2.jpg

└── music

├── song1.mp3

├── song2.mp3

└── song3.mp3

このファイル構造をツリーファイルで表現すると、次のようになります。

root
├── documents
│   ├── report1.txt
│   ├── report2.txt
│   └── report3.txt
├── images
│   ├── photo1.jpg
│   └── photo2.jpg
└── music
    ├── song1.mp3
    ├── song2.mp3
    └── song3.mp3

root

├── documents

│ ├── report1.txt

│ ├── report2.txt

│ └── report3.txt

├── images

│ ├── photo1.jpg

│ └── photo2.jpg

└── music

├── song1.mp3

├── song2.mp3

└── song3.mp3

このように、ツリーファイルでは、各ノードがディレクトリを表し、子ノードがそのディレクトリに含まれるファイルやサブディレクトリを表します。ツリー構造の特徴を利用することで、ファイルやディレクトリを効率的に検索したり、追加したり、削除したりすることができます。

プログラミングにおけるデータ構造とは？

線形データ構造

配列

リスト

スタック

キュー

非線形データ構造

木構造とは

二分木

二分探索木

グラフ

有向グラフのAA

無向グラフのAA

隣接行列とは？

隣接リストとは？

ハッシュテーブル

ファイル構造

シーケンシャルファイル

インデックスファイル

ツリーファイル

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル