Algorithm/이것이 코딩테스트다

[Algorithm] 05. DFS/BFS : 자료구조

Gaeun Lee 2022. 9. 5. 07:56

탐색 : 많은 양의 데이터 중에서 원하는 데이터를 찾는 과정

ㄴ 대표적인 탐색 알고리즘: DFS & BFS

자료구조 : 데이터를 표현하고 관리하고 처리하기 위한 구조

스택과 큐 : 자료구조의 기초 개념

ㅤ> 삽입 (Push) & 삭제 (Pop)을 핵심으로 하여 구성됨

ㅤ> 오버플로 (특정한 자료구조가 수요할 수 있는 데이터의 크기를 이미 가득 찬 상태에서 삽입 연산을 수행할 때 발생) & 언더플로 (특정한 자료구조에 데이터가 전혀 들어 있지 않은 상태에서 삭제 연산을 수행)도 고민해야 함

 

스택

스택 = 박스 쌓기 = 아래에서부터 위로 쌓임 = 아래에 있는 박스를 치우기 위해서는 위에 있는 박스를 먼저 내려야 함 = 선입후출 구조 (First In Last Out) = 후입선출 구조 (Last in First Out)

파이썬에서 스택을 이용할 때 기본 리스트에 append()와 pop() 메소드를 이용하면 됨

 

= 대기줄 = 놀이공원에 입장하기 위해 줄을 섨 때 먼저 온 사람이 먼저 들어가게 됨 = 선입선출 구조 = 공정한 자료구조

파이썬으로 큐를 구현할 때는 collections 모듈에서 제공하는 deque 자료구조를 활용함

 

deque

스택과 큐의 장점을 모두 채택한 것인데 데이터를 넣고 빼는 속도가 리스트 자료형에 비해 효율적이며 queue 라이브러리르르 이용하는 것보다 더 간단함

대부분의 코딩 테스트에서는 collections 모듈과 같은 기본 라이블리 사용을 허용하므로 안심하고 사용해도 괜찮음

deque 객체를 리스트 자료형으로 변경하고자 한다면 list() 메서드 이용하면 됨

from collections import deque

queue = deque()

queue.append(5)
queue.append(2)
queue.append(7)
print(queue) # deque([5, 2, 7])

queue.popleft()
print(queue) # deque([2, 7])

queue.append(8)
print(queue) # deque([2, 7, 8])

queue.popleft()
print(queue) # deque([7, 8])

queue.reverse()
print(queue) # deque([8, 7])

 

재귀 함수

DFS / BFS 를 구현하기 위해 사용

자기 자신을 다시 호출하는 함수를 의미

def recursive_function():
    print('재귀함수를 호출합니다.')
    recursive_function()

recursive_function()

 

위를 실행하면 아래와 같은 결과가 나온다

마지막에 RecursionError: maximum recursion depth exceeded while calling a Python object 오류 메시지는 재귀의 최대 깊이를 초과하였음을 의미한다 파이썬 인터프리터 호출 횟수 한계를 벗어났기 때문이다

 

재귀함수의 종료 조건

재귀함수를 문제 풀이에서 사용할 때는 재귀 함수가 언제 끝날지, 종료 조건을 꼭 명시해야 한다

def recursive_function(i):
    # 100번째 출력했을 때 종료되도록 종료 조건 명시
    if i == 100:
        return
    print(f'{i}번째 재귀함수에서 {i+1}번째 재귀함수를 호출합니다')
    recursive_function(i+1) # 여기에서 100개의 함수 차례대로 호출
    print(f'{i}번째 재귀함수를 종료합니다') # 그리고 재귀함수 선입후출로 종료됨

recursive_function(1)

컴퓨터 내부에서 재귀함수의 수행은 스택 자료구조를 이용함 < 함수를 계속호출햇을 때 가장 마지막에 호출한 함수가 먼저 수행을 끝내야 그 앞의 함수 호출이 종료되기 때문임

 

팩토리얼 예제

def factorial_iterative(n): # 반복문
    result = 1
    # 1부터 n까지의 수를 차례대로 곱하기
    for i in range(1, n+1):
        result *= i
    return result

def factorial_recursive(n): # 재귀함수
    if n <= 1 :
        return 1    
    return n * factorial_recursive(n-1)

print('반복적으로 구현:', factorial_iterative(5)) # 120 출력
print('재귀적으로 구현:', factorial_recursive(5)) # 120 출력

팩토리얼을 구현하였을 때 반복문과 재귀함수 모두 동일한 결과를 나타냄

재귀함수를 사용하였을 때의 장점

1. 코드를 비교하였을 때 재귀함수 코드가 더 간결함

>> 그 이유는 재귀함수가 수학의 점화식(재귀식)을 그대로 소스코드로 옮겼기 때문

>> 수학에서 점화식은 특정한 함수를 자신보다 더 작은 변수에 대한 함수와의 관계로 표현한 것을 의미함

>> 위 개념은 다이나믹 프로그래밍으로 이어지기 떄문에 중요함

 

>> 팩토리얼을 수학적 점화식으로 표현해보면 다음과 같다

 n이 0 혹은 1일 때 : factorial(n) = 1
n이 1보다 클 때 : factorial(n) = n * factorial(n-1)

 

일반적으로 우리는 점화식에서 종료 조건을 찾을 수 있는 앞 예시에서 종료 조건은 ' n이 0 혹은 1일 때'임

따라서 재귀함수 내에서 특정 조건일 때 더 이상 재귀적으로 함수를 호출하지 않고 종료하도록 if문을 이용하여 꼭 종료 조건을 구현해주어야 한다

 

 

탐색 알고리즘 DFS / BFS

위 개념들은 DFS/BFS에서 가장 중요한 개념이라 DFS/BFS를 배우기에 앞서 간단하게 설명함

 

DFS

DFS (Depth-First Search / 깊이 우선 탐색) : 그래프에서 깊은 부분을 우선적으로 탐색하는 알고리즘

 

* DFS를 설명하기 전에 먼저 그래프의 기본 구조를 알아야 함

 

그래프 = 노드(정점)간선으로 표현됨

그래프 탐색 : 하나의 노드를 시작으로 다수의 노드를 방문하는 것

>> 두 노드가 간선으로 연결되어 있다 == 두 노드는 인접하다

 

< 프로그래밍에서의 그래프 표현 방식 >

1. 인접 행렬

2차원 배열로 그래프와 연결 관계를 표현하는 방식 / 2차원 배열에 각 노드가 연결된 형태로 기록하는 방식

연결된 그래프를 인접 행렬로 표현할 때 파이썬에는 2차원 리스트로 구현할 수 있음

연결이 되어 있지 않는 노드끼리는 무한의 비용이라고 작성

실제 코드에서는 논리적으로 정답이 될 수 없는 큰 값으로 초기화하는 경우가 많은데 이렇게 그래프를 인접 행렬 방식으로 처리할 때는 다음과 같이 데이터를 초기화함

INF = 999999 # 무한의 비용 선언

graph = [
    [0, 7, 5],
    [7, 0, INF],
    [5, INF, 0]
]

print(graph) # [[0, 7, 5], [7, 0, 999999], [5, 999999, 0]]

 

2. 인접 리스트 : 리스트로 그래프의 연결관계를 표현하는 방식 / 모든 노드에 연결된 노드에 대한 정보를 차례대로 연결하여 저장

인접리스트는 연결리스트라는 자료구조를 이용하여 구현

파이썬은 기본 자료형인 리스트 자료형이 append()와 메소드를 제공하므로 전통적인 프로그래밍 언어에서의 배열과 연결 리스트의 기능을 모두 기본으로 제공한다

파이썬은 인접 리스트를 이용하여 그래프를 표현하고자 할 때에도 단순히 2차원 리스트를 이용하면 된다는 점만 기억하면 됨

인접리스트 예제

# 행(Row)이 3개인 2차원 리스트로 인접 리스트 표현
graph = [[] for _ in range(3)]

# 노드 0에 연결된 노드 정보 저장 (노드,거리)
graph[0].append((1,7))
graph[0].append((2,5))

# 노드 1에 연결된 노드 정보 저장 (노드,거리)
graph[1].append((0,7))

# 노드 2에 연결된 노드 정보 저장 (노드,거리)
graph[2].append((0,5))

print(graph) 
# 결과 [[(1, 7), (2, 5)], [(0, 7)], [(0, 5)]]

 

인접행렬과 인접리스트의 차이: 메모리 측면 & 속도 측면

1. 메모리 측면

인접행렬 모든 관계를 저장하므로 노드 개수가 많을 수록 메모리가 불필요하게 낭비됨

인접리스트 연결된 정보만을 저장하기 때문에 메모리를 효율적으로 사용함 but 이러한 속성 때문에 인접 행렬 방식에 비해 특정한 노드가 연결되었는지에 대한 정보를 얻는 속도가 느림 ( 연결된 데이터를 하나씩 확인해야 하기 때문임)

> (예) 노드1과 노드7이 연결되어 있는지 확인

인접행렬 = graph[1][7]만 확인하면 됨

인접리스트 = 노드1에 대한 인접리스트를 앞에서부터 차례대로 확인해야 함 -> 특정한 노드와 연결된 모든 인접 노드를 순회해야 하는 경우, 인접리스트 방식이 인접행렬 방식에 비해 메모리 공간의 낭비가 적음

 

* 다시 본론으로 돌아가 DFS에 대해 알아보자

 

DFS 동작 방법

  • DFS는 깊이 우선 탐색 알고리즘
    • 특정한 경로로 탐색하다가 특정한 상황에서 최대한 깊숙이 들어가서 노드를 방문한 후, 다시 돌아가 다른 경로로 탐색하는 알고리즘
  • DFS는 스택 자료구조를 이용함
  • 구체적인 동작 과정
    1. 탐색 시작 노드를 스택에 삽입하고 방문 처리를 함
    2. 스택의 최상단에 노드에 방문하지 않은 인접 노드가 있으면 그 인접노드를 스택에 넣고 방문 처리를 함. 방문하지 않은 인접노드가 없으면 스택에서 최상단 노드를 꺼냄
    3. 2번의 과정을 더 이상 수행할 수 없을 때까지 반복함
  • 방문 처리는 스택에 한 번 삽입되어 처리된 노드가 다시 삽입되지 않게 체크하는 것을 의미함
  • 방문 처리를 함으로써 각 노드를 한 번씩만 처리할 수 있음

위 그래프에서 노드 1을 시작 노드로 설정하여 DFS를 이용해 탐색을 진행

직관적으로 생각 : 깊이 우선 탐색이므로 단순하게 가장 싶숙이 위치하는 노드에 닿을 때까지 확인 (탐색) 하면 됨

일반적으로 인접한 노드 중에서 방문하지 않은 노드가 여러 개 있으면 번호가 낮은 순서부터 처리

1 - 2 - 7 - 6 - 6 제거 - 8 - 8 제거 - 오른쪽 다 방문했으므로 차례대로 제거 - 7 제거 - 2 제거 - 1에 연결된 3 남아 있음 - 3 - 4 - 5 - 방문 완료했으므로 차례대로 제거 - 5 제거 - 4 제거 - 3 제거 - 1 제거

결과적으로 스택에 들어간 순서
1 - 2 - 7 - 6 - 8 - 3 - 4 - 5  

깊이 우선 탐색 알고리즘인 DFS는 스택 자료 구조에 기초한다는 점에서 구현이 간단함

실제로는 스택을 쓰지 않아도 되며 탐색을 수행함에 있어서 데이터의 개수가 N개인 경우 O(N)의 시간이 소요됨

DFS는 스택을 이용하는 알고리즘이기 때문에 실제 구현은 재귀함수를 이용했을 때 매우 간결하게 구현할 수 있음

DFS 예제

# DFS 메서드 정의
def dfs(graph, v, visited):
    # 현재 노드를 방문 처리
    visited[v] = True
    print(v, end = ' ')
    # 현재 노드와 연결된 다른 노드를 재귀적으로 방문
    for i in graph[v]:
        if not visited[i]:
            dfs(graph, i, visited)

# 각 노드가 연결된 정보를 리스트 자료형으로 표현 (2차원 리스트)
graph = [
    [],
    [2,3,8],
    [1,7],
    [1,4,5],
    [3,5],
    [3,4],
    [7],
    [2,6,8],
    [1,7]
]

# 각 노드가 방문된 정보룰 리스트 자료형으로 표현 (1차원 리스트)
visited = [False] * 9

#정의된 DFS 함수 호출
dfs(graph, 1, visited)

 

BFS

BFS (Breadth First Search): 너비 우선 탐색

  • 가까운 노드부터 탐색하는 알고리즘
  • cf. DFS는 최대한 멀리 있는 노드를 우선으로 탐색하지만 BFS는 반대임

BFS 구현

선입선출 방식, 자료 구조 이용

인접한 노드를 반복적으로 큐에 넣도록 알고리즘을 작성하면 자연스럽게 먼저 들어온 것이 먼저 나가게 되어, 가벼운 노드부터 탐색을 진행하게 됨

동작 방식

  1. 탐색 시작 노드를 큐에 삽입하고 방문 처리를 함
  2. 큐에서 노드를 꺼내 해당 노드의 인접 노드 중에서 방문하지 않은 노드를 모두 큐에 삽입하고 방문 처리를 함
  3. 2번의 과정을 더 이상 수행할 수 없을 때까지 반복함

(예)

먼저 1을 방문처리한다.

그리고 1을 큐에서 제거하고 1에 인접한 2, 3, 8을 삽입한다.

그리고 이 중 가장 숫자가 작은 2를 제거하고 2에 인접한 7을 삽입한다.

그 다음 3을 제거하고 3에 인접한 4, 5를 삽입한다.

그리고 8을 제거하는데 8에 인접한 것들이 모두 방문 처리가 됐으므로 넘어간다.

그 다음 7을 제거하고 7에 인접한 6을 삽입한다.

이제 모두 방문 처리가 됐으므로 남은 큐들을 삽입한 순서대로 제거한다.

결과적으로 들어가 순서 : 1 -> 2 -> 3 -> 8 -> 7 -> 4 -> 5 -> 6

 

너비우선 탐색 알고리즘인 BFS는 큐 자료구조에 기초한다는 점에서 구현이 간단함

  • 실제로 구현함에 있어 deque 라이브러를 사용하는 것이 가장 좋음
  • 탐색을 수행함에 있어 O(N)의 시간이 소요됨
  • 일반적이 경우 실제 수행 시간이 DFS보다 좋은 편임

TIP : 

재귀함수로 DFS를 구현하면 컴퓨터 시스템의 동작 특성상 실제 프로그램의 수행시간은 느려질 수 있음.

따라서 스택 라이브러리를 이용해 시간 복잡도를 완화하는 테크닉이 필요할 때도 있음

코딩 테스트에서는 보통 DFS보다는 BFS 구현이 조금 더 빠르게 동작함

BFS 예제

from collections import deque

#BFS 메서드 정의
def bfs(graph, start, visited):
    # 큐(Queue) 구현을 위해 deque 라이브러리 사용
    queue = deque([start])
    # 현재 노드를 방문 처리
    visited[start] = True
    # 큐가 빌 때까지 반복
    while queue:
        # 큐에서 하나의 원소를 뽑아 출력
        v = queue.popleft()
        print(v, end=' ')
        #해당 원소와 연결된, 아직 방문하지 않은 원소들을 큐에 삽입
        for i in graph[v]:
            if not visited[i]:
                queue.append(i)
                visited[i] = True
graph = [
    [],
    [2,3,8],
    [1,7],
    [1,4,5],
    [3,5],
    [3,4],
    [7],
    [2,6,8],
    [1,7]
]

# 각 노드가 방문된 정보를 리스트 자료형으로 표현 (1차원 리스트)
visited = [False] * 9

# 정의된 BFS 함수 호출
bfs(graph, 1, visited)

 

< DFS와 BFS 정리 >

  • 앞서 DFS와 BFS를 설명하는 데 전형적인 그래프 그림을 이용했는데 1차원 배열이나 2차원 배열 또한 그래프 형태로 생각하면 수월하게 문제를 풀 수 있음
    • 특히나 DFS와 BFS 문제 유형이 그러함
      • (예) 게임 맵이 3 x 3 형태의 2차원 배열이고 각 데이터를 좌표라고 생각했을 때 각 좌표를 상하좌우로만 이동할 수 있다면 아래와 같이 그래프의 형태로 바꿔서 생각할 수 있음
  • 코딩 테스트 중 2차원 배열에서의 탐색 문제를 만나면 이렇게 그래프 형태로 바꿔서 생각하면 풀이 방법을 조금 더 쉽게 떠올릴 수 있음
  • 그러므로 코딩테스트에서 탐색 문제를 보면 그래프 형태로 표현한 다음 풀이법을 고민하도록 하자!