가상 면접 사례로 배우는 대규모 시스템 설계 기초 : 1장 사용자 수에 따른 규모 확장성키워드캐시, 메모리, 커널, NoSQL, 로드밸런서, 데이터베이스 다중화, 메세지큐, 고가용성
스터디 내용
운영체제
레지스터와 캐시와 램의 차이?
레지스터 : flip-flop(1bit)의 집합. 데이터와 명령어 저장. 최대 처리 용량은 CPU의 처리 용량을 따라간다.
캐시 : CPU 내부에 존재하는 저장공간. 명령어를 저장하는 공간과 데이터를 저장하는 공간 둘로 구분. 또는 레벨별로 구분(L1,L2...)
램 : CPU 외부에 존재하는 메모리, 버퍼의 역할(느린 저장장치를 보조), 여기까지가 주기억장치이고 휘발성.
커널의 정의 시스템의 모든 것을 제어한다. 특징으로 보안, 자원관리, 그리고 추상화를 담당하고 있다. 커널의 종류는 위키피디아를 참조.
Interface란?
사전적인 정의
전기 신호의 변환으로 중앙 처리 장치와 그 주변 장치를 서로 잇는 부분. 또는, 그 접속 장치.
키보드나 디스플레이 등등 사람과 컴퓨터를 연결하는 장치
소프트웨어끼리 접촉,공통되는 부분. 순화어는 '접속'
위키피디아
인터페이스, 또는 접속기는 서로 다른 두 개 이상의 독립된 컴퓨터 시스템 구성 요소 간에 정보를 교환하는 공유 경계(shared boundary)이다. 컴퓨터와 사용자 간의 통신이 가능하게 하는 장치나 프로그램을 의미하기도 한다.
Runtime Environment란? 컴퓨터가 실행되는 동안 프로세스나 프로그램을 위한 소프트웨어 서비스를 제공하는 가상 머신의 상태이다. 운영 체제 자체에 속하는 경우도 있고 운영 체제에서 작동하는 소프트웨어를 뜻할 수도 있다. => 프로그램을 실행시키기 위해 필요한 환경 혹은 상태
(심화) JAVA의 정체성, 인터프리터와 컴파일러
인터프리터의 정의 : 프로그래밍 언어의 소스 코드를 해석함과 동시에 실행시키는 프로그램 혹은 환경. OS종속적
컴파일러의 정의 : 순화어 해석기, 번역기, 특정 프로그래밍 언어로 쓰여 있는 문서를 다른 언어로 옮기는 언어 번역 프로그램. (위키피디아). 흔하게 프로그래밍 언어를 컴퓨터가 이해하기 쉽게 기계어로 바꾸는 행위도 컴파일에 해당.
자바는 인터프리터를 쓸까요, 컴파일러를 쓸까요?**
정답 : 둘 다.
설명 : .javac -> .class로 컴파일을 하고, class파일(byte코드)을 프로그램 실행 환경에 맞게 변환하면서 인터프리터를 사용한다.
장점 : .class로 컴파일하면서 보안을 지킬 수 있고, 인터프리터를 사용하면서 그게 리눅스가 되었던, 맥이 되었던, 윈도우가 되었던 프로그램을 실행시킬 수 있다.(물론, 외부 코드에 의존성이 없다고 가정하면)
단점 : 속도가 느리다
가상 면접 사례로 배우는 대규모 시스템 설계 기초
RDBMS에서 지켜야 할 4가지 요소는?
Atomicity, Consistency, Isolation, Durability
NoSQL의 종류는?
key-value : redis
graph : Neo4j
document store : MongGo DB
column store : Kassandra
NoSQL에서 key-value방식과 문서저장소, 컬럼저장소의 차이는?
문서저장소 : key-value 형식인데, 이제 이 value를 문서 타입으로 저장(json, xml 등의 표준들 또는 스키마가 정의된 구조가 존재하는 value)
Column store : Column store 그림 설명한 자료 row 내에 key(column)-value 데이터의 쌍이 있다고 생각하면 된다. 각 row는 key(column)의 수가 동일하지 않아도 된다. => 데이터 압축이 가능, 데이터 쓰는 데 용이
NoSQL의 각 종류별 유리한 상황
key-value : 데이터 캐싱, 이미지와 오디오 파일 등 비정형 데이터 저장
document store : 속성 단위로 객체가 관리될 때, value에 json과 같은 계층을 가진 schema를 사용할 때(key-value에서 좀 더 나아가서)
Column store : 데이터 수정 작업이 많을 때, 디스크의 I/O 속도를 올릴 때 사용. RDBMS보다 메모리 사용에 이점이 있다.
로드밸런서의 역할은?
트래픽을 다수의 서버에 분산시키는 장치이다.
트래픽의 균등 배분과 고가용성 담당
웹 서버 다중화와 연결된다.
Scale-out과는 다른 개념.
데이터베이스 다중화란? 샤딩이랑 같은 건가? 서버 여러대를 중복 구성해서 일부가 장애가 되었을 때 시스템의 가용성을 유지하는 방법. 샤딩은 데이터 덩어리를 나누어서 저장하는 방법. 트래픽을 나누는 데 사용할 수 있다. 데이터베이스 다중화에는 replication을 사용한다.
시스템에 우리가 미리 정해놓은 카테고리 존재 -> 컴퓨터는 이미지를 보고 어떤 카테고리에 이미지를 분류할지 고름
컴퓨터가 이미지를 인식하는 방법과 이미지 인식에서 고려해야 할 점들. Sementic Gap
1. 컴퓨터는 픽셀을 RGB를 각각 채널로 받아들여 숫자값(0-255)으로 분류한다. 이러면 고려해야 할 값들의 갯수는 800x600x3으로 채널이 생성되게 된다.
2. 이때 주의해야 할 점 : View point variation, Illumination, Deformation(모양이 달라짐), Occlusion, background clutter(배경과 객체가 비슷함), Intraclass variation(여러가지 고양이의 종) 등이 있다.
<An image classifier>
-사람들이 해왔던 시도 : 이미지에서 경계선 잡음 -> corner를 찾음 -> ...? 이거 좀 비효율적인데? 확장성도 없어!
-Data-Driven Approach : 일단 표본을 수집한다(이미 구분이 되는 이미지). -> ML classifier를 학습시킨다.
=> Training과 Test 단계가 생긴다.
<Nearest Neighbor on Image Classification>
Nearest Neighbor : 모든 데이터 및 레이블들을 기억한다 -> Test 데이터가 들어오면 데이터들과 비교해서 분류한다.
Distance Metric : 이미지를 비교하기 위해 픽셀의 매트릭스 간의 차이를 비교한다.
L1 distance도 꽤 잘 작동한다.
cf)
원래 L1 distance가 좌표계에서 등장하는 용어인데요, 쉽게 생각해서 거리를 측정하는 방법이구요, 맨해튼 거리는 맨해튼 거리가 격자 모양으로 조성이 되어 있고, 두 지점간의 거리를 잴 때 가로 세로 막대기만 사용해서 측정하는 것을 의미합니다. L2는 우리가 아는 두 지점 사이의 직선 거리를 재는 방식이 됩니다.
근데 NN에서 Big O Notation 등장. Training에서는 O(1), Predict에서는 O(N)이 걸린다. O(1)은 그냥 기억하면 되니까, O(N)은 이미지를 분류하기 위해서 모든 이미지랑 비교해야 하기 때문에 이렇게 걸린다..!
cf) 정확하게 얘기하면 O(A), O(BN) (A, B는 상수) 인데, A는 한 이미지를 기억하는데에 걸리는 시간, B는 한 이미지를 대조하는데에 걸리는 시간. Big O 표기법에서는 상수를 생략한다.
K-NN : K개의 가까운 이웃을 찾는다. 그리고 majority vote를 실시한다! K 값은 1보다 커야...
2차원에서 커버하지 못한 지역이 생긴다면 어떻게 처리하는가? : 분류를 하지 않거나, 다른 규정방법이 있겠지.
L1 distance와 L2 distance 모두 Distance Metric이다.
여기서는 좌표계에서의 L1과 L2 distance의 정의를 언급함.
좌표계 중요(회전하면 값이 바뀐다.), 요소간의 실질적인 의미를 안다 -> L1
좌표계 변해도 영향을 받지 않는다. 요소간의 실질적인 의미를 잘 모르겠다 -> L2 <= 얘를 더 자주 쓴다.
KNN 쓸려면 L1 쓸건지 L2쓸건지만 정해주기.
Hyperparameters : 알고리즘이 학습으로 정하는 것이 아니라, 우리가 미리 정해서 알고리즘에 입력하는 파라미터
데이터 집합 마다 다르다.
물론 train set에서 학습시킬 수도 있지만...이렇게 되면 train set에 overfitting이 될 수 있어 test set에서의 성능을 보장할 수 없다.
- 일반적인 방법 : training, validation, test 이렇게 셋으로.
train에서 학습 > validation에서 검증 > 검증 결과가 좋은 모델을 가지고 test에서 성능 측정을 한다.
모든 데이터 셋이 그렇듯, train > validation > test set으로 갈수록 공평성을 요구한다.
cross validation : 데이터 셋을 여러 그룹으로 나누고, training - validation을 번갈아가면서 한다.
training set 과 validation set의 차이!! : training에서는 레이블 학습, validation에서는 정확도를 확인한다. 그러니까 알고리즘이 얼마나 잘 작동하는지 검증하는 set.
validation 과정에서 k-fold cross validation이 도움이 될 수 있다.
근데 KNN은 이미지 분류에서 잘 안 쓴다.
1. test 시간이 너무 오래 걸린다.
2. pixel에 대해 Distance metrics를 적용한 결과가 썩 의미있진 않다.이건 이미지가 가지는 특징때문이다.(위에서 이미지를 학습할 때 고려할 사항 참고)
-Curse of dimensionality : 속성 하나 하나를 차원의 수에 매칭할 때, 차원을 커버하려면 그 차원을 채울 수 있는 수의 데이터를 가져와야 한다.