20201231

 

글쓰기 시간, git에 대해서 배우는 시간, python jupyter notebook을 접한 날.

오후에는 git에 대해서 간략하게 내가 설명하는 시간을 가졌다. 내가 누구에게 설명할 자격이 있을까. 

 

20210104

 

오전시간 : fundamental node 수행 시간

 

파이썬의 기초에 대해서 다루는 노드였는데, 의외로 어려운 개념들이 있었다. 

 

1. 부동소수점 표현방식

IEEE의 표준을 따라서 bias를 채택해서 부동소수점을 표현하는 방식을 사용하면 다음과 같이 부동소수점을 bit에 담게 된다. 

1비트는 부호, 8비트는 지수, 32비트는 가수부에 사용된다. 

그리고 지수값을 저장할 때, 지수값을 2의 보수법으로 바꾸고 거기에 bias(127)을 더한다. bias는 2^8-1의 값. 

thrillfighter.tistory.com/349

2. 0.1 + 0.2 == 0.3 의 결과

놀랍게도 false였다. 왜냐면 1의 부동소수점 표현방식 때문에 처음에는 literal type으로 선언된 float이

계산하면서 0.3의 근접한 값을 가지게 되면서 literal 0.3과 값이 달라지게 되는 것이다.

여기에서 실제로 저 값을 계산하게 되면 0.300000000004쯤의 값을 보게 된다. 

 

 

오후 시간 : C231N 3강 ~54p

2강에 대해서 복습하고 있는 시간. 

 

C231N 3강

 

저번에는 함수 f(x) -> y를 다룰 때, f에 W가 사용된다는 것 까지 도출함. 

그렇다면 구한 W가 적합한지 아닌지 스코어를 어떻게 구해내는가?

Loss-function에 대한 소개를 할 것이다. 

임의의 값 W가 적합한지를 찾고 싶은데, 이 과정을 최적화 과정이라고 한다.

 

Loss function은 이 W를 가지고 학습했을 때 라벨과 학습 결과를 비교하고 distance를 구해서,

각 경우의 값들을 모두 합해서 평균을 내는 일을 한다. Loss function의 결과를 줄이는 것이 목표. 

 

multi-class SVM : 여러 class를 다루기 위한 SVM 

어떻게 loss를 구하는가?

 

Loss function은 이 W를 가지고 학습했을 때 라벨과 학습 결과를 비교하고 distance를 구해서,

각 경우의 값들을 모두 합해서 평균을 내는 일을 한다. Loss function의 결과를 줄이는 것이 목표. 

 

정답이 아닌 클래스 스코어에 대해서

sum(max( 해당 클래스의 스코어 - 원래 클래스의 스코어 + 1 , 0 ))

 

근데 safety margin이 왜 1인가?

정답 스코어가 다른 스코어에 비해 얼마나 더 높은 값을 가지고 있느냐에 관심을 가지고 있기 때문에

(loss값이 얼마나 되는가), 

1은 별로 상관없어지고, W 행렬곱을 하기 때문에 나중에 사라진다. 

Q. 1을 주는 이유가 값을 보정하기 위해서 주는 걸까...?

Q. 정답 스코어는 왜 빠지는데요? 

A. loss function에 영향을 줄 수도 있기 때문에. 

 

L이 0이 나오더라도 W는 하나가 아닐수 있다. 2W도 답이 될 수 있다. 

최종적으로 test data에서 L이 적게 나오는 W을 구해야 한다. 

 

Regularization : L이 단순한 값을 가질 수 있도록 정리하는 역할. => 모델이 복잡해 지는 것을 막고, 복잡한 모델에 패널티를 부여하는 역할

가정 : 더 단순한 가정이 미래에 일어날 현상을 잘 설명할 수 있기 때문에, 단순한 가정을 택하는 것이 좋다. 

overfitting을 막을 수 있다. 

이 항이 있으면 저차원 모델 + soft penalty(복잡하게 나오는 모델 계속 쓰게 되면, 불리하게 된다..?)를 추가하는 것이 된다. 

 

L2 regularization : 선형 함수를 유도하기 위한 패널티

L1 regularization : -> 단순한 모델에 적합하다. 

 

cf) softmax도 자주 쓰인다. (Multinomial Logistic Regression) -> loss값에 의미를 부여하게 된다. 

loss값을 확률 분포로 구하게 된다. 정확히 예측했다면 L이 1이 나오겠지. 

exponential -> normalize과정을 거쳐 loss값을 구하게 된다. 

softmax의 최소값은 0이고 최대값은 무한대이다. 하지만 최대값이 무한대가 나올 일이 없는게, 그러면 L값이 0에 근접해야 한다. 

 

SVM에서는 정답 스코어와 아닌 값의 차이에 대해 다루고, softmax는 -log(정답 클래스)을 도출해서 해당 클래스로 분류될 확률값을 다루게 된다. softmax의 경우 정답 클래스의 결과를 최대한 높이고, 나머지 클래스의 결과를 최대한 낮추려고 한다. 

SVM은 일정 마진을 넘으면 ok인데 softmax의 경우는 계속해서 최적화하는 방향으로 나아갈 것이다. 

 

그렇다면 실제로 어떻게 W를 구할 것인가? 

=> Optimization 

 

(추후 보강 예정)

 

 

 

 

 

 

 

 

 

'Technology > AIFFEL 대전' 카테고리의 다른 글

[AIFFEL] DAY 3  (9) 2020.12.30
[AIFFEL] DAY 1-2  (6) 2020.12.30

20201230

 

오늘은 Fundamental node 1을 진행하는 시간!

 

운영체제란 무엇일까? 에 대해서 먼저 학습하고 진행하는 시간을 가졌다.

선생님이 말씀하시는 운영체제의 정의는 다음과 같다.

 

<운영체제란>

 

1. 컴퓨터의 하드웨어를 관리하는 역할

2. 작업 , 데이터, 프로그램 관리 및 제어 등 모든 컴퓨터가 공통적으로 수행해야 할 복잡하고 다양한 기능들을 모아 만든 소프트웨어이다.  (모든 컴퓨터가 공통적으로 수행해야 할...? 이게 좀 애매하긴 하다. 컴퓨터의 수준에 따라 기대되는 기능들이 다르기 때문이다.)

3. 컴퓨터의 구조와 동작원리를 몰라도 컴퓨터 자원을 사용하도록 도와주는 프로그램이다.

 

-언어의 특징에 대해서 알아보자..!

 

www.youtube.com/watch?v=j5ogDOuqXqg&feature=emb_title

연봉이 높은 프로그래밍 언어의 특징 :

함수형 언어, parallelism(병렬성), concurrency(병행성)에 능하다..!

 

-리눅스 명령어

whoami

pwd

 

-'ls -al'을 입력했을 때 어떤 정보가 출력되는가?

www.leafcats.com/137

 

- conda cheet sheet

docs.conda.io/projects/conda/en/4.6.0/_downloads/52a95608c49671267e40c689e0bc00ca/conda-cheatsheet.pdf

오후에는 cs231n Image Classification

 

Numpy -> vecterization computing.

 

<How to classifiy Image?>

시스템에 우리가 미리 정해놓은 카테고리 존재 -> 컴퓨터는 이미지를 보고 어떤 카테고리에 이미지를 분류할지 고름

 

컴퓨터가 이미지를 인식하는 방법과 이미지 인식에서 고려해야 할 점들. Sementic Gap

1. 컴퓨터는 픽셀을 RGB를 각각 채널로 받아들여 숫자값(0-255)으로 분류한다. 이러면 고려해야 할 값들의 갯수는 800x600x3으로 채널이 생성되게 된다.

2. 이때 주의해야 할 점 : View point variation, Illumination, Deformation(모양이 달라짐), Occlusion, background clutter(배경과 객체가 비슷함), Intraclass variation(여러가지 고양이의 종) 등이 있다.

 

 

<An image classifier>

-사람들이 해왔던 시도 : 이미지에서 경계선 잡음 -> corner를 찾음 -> ...? 이거 좀 비효율적인데? 확장성도 없어!

-Data-Driven Approach : 일단 표본을 수집한다(이미 구분이 되는 이미지). ->  ML classifier를 학습시킨다.

=> Training과 Test 단계가 생긴다.

 

<Nearest Neighbor on Image Classification>

Nearest Neighbor : 모든 데이터 및 레이블들을 기억한다 -> Test 데이터가 들어오면 데이터들과 비교해서 분류한다.

 

사용 데이터 : www.cs.toronto.edu/~kriz/cifar.html

Distance Metric : 이미지를 비교하기 위해 픽셀의 매트릭스 간의 차이를 비교한다.

L1 distance도 꽤 잘 작동한다.

 

cf)

원래 L1 distance가 좌표계에서 등장하는 용어인데요, 쉽게 생각해서 거리를 측정하는 방법이구요, 맨해튼 거리는 맨해튼 거리가 격자 모양으로 조성이 되어 있고, 두 지점간의 거리를 잴 때 가로 세로 막대기만 사용해서 측정하는 것을 의미합니다. L2는 우리가 아는 두 지점 사이의 직선 거리를 재는 방식이 됩니다.

 

근데 NN에서 Big O Notation 등장. Training에서는 O(1), Predict에서는 O(N)이 걸린다. O(1)은 그냥 기억하면 되니까, O(N)은 이미지를 분류하기 위해서 모든 이미지랑 비교해야 하기 때문에 이렇게 걸린다..!

cf) 정확하게 얘기하면 O(A), O(BN) (A, B는 상수) 인데, A는 한 이미지를 기억하는데에 걸리는 시간, B는 한 이미지를 대조하는데에 걸리는 시간. Big O 표기법에서는 상수를 생략한다.

 

K-NN : K개의 가까운 이웃을 찾는다. 그리고 majority vote를 실시한다! K 값은 1보다 커야...

2차원에서 커버하지 못한 지역이 생긴다면 어떻게 처리하는가? : 분류를 하지 않거나, 다른 규정방법이 있겠지.

 

L1 distance와 L2 distance 모두 Distance Metric이다.

여기서는 좌표계에서의 L1과 L2 distance의 정의를 언급함.

좌표계 중요(회전하면 값이 바뀐다.), 요소간의 실질적인 의미를 안다 -> L1

좌표계 변해도 영향을 받지 않는다. 요소간의 실질적인 의미를 잘 모르겠다 -> L2 <= 얘를 더 자주 쓴다.

 

KNN 쓸려면 L1 쓸건지 L2쓸건지만 정해주기.

 

Hyperparameters : 알고리즘이 학습으로 정하는 것이 아니라, 우리가 미리 정해서 알고리즘에 입력하는 파라미터

데이터 집합 마다 다르다.

 

물론 train set에서 학습시킬 수도 있지만...이렇게 되면 train set에 overfitting이 될 수 있어 test set에서의 성능을 보장할 수 없다.

- 일반적인 방법 : training, validation, test 이렇게 셋으로.

train에서 학습 > validation에서 검증 > 검증 결과가 좋은 모델을 가지고 test에서 성능 측정을 한다.

모든 데이터 셋이 그렇듯, train > validation > test set으로 갈수록 공평성을 요구한다.

 

cross validation : 데이터 셋을 여러 그룹으로 나누고, training - validation을 번갈아가면서 한다.

 

training set 과 validation set의 차이!! : training에서는 레이블 학습, validation에서는 정확도를 확인한다. 그러니까 알고리즘이 얼마나 잘 작동하는지 검증하는 set.

 

validation 과정에서 k-fold cross validation이 도움이 될 수 있다.

근데 KNN은 이미지 분류에서 잘 안 쓴다.

1. test 시간이 너무 오래 걸린다.

2. pixel에 대해 Distance metrics를 적용한 결과가 썩 의미있진 않다.이건 이미지가 가지는 특징때문이다.(위에서 이미지를 학습할 때 고려할 사항 참고)

 

-Curse of dimensionality : 속성 하나 하나를 차원의 수에 매칭할 때, 차원을 커버하려면 그 차원을 채울 수 있는 수의 데이터를 가져와야 한다.

https://datapedia.tistory.com/15

 

[빅데이터] 차원의 저주(The curse of dimensionality)

차원의 저주란, *데이터 학습을 위해 차원이 증가하면서 학습데이터 수가 차원의 수보다 적어져 성능이 저하되는 현상. *차원이 증가할 수록 개별 차원 내 학습할 데이터 수가 적어지는(sparse) 현

datapedia.tistory.com

<Linear Classification on Image Classification>

Linear Classification들을 쌓아서 CNN을 만들수도 있다.

예시 : Image Captioni -> 이미지가 입력, 사진의 설명이 출력.

 

image -> f(x,W) -> 각각의 카테고리가 내놓은 score

W : parameters 또는 weight

 

Linear classification에서는 데이터와 가중치를 곱해버려서 융합한다.

Wx + b => bias를 주어서 어느 class에 가중치를 준다. W은 class 수만큼의 열을 가지는 행렬이다.

 

나중에 neural network를 구축할 때, W를 구하는 방향으로 가게 된다.

x -> y일 때, f는 뭘까? 이를 학습을 통해 개선하면 된다.

 

Linear classifier는 각 클래스에 대해 하나의 템플릿만을 학습해서 도출한다. 다양한 속성을 반영할 수가 없다.

ex) 말 그림을 학습시키는데, 말이 항상 풀밭에 서있으리라고 기대할 수가 없다.

 

선형 분류기는 각 클래스 간을 선형으로 구분한다. 하지만 클래스를 선형으로 구분하지 못하는 문제가 존재할 수 있다.

parity problem(홀/짝 구분)

mutimodel problem(한 클래스가 좌표계 내에서 다양한 공간에 분포하는 경우)

 

후기

 

학부때 막연히 주입식으로 들었던 내용들을 '왜'라는 질문과 함께 듣게 되니 훨씬 더 지식이 풍부해지는 느낌이다.

근데 이거 더 효율적으로 진행하려면 죽이 되던 밥이 되던 한번 듣고 와야할듯...

내가 모르는 내용들이 나오면 즉석에서 이해 못하고 넘어갈것 같아서 좀 걱정된다.

지금은 내가 아는 내용이 대부분이고 진짜 궁금한게 한두개라서 질문에 집중할 수 있어서 좋지만... 

'Technology > AIFFEL 대전' 카테고리의 다른 글

[AIFFEL] DAY 4,5  (0) 2021.01.05
[AIFFEL] DAY 1-2  (6) 2020.12.30

6개월간 AIFFEL 대전에서 수업을 듣게 됬다. 

원래는 깃헙 블로그를 구축하려고 했는데, 체력이 도저히 되지 않아서 

당분간은 티스토리에 정리할 예정이다. 

 

20201228

 

원래 이 교육은 오프라인으로 진행되지만, 코로나의 여파로 온라인으로 진행하게 되었다. 

언제 전환될지 모른다. 

코로나. 힘든 시기에 전직을 위해 이 길을 선택했다. 잘 할수 있을까. 

 

첫 날은 그래서 대전으로 가서 노트북과 교재를 수령했다. 

노트북은 한달 뒤에 새 모델로 교체 예정. 

교재는 '파이썬 알고리즘 인터뷰 95가지 알고리즘 문제 풀이로 완성하는 코딩 테스트'를 받았다.

 

날이 맑다. 퍼실님들도 선생님들도 잘 부탁드립니다. 

 

20201229

 

해당 교육은 LMS(Learning Management System)을 통해서 이루어진다. 

Fundamental 과정과 Expert과정이 같이 진행된다고 한다. 

오늘은 Fundamental node 0(한 학습 과정을 노드라고 부른다.)에서 환경 설정을 했다. 

강의 순서가 좀 독특하다. '지금 하라는 데로 실행하면 안될거에요. 그럼 왜 그런지 알아볼까요~'의 연속이기 때문에, 

무턱대고 실행하면 안되는 경우가 있다. 그러니 각 페이지를 찬찬히 읽어보고 진행하는게 중요할 듯 하다. 

오늘은 아나콘다를 깔고, 가상 환경을 만들고, 앞으로의 학습에 필요한 패키지들을 설치하는 과정이었기에 간략하게 쓴다.

- 패키지에서 tensorflow와 tenworflow-gpu는 다르고, 의존성 또한 다르기 때문에 환경에 맞게 둘 중 하나를 신중하게 고를 것. 

- 로컬에 구축한 가상 환경에서 서버를 띄우고, LMS는 이 로컬 서버에 접속해서 자원을 사용하는 방식을 택하였다. 

 

언제나 느끼지만, 모든 과정에서 환경 설정은 어렵다. 

그리고 오늘 사용했던 명령어들이 왜 이런 옵션을 함께 사용하는지 파악한다면 많은 것을 얻어갈 수 있을 것이다. 

 

내일은 또 어떤 과정들이 기다리고 있을까.

아까 OT때 들어보니까 제일 처음 열린 아이펠 강남의 졸업률이 생각보다 낮아서 놀랐다. 다들 AI에 대해서 어느정도 알던, 모르던, 잘 화합하면서 참가했으면 한다.  

 

 

 

 

 

'Technology > AIFFEL 대전' 카테고리의 다른 글

[AIFFEL] DAY 4,5  (0) 2021.01.05
[AIFFEL] DAY 3  (9) 2020.12.30

+ Recent posts