20201230

 

오늘은 Fundamental node 1을 진행하는 시간!

 

운영체제란 무엇일까? 에 대해서 먼저 학습하고 진행하는 시간을 가졌다.

선생님이 말씀하시는 운영체제의 정의는 다음과 같다.

 

<운영체제란>

 

1. 컴퓨터의 하드웨어를 관리하는 역할

2. 작업 , 데이터, 프로그램 관리 및 제어 등 모든 컴퓨터가 공통적으로 수행해야 할 복잡하고 다양한 기능들을 모아 만든 소프트웨어이다.  (모든 컴퓨터가 공통적으로 수행해야 할...? 이게 좀 애매하긴 하다. 컴퓨터의 수준에 따라 기대되는 기능들이 다르기 때문이다.)

3. 컴퓨터의 구조와 동작원리를 몰라도 컴퓨터 자원을 사용하도록 도와주는 프로그램이다.

 

-언어의 특징에 대해서 알아보자..!

 

www.youtube.com/watch?v=j5ogDOuqXqg&feature=emb_title

연봉이 높은 프로그래밍 언어의 특징 :

함수형 언어, parallelism(병렬성), concurrency(병행성)에 능하다..!

 

-리눅스 명령어

whoami

pwd

 

-'ls -al'을 입력했을 때 어떤 정보가 출력되는가?

www.leafcats.com/137

 

- conda cheet sheet

docs.conda.io/projects/conda/en/4.6.0/_downloads/52a95608c49671267e40c689e0bc00ca/conda-cheatsheet.pdf

오후에는 cs231n Image Classification

 

Numpy -> vecterization computing.

 

<How to classifiy Image?>

시스템에 우리가 미리 정해놓은 카테고리 존재 -> 컴퓨터는 이미지를 보고 어떤 카테고리에 이미지를 분류할지 고름

 

컴퓨터가 이미지를 인식하는 방법과 이미지 인식에서 고려해야 할 점들. Sementic Gap

1. 컴퓨터는 픽셀을 RGB를 각각 채널로 받아들여 숫자값(0-255)으로 분류한다. 이러면 고려해야 할 값들의 갯수는 800x600x3으로 채널이 생성되게 된다.

2. 이때 주의해야 할 점 : View point variation, Illumination, Deformation(모양이 달라짐), Occlusion, background clutter(배경과 객체가 비슷함), Intraclass variation(여러가지 고양이의 종) 등이 있다.

 

 

<An image classifier>

-사람들이 해왔던 시도 : 이미지에서 경계선 잡음 -> corner를 찾음 -> ...? 이거 좀 비효율적인데? 확장성도 없어!

-Data-Driven Approach : 일단 표본을 수집한다(이미 구분이 되는 이미지). ->  ML classifier를 학습시킨다.

=> Training과 Test 단계가 생긴다.

 

<Nearest Neighbor on Image Classification>

Nearest Neighbor : 모든 데이터 및 레이블들을 기억한다 -> Test 데이터가 들어오면 데이터들과 비교해서 분류한다.

 

사용 데이터 : www.cs.toronto.edu/~kriz/cifar.html

Distance Metric : 이미지를 비교하기 위해 픽셀의 매트릭스 간의 차이를 비교한다.

L1 distance도 꽤 잘 작동한다.

 

cf)

원래 L1 distance가 좌표계에서 등장하는 용어인데요, 쉽게 생각해서 거리를 측정하는 방법이구요, 맨해튼 거리는 맨해튼 거리가 격자 모양으로 조성이 되어 있고, 두 지점간의 거리를 잴 때 가로 세로 막대기만 사용해서 측정하는 것을 의미합니다. L2는 우리가 아는 두 지점 사이의 직선 거리를 재는 방식이 됩니다.

 

근데 NN에서 Big O Notation 등장. Training에서는 O(1), Predict에서는 O(N)이 걸린다. O(1)은 그냥 기억하면 되니까, O(N)은 이미지를 분류하기 위해서 모든 이미지랑 비교해야 하기 때문에 이렇게 걸린다..!

cf) 정확하게 얘기하면 O(A), O(BN) (A, B는 상수) 인데, A는 한 이미지를 기억하는데에 걸리는 시간, B는 한 이미지를 대조하는데에 걸리는 시간. Big O 표기법에서는 상수를 생략한다.

 

K-NN : K개의 가까운 이웃을 찾는다. 그리고 majority vote를 실시한다! K 값은 1보다 커야...

2차원에서 커버하지 못한 지역이 생긴다면 어떻게 처리하는가? : 분류를 하지 않거나, 다른 규정방법이 있겠지.

 

L1 distance와 L2 distance 모두 Distance Metric이다.

여기서는 좌표계에서의 L1과 L2 distance의 정의를 언급함.

좌표계 중요(회전하면 값이 바뀐다.), 요소간의 실질적인 의미를 안다 -> L1

좌표계 변해도 영향을 받지 않는다. 요소간의 실질적인 의미를 잘 모르겠다 -> L2 <= 얘를 더 자주 쓴다.

 

KNN 쓸려면 L1 쓸건지 L2쓸건지만 정해주기.

 

Hyperparameters : 알고리즘이 학습으로 정하는 것이 아니라, 우리가 미리 정해서 알고리즘에 입력하는 파라미터

데이터 집합 마다 다르다.

 

물론 train set에서 학습시킬 수도 있지만...이렇게 되면 train set에 overfitting이 될 수 있어 test set에서의 성능을 보장할 수 없다.

- 일반적인 방법 : training, validation, test 이렇게 셋으로.

train에서 학습 > validation에서 검증 > 검증 결과가 좋은 모델을 가지고 test에서 성능 측정을 한다.

모든 데이터 셋이 그렇듯, train > validation > test set으로 갈수록 공평성을 요구한다.

 

cross validation : 데이터 셋을 여러 그룹으로 나누고, training - validation을 번갈아가면서 한다.

 

training set 과 validation set의 차이!! : training에서는 레이블 학습, validation에서는 정확도를 확인한다. 그러니까 알고리즘이 얼마나 잘 작동하는지 검증하는 set.

 

validation 과정에서 k-fold cross validation이 도움이 될 수 있다.

근데 KNN은 이미지 분류에서 잘 안 쓴다.

1. test 시간이 너무 오래 걸린다.

2. pixel에 대해 Distance metrics를 적용한 결과가 썩 의미있진 않다.이건 이미지가 가지는 특징때문이다.(위에서 이미지를 학습할 때 고려할 사항 참고)

 

-Curse of dimensionality : 속성 하나 하나를 차원의 수에 매칭할 때, 차원을 커버하려면 그 차원을 채울 수 있는 수의 데이터를 가져와야 한다.

https://datapedia.tistory.com/15

 

[빅데이터] 차원의 저주(The curse of dimensionality)

차원의 저주란, *데이터 학습을 위해 차원이 증가하면서 학습데이터 수가 차원의 수보다 적어져 성능이 저하되는 현상. *차원이 증가할 수록 개별 차원 내 학습할 데이터 수가 적어지는(sparse) 현

datapedia.tistory.com

<Linear Classification on Image Classification>

Linear Classification들을 쌓아서 CNN을 만들수도 있다.

예시 : Image Captioni -> 이미지가 입력, 사진의 설명이 출력.

 

image -> f(x,W) -> 각각의 카테고리가 내놓은 score

W : parameters 또는 weight

 

Linear classification에서는 데이터와 가중치를 곱해버려서 융합한다.

Wx + b => bias를 주어서 어느 class에 가중치를 준다. W은 class 수만큼의 열을 가지는 행렬이다.

 

나중에 neural network를 구축할 때, W를 구하는 방향으로 가게 된다.

x -> y일 때, f는 뭘까? 이를 학습을 통해 개선하면 된다.

 

Linear classifier는 각 클래스에 대해 하나의 템플릿만을 학습해서 도출한다. 다양한 속성을 반영할 수가 없다.

ex) 말 그림을 학습시키는데, 말이 항상 풀밭에 서있으리라고 기대할 수가 없다.

 

선형 분류기는 각 클래스 간을 선형으로 구분한다. 하지만 클래스를 선형으로 구분하지 못하는 문제가 존재할 수 있다.

parity problem(홀/짝 구분)

mutimodel problem(한 클래스가 좌표계 내에서 다양한 공간에 분포하는 경우)

 

후기

 

학부때 막연히 주입식으로 들었던 내용들을 '왜'라는 질문과 함께 듣게 되니 훨씬 더 지식이 풍부해지는 느낌이다.

근데 이거 더 효율적으로 진행하려면 죽이 되던 밥이 되던 한번 듣고 와야할듯...

내가 모르는 내용들이 나오면 즉석에서 이해 못하고 넘어갈것 같아서 좀 걱정된다.

지금은 내가 아는 내용이 대부분이고 진짜 궁금한게 한두개라서 질문에 집중할 수 있어서 좋지만... 

'Technology > AIFFEL 대전' 카테고리의 다른 글

[AIFFEL] DAY 4,5  (0) 2021.01.05
[AIFFEL] DAY 1-2  (6) 2020.12.30

6개월간 AIFFEL 대전에서 수업을 듣게 됬다. 

원래는 깃헙 블로그를 구축하려고 했는데, 체력이 도저히 되지 않아서 

당분간은 티스토리에 정리할 예정이다. 

 

20201228

 

원래 이 교육은 오프라인으로 진행되지만, 코로나의 여파로 온라인으로 진행하게 되었다. 

언제 전환될지 모른다. 

코로나. 힘든 시기에 전직을 위해 이 길을 선택했다. 잘 할수 있을까. 

 

첫 날은 그래서 대전으로 가서 노트북과 교재를 수령했다. 

노트북은 한달 뒤에 새 모델로 교체 예정. 

교재는 '파이썬 알고리즘 인터뷰 95가지 알고리즘 문제 풀이로 완성하는 코딩 테스트'를 받았다.

 

날이 맑다. 퍼실님들도 선생님들도 잘 부탁드립니다. 

 

20201229

 

해당 교육은 LMS(Learning Management System)을 통해서 이루어진다. 

Fundamental 과정과 Expert과정이 같이 진행된다고 한다. 

오늘은 Fundamental node 0(한 학습 과정을 노드라고 부른다.)에서 환경 설정을 했다. 

강의 순서가 좀 독특하다. '지금 하라는 데로 실행하면 안될거에요. 그럼 왜 그런지 알아볼까요~'의 연속이기 때문에, 

무턱대고 실행하면 안되는 경우가 있다. 그러니 각 페이지를 찬찬히 읽어보고 진행하는게 중요할 듯 하다. 

오늘은 아나콘다를 깔고, 가상 환경을 만들고, 앞으로의 학습에 필요한 패키지들을 설치하는 과정이었기에 간략하게 쓴다.

- 패키지에서 tensorflow와 tenworflow-gpu는 다르고, 의존성 또한 다르기 때문에 환경에 맞게 둘 중 하나를 신중하게 고를 것. 

- 로컬에 구축한 가상 환경에서 서버를 띄우고, LMS는 이 로컬 서버에 접속해서 자원을 사용하는 방식을 택하였다. 

 

언제나 느끼지만, 모든 과정에서 환경 설정은 어렵다. 

그리고 오늘 사용했던 명령어들이 왜 이런 옵션을 함께 사용하는지 파악한다면 많은 것을 얻어갈 수 있을 것이다. 

 

내일은 또 어떤 과정들이 기다리고 있을까.

아까 OT때 들어보니까 제일 처음 열린 아이펠 강남의 졸업률이 생각보다 낮아서 놀랐다. 다들 AI에 대해서 어느정도 알던, 모르던, 잘 화합하면서 참가했으면 한다.  

 

 

 

 

 

'Technology > AIFFEL 대전' 카테고리의 다른 글

[AIFFEL] DAY 4,5  (0) 2021.01.05
[AIFFEL] DAY 3  (9) 2020.12.30

I really were suffered by this problem almost over 2 months. 

Even I enter "cannot find local jar file in local repository" at google, there is no solution I can use.


My case was Eclipse's project setting problem.

So If you do all the thing I will mention below, then just check this settings.


<What I want to do>

- import classes which are in the other project(not sub project relationship, just totally in different project)

- not bring dependencies from online maven repository. Need to get dependencies from local repository.


<What I was suffered>

- Eclipse m2e couldn't detect my locally built jar file. (not searched by artifect id)

- Even I add dependency by manually writing group, artifect id, it was not imported.


<The things that I did before I found this>

- register my local repository under my maven project file and copy-paste jar file in that

- check .m2 folder which is under my user folder

- (This is meaningless and wrong) try to add jar as external java library.


<The things that I think seem to work>

- Eclipse's menu, window > preference > Maven > check "download artifact sources", "download artifact javadoc", "download repository index updates on startup", "do not automatically update dependencies from remote repository"

- project > properties > maven > uncheck "resolve dependencies from workspace projects"


When I just unchecked that bolded option, suddenly, my local jar file was not only successfully imported but also successfully built. 


Is there anyone who is also suffered by maven dependency problem of locally built jar file, I really hope you can get solution by my report. 


+ Recent posts