개발 335

Docker 이미지와 컨테이너

도커를 공부하려고 찾아보다 보면, 이미지와 컨테이너라는 말이 많이 나옵니다. 이 단어들로 인해 도커에 대한 이해도가 더 낮아지는 것 같기도 합니다. 일단 이미지부터 알아보겠습니다. 위의 사진처럼 Image.jpg 이런 이미지가 아니라 쉽게 설명하면, 응용 프로그램? 같은거라고 생각하시면 됩니다. OS일 수도 있고, Python일 수도 있고, mysql일 수도 있고,mongodb일 수도 있습니다. 자 이제 이미지(ubuntu)를 사용한다고 생각해보면, 이 이미지를 가지고 우분투 어떤 환경에서 어떻게 실행시킬지 정해놓고 얘를 실앻을 하면 컨테이너가 된다고 생가각하면 됩니다.

개발/docker 2020.09.04

Docker를 왜 쓰는가?

도커를 왜 쓰는지에 대해서 너무너무 자세하고 전문적으로 나와 있는 글은 아래의 링크에서 읽으시면 됩니다. www.44bits.io/ko/post/why-should-i-use-docker-container 왜 굳이 도커(컨테이너)를 써야 하나요? - 컨테이너를 사용해야 하는 이유 컨테이너는 서버 애플리케이션을 배포하고 서버를 운영하는 표준적인 기술이 되어가고 있습니다. 하지만 처음 사용해본다면 그 장점이 잘 와닿지 않을 수도 있습니다. 왜 굳이 도커 컨테이너를 www.44bits.io 얘를 쉽게 한마디로 왜 쓰는지 알아보면, 서버에 한번이라도 코드를 배포해본 사람들은 공감할 문제가 생기는데 서버에 기본 세팅 + 각종 패키지 설정의 귀찮음과, 버전관리 등의 이슈가 있을 때 처음부터 끝까지 서버 세팅해주는게..

개발/docker 2020.09.04

bag of words

- 허민석님의 강의를 참고하였습니다. 링크는 맨 아래에 bag of words 가 뭔지 알아보고 가겠습니다. 간단하게 bag 안에 단어들이 들어 있고, 이 단어들을 이용해서 문장의 유사도를 구하는 방식입니다. 아래와 같은 단어들이 있을 때 이 친구들을 아래와 같이 벡터 형태로 표현합니다. 이 것들을 이용해서 문장들간의 유사도를 추출해낼 수 있습니다. 구현 참고 [1] - https://www.youtube.com/watch?v=dKYFfUtij_U [2] - https://wikidocs.net/22650

개발/AI 정리 2020.08.03

연관규칙분석 Apriori Algorithm

연관규칙분석 알고리즘에 대해서 알아보겠습니다. 장바구니 알고리즘이라고도 하는데 예를 들면 기저귀를 산 사람(가정에 아이가 있는 사람이겠죠?)이 분유나, 아이용품 등을 살 확률이 높은 것인데, 이 것을 수치화해놓은 것입니다. 품목 X,Y가 있다고 할 때, 이 품목들에 대해서 전체 상품에서 수치화를 시켜서 나타낼 수 있는데, 지지도, 신뢰도, 향동도에 대해서 나타낼 수 있습니다. - 지지도(support) : 전체 거래에서 X,Y를 동시에 포함한 거래 비율 - 신뢰도(Confidence) : X를 구입한 거래 중 Y를 같이 구입한 비율 - 향상도(lift) : X를 구매 했을 때 Y의 구매비율이 그러한 조건이 없는 경우에 얼마나 커지는가를 나타내는 지표 저희는 지지도와 신뢰도만 알아보도록 하겠습니다. 예를 ..

개발/잡다개발 2020.07.31

NLTK 사용법

영어 문장에서 단어만 추출하고 싶을 때, NLTK를 사용합니다. 어떻게 사용하는지 보면 아래와 같이 사용 가능하고, 원형복원 lemmatize 도 가능합니다. lemmatize 할 때 맥에서 에러가 나면 python -m nltk.downloader -d /usr/local/share/nltk_data wordnet 를 실행해주시면 됩니다. 불용어 처리하는 방법은 아래와 같이 해주시면 가능합니다. 불용어 설치가 안된다면 python -m nltk.downloader stopwords 참고 [1] - https://datascienceschool.net/view-notebook/8895b16a141749a9bb381007d52721c1/ [2] - https://wikidocs.net/22530

개발/AI 정리 2020.07.29

엔드로피란

정보의 불확실성을 나타내는 지표입니다. 동전던지기를 할 때, 때문에 엔트로피가 높은 경우, 정보가 불확실할 확률이 높습니다. 예를 들면 평평한 동전 같은 경우 앞 뒤가 나올 확률이 50:50이기 때문에, 불확실성이 높은데 동전이 기울어져서 앞면이 나올 확률과 뒷면이 나올 확률이 90:10이라고 하면, 상대적으로 앞면이 나올 확률이 거의 확실시 되기 때문에, 엔트로피(불확실성)이 낮습니다. 얘를 머신러닝 모델에서 적용하려고 생각을 하면 기본적으로 1차적으로 데이터를 예측한 모델에서, 엔트로피가 높은 예측값들만 뽑아와서 2차적으로 가공하여 다시 예측하는 방법으로 사용합니다. 왜냐하면 엔트로피가 높은 값은, 머신러닝 모델이 예측했어도 이 것의 정확도를 확신할 수 있는 확률이 낮기 때문입니다. 참조 [1] - ..

개발/AI 정리 2020.07.28

TF-IDF

TF-IDF에 대해서 알아보겠습니다. 문서간의 연관성을 알아보는 방법인데 예를 들면 어떤 문서(문장)에 단어가 많이 출연하면 이 단어가 중요하다고 판단할 수 있습니다. 그런데 실제로 가면 I am a boy You are a girl 이런 문장이 있을 때, 'a'라는 것이 많이 출현하지만, 이게 실제로는 전혀 중요하지 않은 단어입니다. 이 때 나타나는 개념이 IDF라는 개념입니다. 이렇게 연관성이 없는데 자주 출현하는 단어들에 페널티를 주기 위한 방법입니다. 참조 [1] - https://www.youtube.com/watch?v=meEchvkdB1U

개발/AI 정리 2020.07.27