분류 전체보기 1203

B+ Tree

B+ 트리는 키에 의해서 식별되는 레코드의 효율적 삽입, 검색, 통해 정렬된 데이터를 표현하기 위한 자료구조입니다. 다음과 같은 특성이 있습니다. B+ tree는 root, internal nodes, leaves로 구성됩니다. B+ 가치는 블록 중심 storage context 특히 파일 시스템에서 효율적을 검색을 위해 데이터를 저장하는 것입니다. - insert 차수 M이 홀수인 경우 t-1번째 index를 상위로 올리고, 차수 M 이 짝수인 경우 t번째 index를 상위로 올립니다. - delete 삭제의 경우에는 다양한 케이스가 존재하는데 삭제할 키가 leaf node에만 존재할 때 - 노드의 최소 개수 이상의 키가 있을 때는 간단하게 키를 삭제하면 됩니다. - 노드에 최소 개의 키가 있을 때는,..

개발/잡다개발 2020.05.25

앙상블 학습(Ensemble)

앙상블 학습에 대해 알아보면 음식에서 앙상블을 이룬다는 말을 쓰는 것 처럼 앙상블 학습도 마찬가지로 이것저것 섞어서 조화를 이룬다 라는 의미로 쓰입니다. 그러니깐 어떤 학습 모델을 만드는데 이것저것 섞으니깐 성능이 더 잘나오더라 하는 부분입니다. 배깅과 부스팅으로 나눠서 설명해보면 배깅(bagging) 샘플을 여러번 뽑아서 가장 좋은 애를 선택해서 사용하는 것입니다. 배깅을 이용하는 방법이 랜덤포레스트입니다. 부스팅(Boosting) 그러면 부스팅은 무엇인가 보면 모델을 여러개 학습시켜, 약한 학습기를 이용해 강한 학습기를 만드는 것입니다. 참조 [1] - https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-11-%EC%95%99%..

개발/Kaggle 2020.05.17

LogisticRegression

LogisticRegression에 대해 알아보겠습니다. 쉽게 말하면 Yes or No로 구분하는 문제입니다. 이렇게 일정수준 이상은 합격이고 아래는 불합격인 데이터가 있다고 보면 이런 그래프를 그어서 이 데이터들을 예측할 수 있습니다. sklearn 을 이용하여 구현할 수 있습니다. 여기보면 confusion_matrix라는 것이 나오는데 그러니깐 파란색으로 된 부분은 예측이 맞은거고 빨간색으로 된 부분은 예측이 들린 부분입니다. 참조 https://realpython.com/logistic-regression-python/

개발/Kaggle 2020.05.12