AI/머신러닝3 K-최근접 알고리즘02 (훈련세트/테스트세트) https://colab.research.google.com/drive/1nZUD3xipIo8uq3jt51krpDnDiMa4VYeI?usp=sharing traing_set_test_set.ipynb Colaboratory notebook colab.research.google.com 요약 무언가를 분류하는 알고리즘을 만들 때, 알고리즘이 정답을 모두 알고 있다면 문제가 된다. 모델을 훈련할 때 사용한 데이터로 모델의 성능을 평가하는 것은 정답을 미리 알려주고 시험을 보는 것과 같다. 공정하게 점수를 매기기 위해서는 훈련에 참여하지 않은 샘플을 사용해야한다. 이 때문에 훈련 데이터를 훈련 세트와 테스트 세트로 나누는 것이다. 또한 무작정 훈련 세트와 테스트 세트로 나누는 것은 샘플링 편향을 불러온다. 무.. 2023. 1. 24. 머신러닝 알고리즘 분류 (지도학습/비지도학습/강화학습) 머신러닝 알고리즘의 분류 머신러닝 알고리즘은 지도 학습과 비지도 학습으로 나뉜다. 그리고 번외로 강화 학습으로도 나뉘기도 한다. 지도 학습(supervised learning) 지도 학습 알고리즘은 입력(데이터)과 타깃(정답)으로 이루어진 훈련 데이터가 필요하다. 지도 학습에서 데이터와 정답을 입력(input)과 타깃(target)이라 하고, 이 둘을 합쳐 훈련 데이터(Training data) 이라 한다. 입력으로 사용되는 특성, 특징을 feature라고 한다. 지도학습은 정답(타깃)이 있으니 알고리즘이 정답을 맞히는 것을 학습한다. 예를 들어 여러 데이터에서 구분하는 분류 처럼 말이다. 비지도 학습 (unsupervised learning) 비지도 학습 알고리즘은 정답(타깃) 없이 입력 데이터만 사용.. 2023. 1. 24. 머신러닝 K-최근접 이웃 알고리즘(K-Nearest Neighbors) https://colab.research.google.com/drive/10PjnrRKM2zR2v6xruyMoVq9EkaFdRKFn?usp=sharing K-Nearest Neighbors.ipynb Colaboratory notebook colab.research.google.com 요약 1. 데이터 준비/ 전처리 (2차원 리스트로 만들기) 2. 정답 데이터 준비 (이진분류에서는 보통 정답인 대상의 데이터를 1, 그 외 정답인 아닌 데이터는 0으로 표현함) 3. 사이킷런의 K - 최근접 이웃 알고리즘 모델 클래스명은 KNeighborsClassifier() 이다. 4. K-최근접 이웃 알고리즘의 fit() 메서드는 두 매개변수로 훈련에 사용 될 특성과 정답 데이터를 전달한다. predict()메서드는 .. 2023. 1. 24. 이전 1 다음