LG 헬로비전 DX DATA SCHOOL43 차원 축소 (DimensionalityReduction) 1. 차원 축소 1.1) 개요 Machine Learning 문제들은 많은 특성을 소유 특성이 많으면 훈련을 느리게 할 뿐 아니라 좋은 솔루션을 찾기가 어려워 짐 - 차원의 저주 1.2) 종류 피처 선택 : 특정 피처에 종속성이 강한 불필요한 피처는 제거하고 데이터의 특성을 잘 나타내는 주요 피처만 선택 피처 추출 : 기존의 피처들을 저차원의 중요 피처로 압축해서 추출 기존 피처가 압축된 것이기 때문에 기존의 피처와는 다른 값 더 함축적인 요약 특성으로 추출 1.3) 주의 차원 축소를 수행하면 일부 정보가 유실되기 때문에 훈련 속도는 빨라지지만 시스템의 성능이 조금 나빠 질 수 있으며 파이프라인이 복잡해짐 이미지나 텍스트에서 차원 축소를 통해 잠재적인 의미를 찾을 수 있음. 매우 많은 픽셀로 이루어진 이.. 2023. 9. 4. 군집 분석 2 2023/09/04 2023.09.01 - [LG 헬로비전 DX DATA SCHOOL/Python] - (Python)군집 분석 및 과일 이미지 군집 분석 실습 (Python)군집 분석 및 과일 이미지 군집 분석 실습 2023-0901 ** Clustering(군집) 1. 군집 비슷한 샘플들을 구별해서 하나의 클러스터로 묶는 작업 비지도 학습 : 레이블이 없는 학습 (정답이 없는 학습) 1.1) 군집이 이용되는 분야 고객 분류 데이터 분석 dxdata.tistory.com 이전 글에 이어 진행하겠습니다! 그 내용이 궁금하신 분들은 위 글을 방문해주세요 6. DBSCAN 6.1) 개요 국부적인 밀집도를 추정하는 매우 다른방식을 사용 임의의 모양을 가진 클러스터를 식별 가능 간단하고 직관적인 알고리즘 내부의.. 2023. 9. 4. (Python)군집 분석 및 과일 이미지 군집 분석 실습 2023-0901 ** Clustering(군집) 1. 군집 비슷한 샘플들을 구별해서 하나의 클러스터로 묶는 작업 비지도 학습 : 레이블이 없는 학습 (정답이 없는 학습) 1.1) 군집이 이용되는 분야 고객 분류 데이터 분석 : 각 클러스터로 나눈 후 따로 분석 차원 축소 이상치 탐색 : 모든 클러스터에 친화적이지 않은 데이터를 이상치로 간주 준 지도 학습 : 레이블이 일부분만 존재하는 경우 군집을 수행해서 레이블을 생성 검색 엔진 1.2) 이미지 분할 sklearn 에서는 다양한 유형의 군집화 알고리즘을 테스트 해보기 위한 샘플 데이터를 생성하는 API 를 제공 make_blobs(), make_classification, make_circle(), make_moon() 군집을 얼마나 효율적으로 했는지.. 2023. 9. 1. 회귀분석 2023/08/30 6) 다변량 회귀 분석 독립 변수의 개가 2개 이상인 경우 LinearRegression 클래스를 이용해서 수행 가능 다변량 회귀를 수행할 때 주의할 점은 다중 공선성 문제 보스톤 주택 가격 예측 #데이터 가져오기 y_target = bostonDF['PRICE] X_data = bostionDF.drop(['PRICE'], axis =1, inplace = False) print(y_target.head()) print(X_data.head()) #훈련 데이터와 테스트 데이터 분리 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X_data, y.. 2023. 8. 30. Pandas 의 연산 2023/08/16 ** Pandas 의 연산 1. 그룹화 데이터를 어떤 기준에 따라서 여러 그룹으로 나누어서 관찰하는 것 그룹화 한 후 집계, 변환, 필터링 그룹화를 할 때는 groupby 를 이용하고 변환에는 apply를 이용 groupby 는 DataFrame의 함수 집계 함수 count : 누락 값을 제외한 데이터의 개수 size : 누락 값을 포함한 데이터의 개수 mean : 평균 std : 표준편차 min : 최소 max : 최대 quatile(q=값) : 백분위 수로 값은 0.0 ~ 1.0 sum : 합 var : 분산 sem : 평균의 표준편차 describe : 데이터의 간단한 집계 first : 첫 행 last : 마지막 행 nth : n 번째 행 집계를 수행하고 난 후 DataFram.. 2023. 8. 16. Python 탐색적 시각화 1. matplotlib 1.1) 히스토그램 빈도 분석을 위해서 그리는 차트 변수가 하나인 단변수 데이터의 빈도 수를 표현 Series가 value_counts() 라는 메서드를 호출하면 빈도 수를 리턴 hist()를 호출해서 히스토그램을 그릴 수 있는데 bins 옵션이 있어서 구간의 개수를 설정하는 것이 가능 1.2) scatter(산포도, 산점도) 자료의 분포를 표시할 때 이용하는 그래프는 서로 다른 두 변수 사이의 관계를 표현 각 변수는 연속적인 값이어야 함. scatter()를 이용해서 출력 1.3) Pie 차트 전체에 대한 기여도 확인 가능 pie 함수를 이용해서 출력을 하는데 explode 옵션을 이용해서 중앙에서 떨어지는 비율을 설정할 수 있고 autopct를 이용해서 값의 비율을 출력할 수.. 2023. 8. 11. 이전 1 2 3 4 5 ··· 8 다음