목록Sparta_coding_club/Python (11)
Shonny Data

기본 수학 연산 numpy.add : 어레이의 요소 단위로 덧셈 계산을 합니다. numpy.subtract : 어레이의 요소 단위로 뺄셈 계산을 합니다. numpy.multiply : 어레이의 요소 단위로 곱셈 계산을 합니다. numpy.divide : 어레이의 요소 단위로 나눗셈 계산(true division)을 합니다. numpy.true_divide : 어레이의 요소 단위로 나눗셈 계산(true division)을 합니다. numpy.floor_divide : 어레이의 요소 단위로 나눗셈 계산(floor division)을 합니다. numpy.remainder : 요소 단위로 나눗셈의 나머지를 반환합니다. numpy.mod : 요소 단위로 나눗셈의 나머지를 반환합니다. numpy.prod : 주어진..

| Numpy 의 random 모듈 랜덤 모듈은 다양한 함수를 사용해서 특정 범위, 개수, 형태를 갖는 난수 생성에 활용 random.rand( ) random.randint( ) random.randn( ) random.standard_narlmal( ) random.normal( ) random.random_sample( ) random.choice( ) random.seed( ) ■ random.rand ( ) 주어진 숫자만큼 난수 어레이를 생성하는 함수 import numpy as np a = np.random.rand(5) # [0.41626628 0.40269923 0.80574938 0.67014962 0.47630372] b = np.random.rand(2, 3) # [[0.8373995..

| 랜덤 함수 이란 random 은 굉장히 유용한 여러가지 함수들을 포함하고 있는 모듈 무작위로 여러가지의 작업을 수행해준다 1. 난수 생성 (실수 혹은 정수) 2. 무작위 추출 3. 무작위로 순서 섞기 (셔플) 등등 ■ 랜덤 모듈 임포트 랜덤 모듈이 포함된 함수 전체를 사용하기 위해서 먼저 import를 해줘야 한다 #랜덤모듈 전체 임포트 import random #랜덤모듈이 포함하는 일부 함수만 임포트 from random import random, randint, randrange ■ 각 함수의 기능 random( ) : 0 이상 1 미만의 실수 난수 생성 random.random() randint( ) : 정수 난수 생성 random.randint( ) random.randint(start, st..

| 결측치 확인 DataFrame.isna( ) = isnull( ) DataFrame.notna( ) = notnull( ) isna 메서드와 notna 메서드는 DataFrame 내의 결측값을 확인해서 bool 형식으로 반환하는 메서드 입니다. isna 의 경우 결측값이면 True, 정상값이면 False notna 의 경우 결측값이면 False, 정상값이면 True col = ['col1','col2','col3','col4'] row = ['row1','row2','row3'] data = [[1,2,pd.NA,4], [np.nan,6,7,8], [9,10,11,None]] df = pd.DataFrame(data,row,col) print(df.isna()) >> col1 col2 col3 col..

| 결측치 제거 Pandas로 데이터를 다루다보면 특정 셀의 정보가 NaN으로 표시될 때가 있음 → 결측치 결측값 - NaN, NA, None... 결측값이란 데이터에 존재해야 하지만 누락되어 존재하지 않는 값 NaN (Not a Number) 의 약어 결측값이 많을 경우 데이터의 통계적 신뢰성이 떨어지고 모델링에 악영향을 끼치기 때문에 전처리 필요 dropna fillna ■ dropna dropna 함수는 결측값이 포함된 행이나 열을 삭제하는데 사용 DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False) axis : {0: index / 1: columns} 결측치 제거를 진행 할 레이블입니다. how : {'any' ..

| 데이터 프레임 인덱싱 데이터 프레임에서 특정 행이나 열(Column)을 골라낼 때 사용하는 방법 ■ 01. loc loc 은 location 의 약어 데이터 프레임의 행 / 칼럼의 라벨이나 불(bool)로 인덱싱하는 방법 사람이 읽을 수 있는 라벨 값으로 특정 값들을 불러오는 방법 □ 데이터 프레임의 행과 열 불러오기 df.loc[행 인덱싱 값, 열 인덱싱 값] df.loc[0] -- 행의 값이 0인 데이터 값 불러와줘 df.loc[0, 'Name'] -- 행의 값이 0인 데이터에서 'Name'(컬럼값)의 값을 불러와줘 □ 데이터 프레임의 범위 불러오기 df.loc[:] -- 전체 값을 보여줘 df.loc[:,:] -- 전체 행의 전체 열(컬럼)값을 보여줘 df.loc[:, 'Name'] -- 전체 ..

| 시간, 날짜 관련 문법 파이썬에는 날짜 관련 다양한 타입이 있다 python 날짜 관련 타입 datetime timestamp ■ 날짜 관련 타입 {date}은 datetime 모듈에서 생성 {datetime} 은 datetime 모듈에서 생성 {Timestamp} 는 Pandas 모듈에서 생성 # datetime import datetime datetime.date(1990,10,26) datetime.datetime(1990,10,26,06,30) # Pandas import pandas as pd pd.Timestamp('1990-10-26T06:30:00') ■ datetime 모듈 함수 작성 내용 데이터타입 datetime.date 시간대가 없는 날짜 {date} 타입 datetime.dat..

파이썬 문법 뽀개기 목표 적어도 이번 강의에 포함되어 있는 모든 문법은 숙지하고 있기로 해요-! 화이팅 화이팅 여러 강의들에서 파이썬을 사용하는 방법을 알려주기 위해 온라인 사이트 등을 활용하기만 했는데, 이번에는 직접 Pycharm을 설치하는 것도 배울 수 있어서 좋았고 훨씬 재밌었다! 강의 내용 (잊지 말아야 하는 것들만 작성) 연산 기호 + , - , * / // % ** 더하기, 빼기, 곱하기 나누기 나눗셈 후 정수만 나눗셈 후 나머지만 거듭제곱 - 숫자 간에는 사칙연산 가능 - 문자에 +(더하기) 사용 시에는 두 문자형 데이터 붙이는 것으로 작용 문자열 다루기 - 문자는 따옴표(' ') 혹은 큰 따옴표(" ")로 감싸서 구분 - 문자와 정수를 더하면 에러 남 a = 'aa' b = "bb" pr..

실전 데이터분석 다시보기 진행과정 강의를 들으면서 강의자료를 보지않고 작성할 수 있는 코드는 스스로 작성해보기 유사한 코드는 다른 케이스를 찾아보며 비교하면서 이해하기 주요 내용 ① 요일 및 시간 별 수강생 숫자 구하기 ○ 순서 1. 날짜 포맷 설정 2. 날짜 포맷 변경 3. 요일 추출 4. 요일 인덱스 설정 5. 요일 별 수강생 숫자 구하기 6. 시간 추출 7. 시간 별 수강생 숫자 구하기 더보기 1) format = '%Y-%m-%dT%H:%M:%S.%f' 2) sparta_data['date_time'] = pd.to_datetime(sparta_data['date'], format=format) (date_time 컬럼생성) .to_datetime (바꿀 컬럼 선택, 포맷은 위 포맷처럼) 3) s..

데이터 분석 종합반 ○ 데이터 분석이 필요한 이유 - 내 주장을 데이터를 기반으로 확실하게 전달하기 위하여! - 하고자하는 목표에 대한 명확한 근거를 데이터로 보여줄 수 있는 무기! - 캐글(kaggle) : 데이터 사이언티스트들에게 아주 유명한 커뮤니티 플랫폼 : Superstore Dataset : https://www.kaggle.com/datasets/vivek468/superstore-dataset-final ○ 데이터 분석 과정 더보기 더보기 [데이터 분석 종합반 2주차] ○ 파이썬 - 컴퓨터와 쉽게 소통할 수 있도록 도와주는 프로그램 - 라이브러리(다른 사람이 만들어놓은 코드모음집)를 활용하여 코딩 작업 더보기 더보기 ○ Pandas 와 Matplotlib 활용 - 데이터 분석 3단계 데이터..