Polpid's Pensieve

최근에 Chat GPT 에 대한 관심이 정말 뜨겁다. 다양 분야에서 Chat GPT 를 적용하려고 시도하고 있다. 하지만 단순 검색(?)으로 활용하는것 이외에 어떻게 질문을 해야하는지 정확히 모르는 경우가 많다. 나도 GPT 를 사용할 때에 구글 검색 대신 사용하는 경우가 많았다. 그러던 중 GPT 에 대한 기본적인 지식과 사용법을 알수 있는 책을 읽게 되었다. 최근에 읽었던 기술 서적 중에서는 가장 읽기 쉬었고 재미있었다.

다음은 내가 책을 읽으면서 기억하면 좋을것 같은 단어, 또는 정의를 메모해봤다. GPT 또는 LLM 을 찾아보면 항상 나오는 단어들이다. 책에서 쉽게 설명해준 덕분에 이해하는데 많은 도움이 됐다.

프롬프트 & 프롬프트 엔지니어링
- 프롬프트 : AI 모델에게 내리는 지시사항.
- 프롬프트 엔지니어링 : AI 모델이 좋은 결과물을 내도록 잘 지시하는 방법.

프롬프트 엔지니어링 노하우
- 지시는 짧고 간결하게. 그리고 확실하게 한다.
- 내용이 길다면 구역 확실하게 정해주기.
- 답변 방식 확실히 정해주기 (표, json, html 등)
- 예시 들어주기 : few-shot example

랭체인
- LLM 개발을 쉽게 만들어주는 소프트웨어 프레임워크
- 다양한 AI 모델, 에이전트 및 프롬프트를 구조적 방식으로 만들고 연결할 수 있는 파이썬 라이브러리
- 랭체인의 구성요소

임베딩
- 단어를 많이 쌓아서 분류해 둔 LLM 내의 언어 창고 안에서 어떤 위치의 무엇과 제일 가까운지 컴퓨터가 쉽게 찾을 수 이쓴ㄴ 형태로 변환해 주는것.
- 임베딩은 단어나 문장의 의미와 문맥을 반영하여 이를 통해 컴퓨터는 단어나 문장 사이의 관계를 이해하고 문장을 생성하거나 분류하는 작업을 수행할 수 있다.
- 임베딩이 사용되는 분야 : 검색, 클러스터링, 추천, 이상탐지, 다양성측정, 분류.

여기에는 기록하지 않았지만 실습을 통해서 GPT 를 사용해보는 내용이라든지 코드를 이용해서 실행하는 방법들도 쉽게 따라해볼수 있었다. 최근들어 GPT 관련 공부를 어떻게 해야 할지 막막했었는데 이 책을 통해서 많은 것들을 이해할 수 있었다. 나처럼 GPT 에 대해서 공부하는데 어려움을 겪고 있는 분들이라면 한번 읽어보는 것을 추천한다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

728x90

저작자표시 비영리 변경금지

'Enjoy Life > 책을 읽자!!' 카테고리의 다른 글

만들면서 배우는 생성 AI 리뷰 (0)	2023.10.29
크리에이티브 프로그래머 리뷰 (0)	2023.09.24
MLOps 실전 가이드 리뷰 (0)	2023.07.23
행동 데이터 분석 리뷰 (0)	2023.06.20
AWS 기반 데이터 과학 리뷰 (0)	2023.05.21

1. 아나콘다 설치 경로 확인하기

➜  ~ conda info                      

     active environment : None
            shell level : 0
       user config file : /Users/sanghyunkim/.condarc
 populated config files : 
          conda version : 23.3.1
    conda-build version : 3.23.3
         python version : 3.10.10.final.0
       virtual packages : __archspec=1=x86_64
                          __osx=10.16=0
                          __unix=0=0
       base environment : /usr/local/anaconda3  (writable)
      conda av data dir : /usr/local/anaconda3/etc/conda
  conda av metadata url : None
           channel URLs : https://repo.anaconda.com/pkgs/main/osx-64
                          https://repo.anaconda.com/pkgs/main/noarch
                          https://repo.anaconda.com/pkgs/r/osx-64
                          https://repo.anaconda.com/pkgs/r/noarch
          package cache : /usr/local/anaconda3/pkgs
                          /Users/sanghyunkim/.conda/pkgs
       envs directories : /usr/local/anaconda3/envs
                          /Users/sanghyunkim/.conda/envs
               platform : osx-64
             user-agent : conda/23.3.1 requests/2.28.1 CPython/3.10.10 Darwin/22.5.0 OSX/10.16
                UID:GID : 501:20
             netrc file : None
           offline mode : False

2. 아나콘다 삭제

위에서 확인한 설치 경로를 적어주면 된다.

 rm -rf /usr/local/anaconda3

혹시 permission 에러가 나면 sudo 를 붙여서 실행하면 된다.

3. 환경변수 설정 변경

아나콘다 관련 환경 변수와 설정을 제거하려면 사용자 홈 폴더에 있는 .bash_profile, .bashrc, .zshrc 같은 파일에서 아나콘다 경로 참조를 삭제해야 한다. 아래 내용은 아나콘다 설치시 .zshrc 에 설정해놓은 부분이다.

# >>> conda initialize >>>
# !! Contents within this block are managed by 'conda init' !!
__conda_setup="$('/usr/local/anaconda3/bin/conda' 'shell.zsh' 'hook' 2> /dev/null)"
if [ $? -eq 0 ]; then
    eval "$__conda_setup"
else
    if [ -f "/usr/local/anaconda3/etc/profile.d/conda.sh" ]; then
        . "/usr/local/anaconda3/etc/profile.d/conda.sh"
    else
        export PATH="/usr/local/anaconda3/bin:$PATH"
    fi
fi
unset __conda_setup
# <<< conda initialize <<<

4. 환경변수 적용

source source ~/.zshrc

728x90

저작자표시 비영리 변경금지

'Development > Python' 카테고리의 다른 글

[FastAPI] request body의 필수값 존재 여부에 따른 응답 (0)	2024.03.20
머신러닝 관련 용어 (0)	2023.06.12
colab 에서 kaggle 설정 (0)	2023.06.07
Pandas 사용 (0)	2023.05.23
NumPy 사용 (0)	2023.05.09

이 책은 실전 입문이라는 책 답게 ML 모델의 개발부터 배포, 운영까지의 전 과정을 다루고 있다. 머신 러닝 모델의 생애 주기를 다루면서 ML Ops의 필요성과 중요성을 알수 있다.

책은 총 12개의 장으로 구성되어 있고 각 장마다 다른 주제를 다루고 있다. 첫 장과 두번째 장에서는 ML Ops 의 기본 개념과 장점을 소개하고 있으며 세번째 장부터는 실전적인 내용들을 차례대로 접근한다. 데이터 수집, 모델 훈련, 평가, 배포, 모니터링, 유지지보수, 그리고 AWS, Azure, GCP 환경에서 활용하는 방법 등을 설명해준다.

최근 몇년 동안 머신 러닝 모델의 훈련과 개발은 크게 발전했지만 이를 공부하고 운영환경에 적용하는데에는 여전히 어렵다는게 현실이다. 그리고 개개인이 스스로 공부를 하면서 구축을 해보기에는 많은 도전과 시행착오가 필요하다. 그리고 여기저기 인터넷에 내용들이 많이 있지만 어떤 것들을 참고해봐야 할지 조차도 판단하기 어렵다. 그에 비해서 이 책은 ML Ops의 개념을 이해하기 쉽게 설명하고, 구현에 필요한 다양한 도구와 기술들을 소개함으로써 이러한 어려움을 해소해 주고있다.

그렇기 때문에 이 책은 개발자, 시스테관리자, 클라우드 엔지니어 등과 같이 머신 러닝모델을 개발하고 운영하는데 관심이 있는 모든 분들에게 도움이 될것 같다. 그리고 초보자들도 따라할 수 있도록 자세한 가이드를 제공하기 때문에 하나하나 따라 해볼수 있을 것이다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

728x90

저작자표시 비영리 변경금지

'Enjoy Life > 책을 읽자!!' 카테고리의 다른 글

크리에이티브 프로그래머 리뷰 (0)	2023.09.24
챗 GPT 개발자 핸드북 리뷰 (0)	2023.08.26
행동 데이터 분석 리뷰 (0)	2023.06.20
AWS 기반 데이터 과학 리뷰 (0)	2023.05.21
머신러닝 시스템 설계 리뷰 (1)	2023.04.22

내가 이 책을 선택 한 이유는 최근에 머신 러닝 관련 해서 관심을 갖고 있었고 데이터 분석에 대한 내용이 궁금 했기 때문이었다. 머신러닝에 관심은 있지만 아직은 공부하는데 어려움을 겪고 있었기에 최근에 관련 책들을 읽어보고 있으나 이마저도 이해하는데는 쉽지 않은것 같다.

이 책은 데이터를 어떻게 분석을 하는지에 대한 내용을 담고있다. 우리가 매일매일 무수히 많은 도구를 통해서 얻을 수 있는 데이터들을 어떻게 연관짓고, 어떻게 의미있는 결과로 도출 하는지에 대한 내용들이다. 거기에다 그것을 이용한 사용자의 행동들을 어떻게 유추할 수 있는지 알려준다.

이 책을 읽으면서 내가 느꼈던 부분들은 다음과 같다
- 이 책은 수식이 들어가지 않는 설명 부분은 이해하는데 큰 어려움이 없었다.
- 수식은 내게는 어려웠다. 선형대수학, 미적분학등 기호조차도 생소한 수식은 이해할수가 없었다.
- 차트와 관련된 내용은 이해까지는 가능 했지만 관련 통계 용어가 나오는 부분들은 어려웠다. (일단 통계 용어 자체도 생소했기 때문이다.)
- R과 파이썬 관련 예제들은 그냥 스킵해도 된다. 예제들이 있긴 하지만 코드보다는 설명을 더 꼼꼼히 읽어보는게 더 낫다는 생각이 들었다. 코드가 없었어도 이상하지 않았을것 같다.

모든 머신러닝 관련 책들은 내 기준에는 쉽지 않은 책들이다. 이 책도 마찮가지 이다. 쉬운부분이 있긴 하지만 문제는 쉬운 부분 가지고는 공부에 발전이 없다. 이런 종류의 책들을 좀더 읽어보면 언젠가는 쉽게 다가올수 있지 않을까 생각이 된다. 한마디로 열심히 읽어야 한다. ^^

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

728x90

저작자표시 비영리 변경금지

'Enjoy Life > 책을 읽자!!' 카테고리의 다른 글

챗 GPT 개발자 핸드북 리뷰 (0)	2023.08.26
MLOps 실전 가이드 리뷰 (0)	2023.07.23
AWS 기반 데이터 과학 리뷰 (0)	2023.05.21
머신러닝 시스템 설계 리뷰 (1)	2023.04.22
김범준의 핸즈온 리액트 네이티브 리뷰 (0)	2023.03.24

지도학습

회귀(Regression) : 정답이 연속형 변수
분류(Classification) : 정답이 비연속형(범주형) 변수

비지도 학습

군집분석(Clustering) : 주어진 데이터가 어떻게 구성되어있는지.
강화학습(Reinforcement Learning) : 행동에 따른 보상을 최대화 시키는 방법

선형회귀(Linear Regression)

예측값을 직선으로 표현하는 모델
실제 값을 잘 예측하는것을 목표로 한다.

Classification 과 Clustering 의 차이

Classification 은 새로운 데이터를 알고있는 레이블에 포함시키는것.
- 정해진 그룹의 데이터를 파악하여 특징을 찾아 새로운 데이터를 정해진 그룹에 포함시키는것.
Clustering 은 데이터의 패턴을 찾아 그룹을 만들어 내는것.
- 유사한 성질을 갖고 있는 것끼리 그룹을 만드는것.
- 데이터 세트의 그룹이 2개가 될수 있고 3개가 될수도 있다.

인공신경

노드, 엣지로 이루어진다.
weight(중요도) 곱하고 bias(민감도) 더한다. (함수이다.)
AI 가 학습한다 라는 것은 주어진 입력에 대해서 원하는 출력이 나오도록 W, B 를 AI 가 알아내는것을 의미한다.

Hyperparameter (정해줘야 하는 숫자 ) <> 반대로 AI 가 정하는 숫자는 파라미터 (weight, bias)

Epoch : 전체 데이터를 몇번 반복할것인지. - 하나의 Epoch 은 전체 데이터 셋에 대해서 forward pass, backward pass 과정을 거친것을 말한다.
Batch size : 하나의 Epoch 을 돌때 데이터를 나눠서 학습하기도 하는데 나누어진 데이터를 Batch 라고 하며 그 크기를 Batch size 라고 한다.
Iteration : 하나의 Epoch 을 완료할때 필요한 Batch 수
- EX : 700 개의 데이터 를 하나당 100개씩 batch 로 나누었을때 1-epoch 을 위해서는 7 Iteration 이 필요하다.

Training vs Test (vs Validation)

Training data : 파라미터 학습을 위한 data
Test data : 최종적으로 학습된 모델 테스트용 data
Validation Data : 하이퍼 라마미터 선택을 위한 data
Test data 로 학습을 하면 안된다. 이유는 Test Data 로 학습을 하게 되면 처음 보는 data에 대한 결과값을 얻을수 없기 때문이다.

728x90

저작자표시 비영리 변경금지

'Development > Python' 카테고리의 다른 글

[FastAPI] request body의 필수값 존재 여부에 따른 응답 (0)	2024.03.20
맥(Mac)에서 아나콘다(Anaconda) 제거하기 (0)	2023.08.11
colab 에서 kaggle 설정 (0)	2023.06.07
Pandas 사용 (0)	2023.05.23
NumPy 사용 (0)	2023.05.09

설치

!sudo pip install kaggle

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting kaggle
  Downloading kaggle-1.5.13.tar.gz (63 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 63.3/63.3 kB 4.4 MB/s eta 0:00:00
Successfully built kaggle
Installing collected packages: kaggle
Successfully installed kaggle-1.5.13

kaggle api 받기

kaggle 로그인 > profile > api > Create New Token 클릭
json 파일이 다운 로드 됨
json 파일에는 username 과 key 값이 존재함.

colab 에 kaggle.json 파일 생성 및 copy

# kaggle.json 파일을 colab 에 생성 (생성하지 않고 다운로드된 파일을 직접 업로드 해도 된다.)
!echo "{\"username\":\"########\",\"key\":\"###############################\"}" > kaggle.json

# kaggle 에서 받은 key 파일 이동
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

!kaggle --version

# 아래와 같이 username 과 key를 환경변수로 넣어줘도 된다는것 같은데 안되서 위 방법을 사용함.
!export KAGGLE_USERNAME=########
!export KAGGLE_KEY=###############################

728x90

저작자표시 비영리 변경금지

'Development > Python' 카테고리의 다른 글

맥(Mac)에서 아나콘다(Anaconda) 제거하기 (0)	2023.08.11
머신러닝 관련 용어 (0)	2023.06.12
Pandas 사용 (0)	2023.05.23
NumPy 사용 (0)	2023.05.09
Conda python 버전 업데이트 (0)	2023.04.15

시리즈(Series)

데이터가 순차적으로 나열된 1차원 배열 형태
딕셔터리로 Series 생성시 -> key 는 시리즈의 인덱스와 대응된다.
리스트로 Series 생성시 -> 리스트의 인덱스가 시리즈의 인덱스로 대응된다.

dict_data = {'a':1,'b':2,'c':3}
series_data=pd.Series(dict_data)

a    1
b    2
c    3

list_data = ['2022-10-11',3.14,'ABC',100,True]
series_data1=pd.Series(list_data)

0    2022-10-11
1          3.14
2           ABC
3           100
4          True

데이터프레임(DataFrame)

행과 열로 만들어지는 2차원 배열 형태
열은 각각의 시리즈 객체이다. key 값이 열 이름이 된다.

dict_data = {'c0':[1,2,3],'c1':[4,5,6],'c2':[7,8,9],'c3':[10,11,12],'c4':[13,14,15]}
df=pd.DataFrame(dict_data)

   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15

데이터 내용 확인
- columns : 컬럼명 확인
- head() : 상단 5개 확인
- tail() : 하단 5개 확인
- shape : 행,열 크기 확인
- info() : 데이터에 대한 정보 확인 - 행,열 크기, 컬럼명
- type() : 데이터 타입

열선택
- 열 1개 선택 : 시리즈 객체를 반환한다.

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

names = t['Name'].head()   # t.Name 으로도 사용 가능
print(names)
print(type(names))
0                                Kelly, Mr. James
1                Wilkes, Mrs. James (Ellen Needs)
2                       Myles, Mr. Thomas Francis
3                                Wirz, Mr. Albert
4    Hirvonen, Mrs. Alexander (Helga E Lindqvist)
Name: Name, dtype: object
<class 'pandas.core.series.Series'>

열 다중 선택 : 데이터 프레임으로 반환 한다.

names_age = t[["Name", "Age"]]
print(names_age)
print(type(names_age))

                                           Name   Age
0                              Kelly, Mr. James  34.5
1              Wilkes, Mrs. James (Ellen Needs)  47.0
2                     Myles, Mr. Thomas Francis  62.0
3                              Wirz, Mr. Albert  27.0
4  Hirvonen, Mrs. Alexander (Helga E Lindqvist)  22.0
<class 'pandas.core.frame.DataFrame'>

데이터 필터링

PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin	Embarked
0	892	0	3	Kelly, Mr. James	male	34.5	0	0	330911	7.8292	NaN	Q
1	893	1	3	Wilkes, Mrs. James (Ellen Needs)	female	47.0	1	0	363272	7.0000	NaN	S
2	894	0	2	Myles, Mr. Thomas Francis	male	62.0	0	0	240276	9.6875	NaN	Q
3	895	0	3	Wirz, Mr. Albert	male	27.0	0	0	315154	8.6625	NaN	S
4	896	1	3	Hirvonen, Mrs. Alexander (Helga E Lindqvist)	female	22.0	1	1	3101298	12.2875	NaN	S

Boolean 인덱싱 : true 만 추출

# 35살 초과인 데이터 추출
d1 = t["Age"]>35
print(t[d1])

   PassengerId  Survived  Pclass  \
1           893         1       3   
2           894         0       2   
11          903         0       1   
13          905         0       2   
14          906         1       1

isin() : 각각의 요소가 데이터 프레임, 시리즈에 존재하는지 파악하여 true/false 반환

# Pclass 변수의 값이 1일 경우, True/False 값 반환
t['Pclass'].isin([1])

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin	Embarked
11	903	0	1	Jones, Mr. Charles Cresson	male	46.0	0	0	694	26.0000	NaN	S
12	904	1	1	Snyder, Mrs. John Pillsbury (Nelle Stevenson)	female	23.0	1	0	21228	82.2667	B45	S
14	906	1	1	Chaffee, Mrs. Herbert Fuller (Carrie Constance...	female	47.0	1	0	W.E.P. 5734	61.1750	E31	S
20	912	0	1	Rothschild, Mr. Martin	male	55.0	1	0	PC 17603	59.4000	NaN	C
22	914	1	1	Flegenheim, Mrs. Alfred (Antoinette)	female	NaN	0	0	PC 17598	31.6833	NaN

isna() : 결측값은 true 반환, 그외에는 false 반환
notna() : 결측값은 false 반환, 그외에는 true 반환

9	901	0	3	Davies, Mr. John Samuel	male	21.0	2	0	A/4 48871	24.1500	NaN	S
10	902	0	3	Ilieff, Mr. Ylio	male	NaN	0	0	349220	7.8958	NaN	S

t["Age"].isna()[0:12]  #10번째에 Age 가 NaN
9     False
10     True			# NaN 은 true 값 반환
11    False

t[t["Age"].isna()].head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin	Embarked
10	902	0	3	Ilieff, Mr. Ylio	male	NaN	0	0	349220	7.8958	NaN	S

결측치 제거
- dropna(axis=0) : 결측치 존재하는 행 전체 제거
- dropna(axis=1) : 결측치 존재하는 열 전체 제거
이름과 인덱스로 행, 열 선택
- loc[] : 행 이름과 열 이름 사용
- iloc[] : 행번호와 열 번호 사용

# 나이가 35세 초과인 사람의 이름과 나이 출력
t.loc[t['Age']>35, ['Name', 'Age']]

통계 관련 기능
- mean() : 평균값
- median() : 중앙값
- describe() : 통계 요약
- agg() : 여러개 열에 여러 함수 적용
- groupby() : 그룹별 집계
- value_counts() : 값 개수
행, 열추가
- DataFrame.loc[새로운 행 이름] = 데이터 값
- DataFrame['열이름']

728x90

저작자표시 비영리 변경금지

'Development > Python' 카테고리의 다른 글

머신러닝 관련 용어 (0)	2023.06.12
colab 에서 kaggle 설정 (0)	2023.06.07
NumPy 사용 (0)	2023.05.09
Conda python 버전 업데이트 (0)	2023.04.15
Mac 에서 Conda 설치 (0)	2023.04.05

AWS 를 이용해서 어떻게 파이프 라인을 구축하고 사용하는지 공부해보려고 이 책을 읽기 시작했다. 그런데 이책.. 생각보다 읽기가 쉽지 않다.
처음에는 챕터 1에서 AWS 기반 데이터 과학에 대한 소개가 이루어지고, 챕터 2에서는 AWS를 활용한 모범사례가 소개되어있다. 그러나 이 부분에서는 다양한 기술과 내용들이 많이 다뤄져서 진도를 나가기가 어려웠다. 특히, AWS에 대한 기반 지식이 부족한 나에게는 쉽게 이해되지가 않았다.
그래서 생각해 보니 챕터 3부터 시작해서 주요 기술이 자세히 설명되어 있는 부분부터 읽는 것도 좋을것 같았다. 책을 읽으면서 중요한 기술들을 학습하고, 해당 내용을 실습하며 익히다 보면 보다 쉽게 파이프 라인 구축에 도움이 될것이다.

이 책을 읽으면서 가장 큰 단점은 이미지나 캡쳐 화면과 같은 시각적인 자료가 부족하다는 점이다. 텍스트로만 설명 되어 있어 설정 값들과 텍스트가 의미하는 것들을 이해하는 데에 어려움이 많았다. 책에 시각적인 자료를 추가하거나 관련된 예시와 함께 설명해 주면 내용을 보다 쉽게 이해할 수 있을 것이다.
결론적으로, 이 책은 AWS에 대한 기반 지식이 있는 독자들에게 더 유익하게 다가갈 수 있을것이다. 그리고 책을 공부하기 위해서는 먼저 AWS 에 대한 기반 지식을 충분히 습득한 후에 읽는것이 좋을것 같다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

728x90

저작자표시 비영리 변경금지

'Enjoy Life > 책을 읽자!!' 카테고리의 다른 글

MLOps 실전 가이드 리뷰 (0)	2023.07.23
행동 데이터 분석 리뷰 (0)	2023.06.20
머신러닝 시스템 설계 리뷰 (1)	2023.04.22
김범준의 핸즈온 리액트 네이티브 리뷰 (0)	2023.03.24
러닝 타입스크립트 리뷰 (0)	2023.02.24

NumPy 배열

차원(Dimension)을 축(axis)이라고 표현한다.

배열 속성값

shape : 배열의 각 축(axis)의 크기
ndim : 축의 개수(Dimension)
dtype : 각 요소(Element)의 타입
itemsize : 각 요소(Element)의 타입의 bytes 크기
size : 전체 요소(Element)의 개수

배열 생성

np.array 이용 : 튜플이나 List 입력
```
print(np.array([2,3,4]))
[2 3 4]
```

np.zeros(shape) : 0 으로 구성된 N 차원 배열 생성

print(np.zeros((3,4)))
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]

np.ones(shape) : 1로 구성된 N차원 배열 생성

print(np.ones((2,3,4)))
[[[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]
 [[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]]

np.empty(shape) : 초기화 되지 않은 N차원 배열 생성

print(np.empty((2,3)))
[[2.45757343e-316 0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 0.00000000e+000]]

np.arange(start, stop, step): N 만큼 차이나는 숫자 생성, stop 은 포함되지 않는다
```
print(np.arange(0, 10, 2))
[0 2 4 6 8]
```

np.linspace(start, stop, num): N 등분한 숫자 생성, 처음, stop 포함됨.

print(np.linspace(0,99, 100))
[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. 16. 17.
 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35.
 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53.
 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71.
 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83. 84. 85. 86. 87. 88. 89.
 90. 91. 92. 93. 94. 95. 96. 97. 98. 99.]

기본 연산

"*" : 각각의 원소끼리 곱셈

@ : 행렬 곱셈

A = np.array( [[1,1], [0,1]] )
B = np.array( [[2,0], [3,4]] )
print(A)
print(B)
---------------
[[1 1]
 [0 1]]
[[2 0]
 [3 4]]

print(A*B)
print(A@B)
---------------
[[2 0]
 [0 4]]
[[5 4]
 [3 4]]

집계함수
- sum
- min
- max
- argmax : 최대값 인덱스
- cumsum : 누적합
- axis 값을 매개변수로 입력하면 축을 기준으로 연산이 가능하다.
  - axis=0 (열기준)
  - axis=1 (행기준)
```
b = np.arange(12).reshape(3, 4)
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

 print(b.sum(axis=0))
 [12 15 18 21]
 print(b.sum(axis=1))
 [ 6 22 38]
```

인덱싱, 슬라이싱

배열 자체를 가지고 인덱싱이 가능 하다. 배열의 인덱스 값으로 배열 자체가 들어갈 수도 있다.

a = np.arange(12).reshape(3,4)
print(a)
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

b=a>4
print(b)
[[False False False False]
 [False  True  True  True]
 [ True  True  True  True]]

print(a[b])
a[b].shape 
[ 5  6  7  8  9 10 11]
(7,)

a[b]=0
print(a)
[[0 1 2 3]
 [4 0 0 0]
 [0 0 0 0]]

크기 변경

revel : 1차원으로 변경
reshape : 지정한 차원으로 변경
T : 전치 변환

a = np.arange(12).reshape(3,4)
print(a)
print(a.shape)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
(3, 4)

print(a.ravel())   # a.reshape(-1)
[ 0  1  2  3  4  5  6  7  8  9 10 11]

print(a.T)
[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]

데이터 합치기

vstack (열기준), hstack(행기준)

a = np.array([1, 2, 3, 4]).reshape(2, 2)
print(a)
[[1 2]
 [3 4]]

b = np.array([5, 6, 7, 8]).reshape(2, 2)
print(b)
[[5 6]
 [7 8]]

print(np.vstack((a,b)))
[[1 2]
 [3 4]
 [5 6]
 [7 8]]

print(np.hstack((a,b)))
[[1 2 5 6]
 [3 4 7 8]]

hsplit

숫자 1개일경우 숫자기준으로 X개 등분

리스트 넣을 경우 인덱스 기준 분할 (start, end) 일경우 end 는 포함되지 않음

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]

np.hsplit(a, 3)
[array([[0,1],[6,7]]), 
 array([[2,3],[8,9]]), 
 array([[4,5],[10,11]])]

np.hsplit(a, (3,4))
[array([[0, 1, 2],[6, 7, 8]]), 
 array([[3],[9]]), 
 array([[ 4,  5],[10, 11]])]

728x90

저작자표시 비영리 변경금지

'Development > Python' 카테고리의 다른 글

colab 에서 kaggle 설정 (0)	2023.06.07
Pandas 사용 (0)	2023.05.23
Conda python 버전 업데이트 (0)	2023.04.15
Mac 에서 Conda 설치 (0)	2023.04.05
파이썬 가상 환경 실행 및 VS Code 설정 (0)	2023.03.27

Polpid's Pensieve

전체 글

챗 GPT 개발자 핸드북 리뷰

'Enjoy Life > 책을 읽자!!' 카테고리의 다른 글

맥(Mac)에서 아나콘다(Anaconda) 제거하기

1. 아나콘다 설치 경로 확인하기

2. 아나콘다 삭제

3. 환경변수 설정 변경

4. 환경변수 적용

'Development > Python' 카테고리의 다른 글

MLOps 실전 가이드 리뷰

'Enjoy Life > 책을 읽자!!' 카테고리의 다른 글

행동 데이터 분석 리뷰

'Enjoy Life > 책을 읽자!!' 카테고리의 다른 글

머신러닝 관련 용어

지도학습

비지도 학습

선형회귀(Linear Regression)

Classification 과 Clustering 의 차이

인공신경

Hyperparameter (정해줘야 하는 숫자 ) <> 반대로 AI 가 정하는 숫자는 파라미터 (weight, bias)

Training vs Test (vs Validation)

'Development > Python' 카테고리의 다른 글

colab 에서 kaggle 설정

'Development > Python' 카테고리의 다른 글

Pandas 사용

시리즈(Series)

데이터프레임(DataFrame)

데이터 필터링

'Development > Python' 카테고리의 다른 글

AWS 기반 데이터 과학 리뷰

'Enjoy Life > 책을 읽자!!' 카테고리의 다른 글

NumPy 사용

NumPy 배열

배열 속성값

배열 생성

기본 연산

'Development > Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바