[A.I] 응용사례 : 광고 클릭률 연습문제
범주형 특징을 수치형 특징으로 변환하는 방법 두가지 원 핫 인코딩 : 범주형 데이터를 이진 벡터로 변환 → 데이터 차원이 커질 우려 순서 인코딩: 범주형 데이터를 중요한 순서대로 숫자로 변환 → 순서가 명확할 때 유리  로지스틱 함수 :로지스틱 함수는 S자 형태의 곡선을 그리는 함수로, 주로 이진 분류 문제에서 사용되는 활성화 함수입니다. 이 함수는 특정 입력 값을 0과 1 사이의 값으로 변환하여 출력합니다. 입력 값이 작을수록 0으로, 입력값이 클수록 1로 수렴하며 입력값이 0일때는 0.5를 출력한다  학습률의 역할과 학습률을 설정할 때 주의점학습률은 경사하강법에서 파라미터를 업데이트할 때 이동하는 거리를 의미하고, 학습률이 너무 크면 최적값을 지나칠 수 있고, 너무 작으면 학습 속도가 느려진다.  비..
2024.06.17
[A.I] 파이썬으로 만드는 인공지능 9장 이론 연습 문제
9장탐험형 정책과 탐사형 정책의 차이:탐험형 정책은 전체에서 무작위로 데이터를 선정하는 방법이고, 탐사형 정책은 승률이 높은 손잡이를 주로 선택하는 방법이다이는 적절한 균형이 필요한데, 이에 대해 적절한 균형을 제시하는 방법이 입실론 탐욕 알고리즘이다. 입실론 탐욕 알고리즘은 기본적으로 Greedy 한 성질을 가지고 있지만, 입실론 비율 만큼의 탐험을 적용하여 탐사와 탐험의 적절한 균형을 추구하는 성질을 가지고 있다.몬테카를로 방법은 데이터를 가지고 가치 함수를 계산하며, 에피소드를 여러번 시뮬레이션하고, 각 에피소드에서 얻은 보상을 평균하여 상태의 가치를 추정하는 방식이다또한 몬테카를로 방식은 데이터 기반으로 가치 함수를 계산하고 부트스트랩이 아니라는 장점이 존재한다.에피소드 생성 → 보상 계산 → 가..
2024.06.14
no image
[A.I] 파이썬으로 만드는 인공지능 9장
9장 강화 학습과 게임 지능다중 손잡이 밴딧 문제1달러를 넣고 손잡이를 골라잡아 당기면 1달러를 잃거나 획득이때 손잡이 마다 확률이 존재, 사용자는 확률을 알 수 없다행동 집합 {손잡이1, 손잡이2, 손잡이3 ,… 손잡이 n}보상 집합 {1,-1}위 문제는 상태변화가 존재하지 않고 행동 → 보상 사이클 개념탐험형 정책: 처음부터 끝까지 무작위로 선택탐사형 정책: 몇번 시도 후에 승률이 가장 높은 것을 채택하는 극단적인 방법→ 둘 사이의 균형이 중요그리디 알고리즘: 과거와 미래를 고려하지 않고 순간의 정보만 가지고 현재 최고의 유리한 선택을 하는 알고리즘 → 탐사형에 가까움ε-탐욕 알고리즘: 기본적으로 그리디 알고리즘이지만 ε 비율 만큼만 탐험을 적용하여 탐사와 탐험의 균형을 추구한다입실론 그리디 알고리즘..
2024.06.14
[A.I] 파이썬으로 만드는 인공지능 8장 이론 연습 문제
8장시계열 데이터란 무엇이고, 이러한 시계열 데이터의 특성은 무엇이 있는지 서술하시오시계열 데이터란 시간 정보가 들어 있는 데이터를 의미하며, 실시간성이 반영되는 데이터를 의미한다. 즉 동적 데이터이다.이러한 시계열 데이터의 특성으로는 요소의 중요성, 길이가 다른 샘플, 문맥 의존성, 계절성이 반영된다는 특성이 존재한다.이러한 시계열 데이터를 딥러닝에 반영하는 방법은 LSTM과 순환신경망이 있다.데이터 샘플의 길이가 너무 길 때, 미래 예측을 위한 데이터를 준비하는 과정에 대해 설명하시오→ 데이터를 준비하는 과정에서 데이터의 길이가 너무 길면, 데이터를 적절한 조각 단위로 분할하여 계산하여야하는데, 이때 이러한 조각의 구성요소의 수를 w 라는 단위로 잘라 여러개의 샘플을 수집한다. 그 다음에는 얼마만큼 ..
2024.06.13
no image
[A.I] 파이썬으로 만드는 인공지능 8장
8장 시계열 데이터와 순환 신경망시계열 데이터란 시간 정보가 들어있는 데이터시계열 데이터는 시간 축을 따라 신호가 변하는 동적 데이터,앞서 다룬 SVM, 깊은 다층 퍼셉트론, 컨볼루션 신경망 등은 정적 데이터를 입력 → 시계열 데이터 부적합시계열 데이터를 정적 데이터로 변환하면 정보 손실이 크다시계열 데이터의 특성:요소의 순서가 중요: 문장의 의미가 회손 될 수 있다샘플의 길이가 다르다: 짧은 발음, 긴 발음문맥 의존성: 앞 과 뒤의 밀접환 관련성계절성: 상추 판매량, 미세먼지 수치 등딥러닝에서는 시계열 특성을 반영하는 순환신경망 또는 LSTM 사용순환 신경망의 사용미래 예측언어 번역음성 인식생성 모델미래 예측을 위한 데이터를 준비하는 과정 (데이터의 길이가 너무 길때)데이터를 준비하는 과정에서 데이터의..
2024.06.13
no image
[A.I] 파이썬으로 만드는 인공지능 7장
7장 지능 에이전트에이전트란 :일상생활에서 특정한 일을 대신 해주는 사람을 에이전트컴퓨터에서는 사람일을 대신하는 소프트웨어를 에이전트라고 함 → 지능 에이전트로봇은 가장 활동적이고 보편적인 지능 에이전트다지능 로봇의 수준조립용 → 자세가 제멋대로인 부품을 집는 로봇→ 청소용 로봇 → 모르는 건물에 진입하여 작전을 수행하는 빅독 → 휴머노이드→ 순서로 갈 수록 불확실성이 큰 과업을 처리한다.지능 에이전트는 지식 베이스가 필요하다지식 표현 방법론:규칙 기반: if - then 구조로 지식을 표현프레임 : 슬롯 - 값 쌍으로 지식 표현 (db와 비슷)의미망 : 그래프로 지식을 표현 → is - a 와 kind - of 관계를 주로 사용 온톨로지 RDF : 방대한 수의 트리플을 표현, 저장, 관리하는 기술 (트..
2024.06.09
no image
[A.I] 파이썬으로 만드는 인공지능 6장
6장 컨볼루션 신경망컨볼루션 연산은 특징 추출이나 신호 변환에 사용한다.커널은 어떤 특정한 신호의 값이 증가하거나 감소하는 지점을 찾아내는 특징을 가진다커널은 누가 만듦? 기존에는 사람이 설계 하지만 컨볼루션 에서 커널은 학습으로 자동으로 알아냄컨볼루션의 특징:커널에 따라 특징 맵을 추출 해준다원본 영상과 같은 크기의 특징 맵을 생성한다원본 영상 자체에 연산을 적용하므로 정보가 손실될 우려가 없다(기존에 다층 퍼셉트론은 2차원 구조를 1차원으로 펼쳐서 입력해야 했음)컨볼루션층은 표준 컨볼루션에 몇 가지 아이디어를 추가로 고려한다특징 맵이 작아지는 문제 해결을 위한 0덧대기 (추가로 복사 덧대기는 옆에 있는 숫자로 덧댄다)영상 크기를 축소 할 수 있는 보폭을 k로 설정 (k로 인하여 특징 맵을 1/k로 축..
2024.06.08
no image
[A.I] 파이썬으로 만드는 인공지능 5장
5장 딥러닝과 텐서플로이 장에서는 직접 구현하는 내용이 많다.나는 역시나 블로그에는 개념적인 부분만 정리해보고자한다1980년대 깊은 신경망: 구조적으로는 다층 퍼셉트론에 은닉층을 많이 두면 그것이 깊은 신경망→ 그레이디언트 소멸문제, 적은 데이터셋, 과다한 계산 시간 등의 이유로 학습이 잘 안됨.딥러닝의 기술 혁신 요인값 싼 GPU의 등장커진 데이터 셋의 크기학습을 효과적으로 할 수 있는 알고리즘의 등장텐서란? 딥러닝에서 다차원의 배열을 텐서라고 부름데이터를 텐서로 표현하고, 신경망의 가중치를 텐서로 표현한다.텐서의 구조1차원 : iris 샘플 하나2차원: iris 샘플 여러개, 명암 영상 한 장3차원: 명암 영상 여러 장, 컬러 영상 한장4차원: 컬러 영상 여러 장, 컬러 동영상 여러 장5차원: 컬러 ..
2024.06.07
no image
[A.I] 응용 사례 : 나이브 베이즈 영화 추천
아래 서술하는 자료는 유튜브 위니버스 님의 영상을 참고하여 작성하였습니다.https://www.youtube.com/watch?v=Y4ecU7NkiEIhttps://www.youtube.com/watch?v=me--WQKQQAo이진 분류: 두가지중 하나로 분류 ex) 스팸 메일 필터링, 고객 이탈 예측, 클릭률 예측, 암진단다중 클래스 분류(다항 분류) : 두개 이상의 클래스 존재 ex) 필기체 인식다중 레이블 분류: n개의 이진 분류 문제로 변환하고, 각각의 이진 분류 문제를 개별 이진 분류기로 처리나이브 베이즈 : 확률적 분류기나이브: 예측하려고 하는 특징이 상호 독립적이라는 가정하에 확률계산 단순화베이즈: 베이즈 정리를 기반으로 어떤 클래스에 관해 관찰한 입력 특징의 조건부 확률을 관찰한 특징이 어..
2024.06.06