Moments/Algorithm 8

[Statistics] 공간통계의 시작 📐 (공간자기상관/Moran's I/공간가중행렬/SLM/SEM) - 1편

공간데이터에 OLS 회귀분석을 적용하면, 잔차가 독립적이라는 가정이 자주 깨진다. 잔차를 지도 위에 시각화하면 유사한 값들이 공간적으로 군집하는 패턴이 나타나기 때문이다. 이는 전통적인 통계 모델이 공간적 의존성을 충분히 반영하지 못한다는 신호다. 공간통계는 그 불편함에서 출발한다. 이번 1편에서는 왜 OLS가 공간에서 한계를 가지는지, 그걸 진단하는 공간자기상관과 Moran's I, 분석의 핵심 재료인 공간가중행렬(W), 그리고 공간 구조를 모형에 반영하는 SLM과 SEM까지 정리해본다. 레츠꼬 📐 1. OLS(Ordinary Least Squares)가 놓치는 공간 의존성OLS(Ordinary Least Squares)는 회귀분석의 기본 중의 기본이다. 잔차의 제곱합을 최소화하는 방식으로 회귀계수..

Moments/Algorithm 2026.04.01

[ML] scikit-learn으로 ML 파이프라인 구현하기 🔧 (Column Transformer/Pipeline/Gradient Boosting)

데이터 분석 머신러닝을 배우다 보면 보통 전처리 → EDA → 스케일링 → 모델 학습 같은 흐름을 익히게 된다. 하지만 실제로는 이 과정을 각각 따로 다루는 것이 아니라 하나의 흐름으로 연결된 파이프라인으로 설계하는 방법을 알아야 한다. 이번 글에서는 scikit-learn의 Pipeline과 ColumnTransformer를 활용해서 전처리부터 예측까지 하나의 객체로 묶는 방법을 다뤄보았다. 레츠꼬 🔧 1. Machine Learning 파이프라인(Pipeline)이란?ML을 처음 배울 때는 데이터 불러오기 → 결측치 처리 → 스케일링 → 인코딩 → 모델 학습 → 예측을 각각 따로 코딩하는 경우가 많다.근데 이 방식은 실수가 생기기 쉽고 train 데이터 기준으로만 fit한 전처리를 test에도 동..

Moments/Algorithm 2026.03.25

[ML] 머신러닝 모델 평가 지표 총정리 📊 (RMSE, F1, AUC, MCC, Log Loss 등 14가지)

모델을 다 만들고 나면 결국 하나로 귀결된다. "이 모델 진짜 좋은 모델 맞을까?"처음엔 accuracy 하나만 보면 된다고 생각했지만, 데이터가 불균형한 상황에서는 accuracy가 99%여도 전혀 쓸모없는 모델일 수 있다. 회귀든 분류든, 상황에 맞는 지표를 골라 써야 비로소 모델의 성능을 제대로 판단할 수 있다. 이번 글에서는 회귀 지표 5가지 + 분류 지표 9가지, 총 14가지 평가 지표를 수식부터 코드까지 한 번에 정리해보았다. 레츠꼬 📊 1. 평가 지표 분류 한눈에 보기모델의 목적이 다르면 평가 방식도 달라진다. 크게 회귀(Regression)와 분류(Classification)로 나뉘고, 각각 쓰이는 지표가 완전히 다르다.Task 유형주요 지표예시 문제회귀MAE, RMSE, MAPE, R..

Moments/Algorithm 2026.03.22

[Algorithm] VAE(Variational Autoencoder) 개념과 이미지 생성 예제 🎨 (생성 AI 원리/잠재 공간/PyTorch 구현)

최근에 Stable Diffusion 구조 공부하다가 VAE(Variational Autoencoder)가 계속 등장해서 제대로 정리해보고 싶어졌다. GAN이나 Diffusion 모델에 비해 덜 주목받는 편이지만, 사실 생성 모델의 핵심 개념이 거의 다 녹아 있는 알고리즘이다.이번 글에서는 VAE의 개념부터 ELBO, Reparameterization Trick, 잠재 공간의 의미, 그리고 PyTorch로 직접 구현해서 이미지를 생성하는 것까지 한 번에 정리해본다. 레츠꼬 🎨 1. VAE(Variational Autoencoder)란? — Autoencoder와의 차이부터일반 Autoencoder(AE)는 입력 데이터를 압축(인코딩)했다가 다시 복원(디코딩)하는 구조다.중간에 압축된 표현을 잠재 벡터..

Moments/Algorithm 2026.03.22

[ML] DBSCAN 클러스터링 개념과 이상 탐지 적용 🔍 (밀도 기반 클러스터링/Anomaly Detection)

최근에 센서 데이터에서 이상 값(Anomaly)을 찾아내야 하는 작업이 생겼는데, 처음엔 그냥 평균 ± 표준편차로 잡으려다가 데이터 분포가 워낙 불규칙해서 제대로 된 탐지가 안 됐다. 그러다 알게 된 게 바로 DBSCAN이다.이 글에서는 DBSCAN의 핵심 개념과 동작 원리부터, 파라미터 튜닝 전략, 실제 데이터셋 기반 이상 탐지 적용까지 단계별로 정리해보겠다. 레츠꼬 🔎 1. DBSCAN이란?DBSCAN(Density-Based Spatial Clustering of Applications with Noise)은 이름 그대로 밀도(Density) 기반의 클러스터링 알고리즘이다.K-Means처럼 클러스터 수를 미리 지정할 필요 없고, 데이터가 촘촘하게 모여 있는 영역을 자동으로 클러스터로 묶어준다. ..

Moments/Algorithm 2026.03.20

[Algorithm] Transformer 구조 완전 정복 🗣️: Self-Attention부터 텍스트 분류 구현까지 언어모델 살펴보기

최근에 NLP 관련 프로젝트를 하다 "Transformer가 어떻게 동작하는 거야?"라는 질문이 들어오니까 제대로 설명을 못 했다. 그래서 이번 기회에 Transformer 구조를 처음부터 뜯어보고 간단한 텍스트 분류(Text Classification) 코드도 직접 구현해봤다.이 글에서는 Self-Attention이 뭔지, Encoder 구조가 어떻게 생겼는지, 그리고 PyTorch로 텍스트 분류까지 어떻게 연결되는지 쭉 다룰 예정이다. 1. Transformer란?Transformer는 2017년 구글이 발표한 논문 "Attention is All You Need"에서 처음 소개된 딥러닝 모델 구조다. 기존에 시퀀스 데이터를 처리하던 RNN(Recurrent Neural Network)이나 LST..

Moments/Algorithm 2026.03.09

[Algorithm] GNN(Graph Neural Network) 기초와 OSM 도로망 데이터로 그래프 구조 만들기 🌐

데이터 공부를 하다 보면 CNN, RNN 같은 신경망 모델은 익숙해지는데, 그래프 구조 데이터를 다루는 GNN(Graph Neural Network)은 생소한 경우가 많다.근데 알고 보면 도로망, 소셜 네트워크, 추천 시스템처럼 우리 주변에 그래프 구조인 데이터가 생각보다 엄청 많다. 특히 GIS를 공부하다 보면 도로망이나 공간 네트워크 데이터가 노드-엣지 구조 그 자체이기 때문에 GNN이랑 궁합이 잘 맞는다는 걸 느끼게 된다.오늘은 GNN의 기본 개념을 정리하고, 실제 도로망 데이터에 적용하는 예제까지 다뤄보려 한다. 레츠꼬 🌐 1. GNN(Graph Neural Network)이란?GNN은 그래프 구조 데이터를 처리하는 데 특화된 신경망 모델이다. 기존 CNN이나 RNN과 가장 다른 점은 입력 데..

Moments/Algorithm 2026.03.02

[Algorithm] 강화학습(Reinforcement Learning, RL) 개념과 grid world 경로 선택 예제🚦

데이터 공부를 시작하면 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)을 가장 먼저 배우게 된다.이때 지도학습과 비지도학습 말고 정답 여부가 아닌 보상을 입력값으로 주는 강화학습(Reinforcement Learning)을 들어본 적이 있을 것이다. 간단히 말하면 보상을 최대화하는 방향으로 학습하는 방법이다 (알파고 생각하면 이해가 될거다ㅎㅎ). 오늘은 강화학습에 대해서 포스팅해보려 한다. 1. 강화학습이란?강화학습은 기계 학습의 한 분야로 인공지능이 특정 환경에서 시행착오를 통해 행동을 학습하는 방법이다. 간단히 보상(reward)을 최대화하는 행동을 찾는 학습 방법으로 이해하면 된다. 지도학습처럼 정답이 명시적으로 주어지지 않고 시스템(agent)이..

Moments/Algorithm 2025.11.03