k-Means Clustering

k-Means 클러스터링은 비지도 학습(Unsupervised Learning) 알고리즘 중 하나로 데이터를 유사도를 바탕으로 k개의 그룹으로 구분하는 알고리즘이다. 레이블이 없는 데이터 집합에서 분류 작업을 할 때 유용하게 사용된다. 이 글에서는 k-Means의 기초적인 개념을 바탕으로, 간단하게 구현하는 과정을 소개한다. 관련 키워드: k-Means, 클러스터링, 기계학습, node.js k-Means 알고리즘이란? k-Means ...

kNN (k-Nearest Neighbor) 알고리즘

k-NN 알고리즘은 분류 알고리즘의 하나로 로직이 간단하여 구현하기 쉽다. 하지만 학습 모델이 따로 없고, 전체 데이터를 스캔하여 데이터를 분류하기 때문에 데이터의 양이 많아지면 분류 속도가 현저하게 느려진다. k-NN 알고리즘은 단순 분류 작업 이외에도 협업 필터링을 구현 할 때 사용되기도 한다 (참고: https://github.com/guymorita/recommendationRaccoon). 관련 키워드: kNN, 분류, 기계학습, ...

추천 알고리즘 구현하기 (User-based Collaborative Filtering)

추천 시스템은 보유하고 있는 데이터에 따라 다양한 방법으로 접근하여 구현이 가능하다. 아마존, 넷플릭스와 같이 사용자의 행위 데이터를 분석하여 맞춤형 추천이 가능하고, 뉴스 데이터 등의 텍스트 데이터의 내용을 분석하여 유사도 계산을 통해 추천하는 것도 가능하다. 이 글에서는 추천 시스템의 종류에 대한 소개와 협업 필터링을 통해 간단한 추천 알고리즘을 소개한다. 관련 ...

MySQL Random Data Selection from Table

In this article, introduce how to extract random data effectively from MySQL table. Many solutions in stackoverflow are very slow or inefficient. Select Random Id SELECT ROUND(RAND()*(SELECT COUNT(*) FROM table_name)) AS id; At first, we can create random id which is in your table table_name. Select Random Id List And then, by using this, SELECT ROUND(RAND()*(SELECT COUNT(*) FROM table_name)) AS id FROM table_name LIMIT 100; We can get 100 random id from this SQL. If you want to get ...

Mecab 형태소 분석기 설치 및 Node.js mecab-ffi

Mecab 설치 Download 경로 - https://bitbucket.org/eunjeon/mecab-ko/downloads - https://bitbucket.org/eunjeon/mecab-ko-dic/downloads 위의 다운로드 경로에서 mecab 라이브러리와 한국어 사전의 최신버전을 다운받아 압축을 푼다. $ wget https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz $ wget https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/mecab-ko-dic-2.0.1-20150920.tar.gz $ tar xvf mecab*.tar mecab-ko build $ cd mecab-[version] $ ...

Node.js 비동기 처리 라이브러리: flowpipe

https://github.com/proin/flowpipe Async 라이브러리를 사용하다보면 루프 관리나 병렬 작업을 할 때 흐름을 제어하기가 어렵고, async 콜백 내부에 async를 여러번 사용해야하는데 기본적으로 함수가 배열 형태로 들어가기 때문에 async 한번당 기본으로 인덴트가 2번이 추가된다. 콜백 지옥을 피해가기위해 async를 사용하는데 async 콜백에서 async를 사용해야되는 경우에는 더 위험한 지옥에 빠지게되는 ...

Node.js로 Slack 봇 만들기

Node.js의 slack client 모듈을 사용하여 Slack Bot API 에 접근해서 리시버와 답장 기능을 구현하는 방법이다. 이 글에서는 복잡한 언어처리는 다루지 않고 기본적인 수준의 응답 처리만 구현하였다. 요즘 커뮤니티나 사내 메신저로 Slack을 많이 사용하는 것 같다. 카카오톡이나 다른 메신저는 API를 제공하지 않아서 봇을 만들기에 한계가 있는데 Slack에서는 공식적으로 봇을 지원해줘서 ...

Async를 사용하여 콜백 정리하기

Javascript의 비동기 콜백 함수를 사용하다보면 인덴트로 인해 코드가 복잡해지는 경우가 많이 있다. async 라이브러리를 통해서 비동기 콜백 함수를 정리하여 순차적으로 실행되도록 할 수 있다. 비동기 콜백이란? Javascript를 사용하다보면 비동기 콜백으로 인해 코드의 순서가 꼬이는 경우가 많다. Javascript의 비동기 콜백은 Java나 C 에서 Thread를 생성하여 메인 함수와 별도의 프로세스로 ...

WebdriverIO 를 사용한 웹 데이터 수집

웹 상의 데이터 수집 시 크롬, 사파리 등의 웹 브라우저를 WebdriverIO를 통해 제어하여 수집하는 방법을 소개한다. 사전지식 javascript jQuery Node.js Reference http://webdriver.io https://www.npmjs.com/package/selenium-standalone http://selenium-release.storage.googleapis.com/index.html Dependencies Selenium Standalone 설치 $ npm install -g selenium-standalone $ selenium-standalone install Nodejs 라이브러리 ...

파이썬 트위터 데이터 수집 및 유니코드 문자 한글 변환

아래의 코드는 트위터 스트림을 수집할 때 유니코드로 변환된 문자열을 한글로 변환시켜주는 예제이다. 사용된 파이썬의 버전은 3.5 이고 tweepy 라이브러리를 사용하였다. # -*- coding: utf8 -*- import tweepy consumer_key='your-consumer-key' consumer_secret='your-consumer-secret' access_token='your-access-token' access_token_secret='your-access-token-secret' auth = tweepy.OAuthHandler(consumer_key, consumer_secret) auth.set_access_token(access_token, ...