Elasticsearch parent child joinSometimes we need to use parent/child join indexing in Elasticsearch. This code and architecture are written to help a little.Mar 1, 2021Mar 1, 2021
Change Kubelet directory in RancherI added Fluentd as sidecar to handle multi-line log message.Feb 1, 2021Feb 1, 2021
Elasticsearch Index Management with Rack AttributeWe have 2 kinds of queries. - One is normal queries (24 hours) - Another is batch queries from Spark Job. (3 hours)Feb 1, 2021Feb 1, 2021
Rancher FQDN SettingWhen run kubectl command, it goes to Rancher node by default.Mar 10, 2020Mar 10, 2020
leetcode : longest palindromic substringFirstly, I tried to solve this as brute force. It is O(n³). And it makes time-out -_-.Jan 5, 2020Jan 5, 2020
Simple Springboot Service to get data from S3I saved data to S3. But I have to hide it from users. So, I created simple Springboot web service to enable look up S3 list and objects.Jun 23, 2019Jun 23, 2019
Python logging파이썬으로는 주로 스크립트나 배치 프로그램을 주로 만들다 보니, 로깅은 할일이 없었는데, 이번에 협업을 하게 되면서, 내 모듈과 동료의 모듈의 로깅을 달리해야 되어서 필요하게 되었다.Jun 1, 2019Jun 1, 2019
PySpark Dataframe Read/Write대부분 Database들이 스파크용 파이썬 커넥터를 제공하지 않으므로, 파이썬으로 스파크를 사용할때는 Dataframe api를 이용해서 작업을 한다. 이 편이 훨씬 편하다.Jun 1, 2019Jun 1, 2019
Create Hive External Table사이언티스트들은 주로 Hive를 사용하기 때문에, 스파크 잡으로 생성한 데이타를 공유하기에 불편함이 있었다. 그래서 찾은게 데이타는 S3로 올리고, 하이브 테이블로 공유해 주는 방식이다.Jun 1, 2019Jun 1, 2019
Elasticsearch delete old snapshot data어떻게 하다보니, 1년 반가까이 되는 스냅샷 데이타가 S3에 쌓여 버렸다.May 22, 2019May 22, 2019
pymongo dataframe commands개인적으로 pyspark를 사용할 때는 보통 rdd 를 이용해서 lambda 함수를 많이 사용하지만, 데이타를 빠르게 체크할 때는 pyspark shell에서 dataframe 명령어를 사용하는 게 훨씬 빠르고 편리하다.Apr 8, 2019Apr 8, 2019
파이썬 ProcessPool을 이용해서 간단하게 카프카 프로듀서 성능 테스트하기아주 간단하게, 카프카의 쓰기 퍼포먼스를 체크하기 위해 만든 스크립트이다.Apr 5, 2019Apr 5, 2019
Jenkins Pipeline 에서 MongoDB 에 각 stage의process time 업데이트 하기젠킨스 파이프라인에서, 각 Stage 별로 걸린 시간을 체크해야 할 때가 있다.Apr 5, 2019Apr 5, 2019
Spark find latest Hive Partitiondt=20190312 dt=20190313 이런식으로 partition된 hive 테이블이 있을때,Mar 11, 2019Mar 11, 2019