반응형

10월 25일 Google Cloud Summit 2018 이 삼성역 코엑스에서 열렸다.


https://cloudplatformonline.com/2018-Summit-Korea-Home.html


페이스북으로 올라온 글을 보고 신청기간에 등록을 해서 참석하게 되었다. 



Google Cloud Summit



세미나 할때마다 자주 가는 코엑스. 처음에 돌아다닐때에는 위를 보지 않아서 오른쪽 그림이 걸려있는지 몰랐다. -_-;;. 

국내에서 처음 하는 Google Cloud Summit 이어서 인지 전에 와봤던 다른 세미나보다 현수막들이 많이 달려 있는 느낌이었다.



행사 일정이다. 파란색의 낯익은 로고를 보고 정말 의외라고 생각했다.




키노트 하는 오디토리움 내부에서 봤던 로고이다. 개인적으로 왼쪽 로고와 색깔이 맘에 들었다. 



Session

(내가 메모하는 것을 귀찮아 해서 들었던 기억력을 더듬어 가면서 적는 것이기 때문에 내용이 정확하지 않을 수 있다. 아니면 내가 잘못 이해했을 수도 있다.^^;)


빅데이터와 데이터 분석 소개



수많은 데이터를 어떻게 하면 의미있는 정보로 만들것인지, 그 만드는 과정이 굉장히 어렵다. 그런 부분을 Google 에서 쉽게 접근 할수 있도록 도와 주고 있다. 그리고 BigQuery를 통해서 수백만건의 자료들을 빠르게 필터링 하거나 원하는 정보만 가져올 수 있다. 



위와 같은 형태로 수집부터 변환, 분석까지 다양한 서비스를 손쉽게 사용할 수 있도록 제공하고 있다. 



클라우드 플랫폼 정글에서 살아남기 : 하이브리드 클라우드 구성 가이드



이 세션에서는 듣다가 느낀점이 좀 많았다. 클라우드 벤더사들도 많고 하나의 벤더만 사용하면 괜찮지만 여러개의 벤더사들을 섞어서 사용할 경우 발생하는 문제점 들이다. (회사에서) 퍼블릭 클라우드 자체를 자주 사용하지 않다보니 이러한 이슈에 대해서 고민 해본적이 없었다. 


통신 비용 : 서로 다른 클라우드 간에 트랜젝션이 발생할 경우 아웃바운드, 인바운드에 대한 비용이 발생한다. 그게 계속 되고 트래픽이 많아질수록 비용은 높아진다.

성능 :  같은 서비스라도 벤더사마다 제공하는 버전이 다르고 최적화가 다를 수 있다. 그럴 경우 결론적으로 하향 평준화 된다. 성능이 낮은 쪽으로 맞춰진다는 이야기 이다. 

보안 : 이건 어떻게 보면 당연한 이야기 이다. 내부에서 발생하는 트래픽이 아닌데.. 물론 암호화를 거치기는 하겠지만 그래도 문제가 생길 가능성이 있다. 



마이크로 서비스 아키텍처 구성하기 : Kubernetes, Istio, Spinnaker, Knative


가장 관심 있었던 세션이었는데 사진 찍는것을 깜빡했다. 마이크로 서비스에 대한 다양한 관점들, 그리고 내가 몰랐던 패턴들에 대해서 설명을 들을 수 있었다. 


죽지만 다시 살아나는 피닉스 서버 패턴. 여기에서 처음 들어봤는데 한번 찾아볼만한 내용이었다. 그리고 몰랐는데 Google Container Registry 에 이미지 올리면 취약점을 자동 스캔한다는 것을 여기에서 처음 알았다. ^^;;



클라우드 앱 디버깅과 성능 모니터링 : Stackdriver



마이크로 서비스 세션에서도 들었었지만 모든 어플리케이션이 컨테이너화 되면서 모니터링, 디버깅에 대한 내용이 강조되고 있다. 그걸 좀더 손쉽게 할수 있도록 도와주는 서비스 이다. 설명을 들으면서 느꼈는데 상당히 매력적인 툴이었다. 특히 디버거나 로깅 같은 경우는 실제 소스를 재배포 하지 않고도 Logger 를 삽입한다던가 디버깅을 해볼수 있다니. 정말 내게는 매력적이었다. 로그 찍을려고 다시 이미지 구워서 올리고 재배포 하고 했었는데. 그럴 필요가 전혀 없다는 거다. -_-;;; 정말 안되는게 없는 세상이다. 



Cloud Study Jam


참여하고 있던 Cloud Study Jam 마지막 미션과제. 발표가 있었다. 



시간표에 이름이 올라와 있는 "피넛버터" 



그래서 이렇게 저 시간에 가서 무사히(?) 팀 발표를 마쳤다. 정말 허접했지만 준비하느라 걱정이 많았었다. 만든건 왜 대체 잘 안돌아가는 건지. -_-;; 대체 외 Pod 간 연결이 안되는건지. 거의 초보인 내게 컨테이너에 뭔가를 해본다는 것 자체가 시간이 많이 걸리는 일이었다. 그래도 그 덕분에 이것 저것 사용을 해보고 해서 많은 공부가 되었다. 

나중에 동영상으로 녹화한거 다시 들어봤는데 민망해서 영상을 못보고 소리만 들었다. -_-;;; 다음에는 좀더 연습을 해야겠다. 


드디어 4개 다 모았다.~^^


기념품들 



이것 말고도 파트어 업체에서 받은 것들도 있지만 그건 제외 했다. 



Action Item


세미나에서 들으면서 몇가지 써봐야 겠다고 생각한 것들을 요약해 본다. 


- Stackdrvier 사용해보기 (디버거, 프로파일러, 로깅등)

- SRE(Site Reliability Engineering) 에 대해서 좀 찾아보자

- BigQuery 한번 써보자.

728x90
반응형
반응형

원문 : Big data is our generation’s civil rights issue, and we don’t know it 

http://www.hanbit.co.kr/network/category/category_view.html?cms_code=CMS3564760672


번역 완료!


-------------------------------------------------------------------------------------------------------------------------------------------------------------------

데이터는 그것이 어떻게 사용될 수 있는지 연관지어 생각해야 한다. 

데이터가 사람들의 삶을 침범한 것이 아니라, 데이터를 어떻게 사용해야 하는가에 대한 통제의 부족이 사람들의 삶을 침범했다. 

소위 빅 데이터라고 불려지는 것은 정보의 양을 의미하는 것이 아니다. 전혀 거대할 필요가 없다. 오히려, 이것은 데이터를 분석하는 기초 경제학의 재고(reconsideration)라고 할 수 있다. 

수 십년 간 데이터베이스의 3가지 속성들 간에 날카로운 신경전이 존재해 왔다. 데이터를 빠르게 하고, 거대화 하고, 다양화 하는 것이 바로 그것이다. 중요한 점은 3가지를 동시에 소유할 수 없다는 것이다. 

 
나는 처음에 이것을 "데이터가 가지고 있는 3가지 V" 라고 들었다. 크기(Volume), 다양성(Variety), 속도(velocity). 전통적으로 2가지를 소유하기는 쉽지만 3가지 모두를 소유하기에는 정말 많은 비용이 든다. 

하둡과 같은 클라우드의 출현과 무어의 법칙의 기술적 진보는 지금 이 시대에는 데이터 분석에 많은 비용이 소요되지 않는다는 것을 의미한다. 그리고 어떤 것이 사실상 공짜가 되어 비용이 저렴해질 때에는 큰 변화가 생기게 된다. 증기기관의 출현 또는 디지털 음악의 출판, 또는 홈 프린팅만 보더라도 그 변화를 알 수 있다. 풍부함이 부족한 것을 대체하면서 새로운 비즈니스 모델을 만들게 된다. 

오래 전에는 데이터가 부족한 모델로 여겨졌기 때문에 기업들은 무엇을 먼저 수집해야 할지 결정한 후에야 데이터를 수집했다. 고전적인 데이터웨어 하우스는 색상, 지역, 그리고 크기에 따른 판매 형태들을 추적해 왔다. 무엇을 저장하고 어떻게 저장할 것인가 결정하는 행동은 스키마를 설계하는 것으로 불려지게 되었고, 여러 가지 면에서 이런 행동은 누군가가 데이터에 대해 무엇인가를 결정하는 순간이 되었다. 이것은 즉각적인 맥락이다. 

그것은 반복이 필요하다. 

당신은 데이터의 스키마를 정의하는 순간에 대해 무엇인가를 결정한다. 

새롭고 데이터가 풍부한 모델에서는 먼저 데이터를 수집하고 나중에 질문을 요구한다. 스키마는 수집이 끝난 후에 나타난다. 실제로 Splunk, Palantir와 같은 빅 데이터의 성공사례는 상을 받을 만 하다. 바로 데이터를 수집한 후에 내용을 만드는 능력 때문이다. 그래서 때로는 스키마가 존재하지 않는 쿼리(schema-less query)라고 불려지기도 한다. 이것은 우리가 데이터가 무엇인지 결정하기 전에 오랜 시간 동안 정보를 수집한다는 것을 의미한다. 

그리고 이것은 위험한 방법이다. 

은행 관리자가 특정영역의 주민들(아래 빨간 지역)의 대출을 제한하려고 할 때 의회는 그것을 저지했다. 그들은 인종에 따라서 대출 정책을 차별화 하는 것이 불법이라는 법률을 제정했다. 

 

"개인화"는 차별의 다른 말이다. 만약 당신에 대해 아는 것을 바탕으로 해서 당신에게 맞춘다면 우리는 차별하는 것이 아니다. 그것은 바로 더 나은 서비스이다. 

한가지 예로, American Express는 고객이 높은 등급의 신용등급을 가지고 있을지라도 쇼핑장소에 따라서 신용한도를 조정하기 위해 구매 내역을 사용했다.

Johnson은 American Express가 자신의 신용한도를 낮춘 이유를 읽고는 입을 다물지 못했다고 말한다. "최근에 기관에서 카드를 사용한 사람들은 American Express와 안 좋은 상환기록을 가지고 있다."

 우리는 이 약삭빠른 행동을 맞춤형 신용카드 한도 제한에서부터 운전자 프로파일을 기반으로 한 자동차 보험에 이르기까지 모든 곳에서 볼 수 있다. 이런 점에서 빅 데이터는 인권에 관한 이슈이다. 하지만 일반적으로 사회는 처리할 수 있는 방법을 제대로 갖추지 못하고 있다. 

우리는 사람들에 대한 정보를 추측하는데 사람들의 기호를 잘 사용한다. OKcupid의 2010년 블로그 포스트 중에 "The Real Stuff White People Like"에서는 인종을 짐작하기 위해 정보를 얼마나 쉽게 사용할 수 있는지 보여주고 있다. 이건 정말로 눈을 번쩍 뜨게 해주는 일이다. (그리고 그 글을 쓴 사람들은 그들이 배운 것에 대해서는 포함하지 않았다. 그 중 어떤 부분은 약간의 논란이 있기도 했다.) 그들은 단순히 다른 사람들이 사용하지 않는 단어를 사용하는 하나의 그룹을 살펴봤을 뿐이었다. 그 결과로 특정 인종이나 성별에 따른 "trigger" 단어 목록을 만들 수 있었다 

지금 이것은 거꾸로 실행된다. 만약 이런 것들과 같이 당신을 알았거나 블로그 포스트나 페이스북 또는 트위터에서 그것들에 대해서 언급한 당신을 보았다면 이것은 당신의 성별, 인종, 그리고 당신의 종교와 성적 기호까지도 알 수 있는 좋은 기회가 된다. 그리고 나는 당신에 대한 마켓팅 전락을 세울 수 있다. 이것이 인권에 대한 이슈를 야기하고 있다. 

만약 당신이 듣는 음악에 관한 정보를 수집했다면, 당신은 내가 새로운 음악을 제안하거나 당신의 친구들과 공유하기 위해 그 정보를 사용할거라고 예측할지도 모른다. 그러나 그 대신 나는 당신의 인종적 배경에 대해 추측하는데 사용할 수 있다. 그리고 당신이 대출하는 것을 거부하는 데에 그 정보를 활용할 수 있다. 

다른 예는 무엇이 있을까? 얼마전에 런던에서 사람들의 성 정보가 인종 경계 지도를 만드는데 얼마나 유용한지 토론한 런던의 빅 데이터 세미나를 보고 나서 쓴 Private Data In Public Ways를 살펴보자. 

 

Malte Spitz가 말한 이 Ted토크는 오늘날 시민을 추적 일을 설명하는데 큰 역할을 하고 있다. 그리고 그는 오늘날 정부가 하는 방법처럼 Stasi(비밀경찰)이 핸드폰 통화기록을 봤다면 베를린 장벽이 무너졌을지에 대해 추측해보고 있다. 

그러면 우리는 정보가 사용되는 방법을 어떻게 규제할수 있을까? 

적절하게 처리할수 있는 유일한 방법은 어떤 데이터든 이것을 사용할 수 있는 방법과 연결하는 것이다. 예를 들어, 나의 음악적 성향은 은행을 결정하는 것이 아닌 노래를 추천하는 곳에 사용되어야 한다. 

권한으로 묶여있어서 느리고 수수께끼 같고 부담스럽고 실행하기 어렵고 혁신하기 어려운 데이터는 암호화를 통해서 수행할 수 있다. 또는 스팸 메일을 규제하는 것과 같이 법 제정을 통해서 실행시킬 수 있다. 이것은 멋지긴 하지만 집행하기가 어렵다. 

수량화된 사회에서 우리가 살아가고 사랑하고 일하고 즐기는 것을 향상시킬 수 있는 방법에 대한 예는 무수히 많다. 빅 데이터는 병이 발생하는 것을 찾는데 도움이 되고 학생들이 어떻게 배워야 하는지, 정치적인 당파성을 어떻게 드러내야 하는지를 알려줄 것이다. 그리고 통근자들에게 간단한 예를 선택해줌으로써 수많은 비용을 줄이는데 도움이 될 것이다. 폭발적인 인구증가와 기후변화, 에너지 공황과 같이 이 땅에 살기 위해 노력하는 것처럼 단순하게 무시할 수 없는 이익들이 있다. 

그러나 정부는 정보에 의존하는 것에 견제를 통한 균형이 필요하다. 그리고 이러한 의존이 어떻게 개인 사생활을 침해하는지에 대한 균형과 사회와 우리가 생각해보지 못한 사회와 도덕적 이슈를 창조해야 한다. 유권자 대부분이 그것에 대해서 생각하고 있지는 않지만 그들의 구매 성향에는 영향을 미친다. 

728x90
반응형

+ Recent posts