by shigemk2

当面は技術的なことしか書かない

Hadoop

hive datediff

日付Aと日付Bとの差分を取る関数。日付のフォーマットが違っててもいける。 LanguageManual UDF - Apache Hive - Apache Software Foundation

presto 310

とうとうリリースが別れた 12.1. Release 310 — Presto 310 Documentation

Hadoop in the Enterprise: Architecture

邦訳が出るのはいつなんだろうね。 shop.oreilly.com

presto 0.192 memo

presto 0.192 Fix performance regression in split scheduling introduced in 0.191. If a query scans a non-trivial number of splits (~1M splits in an hour), the coordinator CPU utilization can be very high, leading to elevated communication f…

mapred.job.reuse.jvm.num.tasks

mapred.job.reuse.jvm.num.tasks If you have very small tasks that are definitely running after each other, it is useful to set this property to -1 (meaning that a spawned JVM will be reused unlimited times). So you just spawn (number of tas…

SaxParseException

SaxParseException なんのことかよくわからない

mapred.reduce.tasks

mapred.map.tasks 各スレーブノードにおいて同時に並列実行可能なタスク数 任意のジョブ実行時において、クラスタ全体で起動されるmapタスク数 https://open-groove.net/hadoop/mapred-map-tasks/ http://mail-archives.apache.org/mod_mbox/hadoop-common-u…

memo state=08S01 code=3

memo state=08S01 code=3 Hiveでこのエラーが出たときはJVMのヒープサイズを上げろ、と書いてあるが、ヒープサイズを上げてもエラーはまだ続いているとあるので、なんか違う気がする

memo: CDH5

memo: CDH5 CDH5のインストールガイド http://www.cloudera.com/documentation/cdh/5-1-x/CDH5-Installation-Guide/CDH5-Installation-Guide.html 設定ファイルの場所とか https://www.cloudera.com/documentation/enterprise/5-7-x/topics/cm_mc_service_co…

memo: httpfs

memo: httpfs クライアントからHTTP REST APIでFSにアクセスするためのプロキシサーバー HttpFS is a server that provides a REST HTTP gateway supporting all HDFS File System operations 概要 https://hadoop.apache.org/docs/stable/hadoop-hdfs-httpf…

memo: yarn.resourcemanager.recovery.enable

memo: yarn.resourcemanager.recovery.enable リソース・マネージャーに対して、作業を保持するリソース・マネージャー再始動機能を使用可能にします。 yarn.resourcemanager.recovery.enable https://www.ibm.com/support/knowledgecenter/ja/SSPT3X_4.1.0/…

memo: hdfs dfs

memo: hdfs dfs Run a filesystem command on the file system supported in Hadoop. って。 hdfs dfs -ls とか、 hdfs dfs -du とか。HDFSデータを操作する(分散ファイルシステムでデータが分散されているので、普通のlsとかduとかではデータの確認が出来な…

about apache tez

汎用的な並列データ処理 ジョブが実行されまくるとMapReduceが重複するのでオーバーヘッドが発生するのをどうにかするやつ

cloudera engineer blog feed url

clouderaのエンジニアブログのfeed。ボタンがないから探した。 https://blog.cloudera.co.jp/feed https://blog.cloudera.com/feed

Cloudera Express vs Cloudera Enterprise Features

なんだかよくわからないけどそのうち役に立つかもしれない https://www.cloudera.com/documentation/enterprise/5-6-x/topics/cm_ig_feature_differences.html

cloudera director on aws

cloudera directorをawsでやる ちょっとあとで試す。本当に。 https://www.cloudera.com/documentation/director/latest/topics/director_get_started_aws.html

EMR t2.micro

EMRを起動するときにデフォルトのm3.xlargeを使うのは高いのでt2.micro使おうとしたら怒られたっていうはなし。 スポットインスタンスを使いましょうっていう話

hiveserver port

10000 HiveServer - Apache Hive - Apache Software Foundation

presto performance

TD向けにカスタマイズしたのもあるけど、パーティションは意識してクエリを書いたほうがよろしい あと、これをしたためるに至る参考文献があったら… docs.treasuredata.com

presto

列指向ファイルフォーマット 対話的にアドホックな問い合わせを可能にする分散SQLエンジン www.publickey1.jp qiita.com

presto show partition

select partition 8.28. SHOW PARTITIONS — Presto 0.173 Documentation

presto: connection is closed

わからんかったら--debugオプションを使おう、という話 github.com

date_diff presto

date_diff(unit, timestamp1, timestamp2) → bigint Returns timestamp2 - timestamp1 expressed in terms of unit. 第二引数と第三引数はdate型にキャストとかする必要があったりする 6.10. Date and Time Functions and Operators — Presto 0.172 Document…

EMR インスタンスグループ

マスター コア タスク docs.aws.amazon.com

EMRのnannyプロセス

amalgjose.com 各ノードを監視するデーモンで、OOMとかでなんかのプロセスが死んだら、即座に自動で再起動してくれる。 tail -f /emr/service-nanny/log/service-nanny-yyyy-mm-dd しつつinstance-controllerなどのプロセスをキルすると、service-nannyのロ…

gmetad/gmond

gmetad gmondのデータを集約するデーモン gmond 各ノードにいて各サーバーの情報を集めるデーモン Ganglia Quick Start · ganglia/monitor-core Wiki · GitHub

YARNとかDataNodeとかNameNodeとか

クラスタリソース管理フレームワーク。次世代MapReduceとかいう雑なイメージは捨てろ。 YARN構成 Resource Manager クラスター全体のリソース管理をするマネージャー。Application Masterからの要請を受けてNode Managerにコンテナーのリソースを付与する(常…

Hadoop タスクスケジューラー リンク

FIFOスケジューラーとか、フェアスケジューラーとか、ある。 17.5.2 Hadoopタスクスケジューラ

presto overview

Prestoのアーキ図。Prestoを使うためにはHive Metastoreがひつよう。 出典: Presto | Overview

hive configuration

Configuration Properties - Apache Hive - Apache Software Foundation