sammi@DataScience

Python, Machine Learning, Deep Leaning, Data Science, Kaggle.

スポンサーリンク

Python

pandas.read_gbqでBigQueryのデータをDataframeに出力

BigQueryに保存されているデータをpandasで弄りたい時に、pandasのread_gbqという関数を使うだけでBigQueryのデータをDataframeに出力することができます。今回はread_gbqについて紹介していきたいと思います。

おススメ書籍:つくりながら学ぶ! PyTorchによる発展ディープラーニング

最近TwitterのKaggle界隈でこの本が話題になっているようです: つくりながら学ぶ! PyTorchによる発展ディープラーニング作者: 小川雄太郎。パッと見ると、タスクごとにディープラーニングの知識を網羅的にまとめている一冊ですね。実装と応用の角度から解説…

不均衡データの評価指標 - マシューズ相関係数(MCC)とF1スコアの比較

不均衡データ(imbalanced data)におけるモデルを評価する時に、指標としてはマシューズ相関係数(Matthews Correlation Coefficient)とF1_Score使用した方がマシです。今回はMCCとF1_Scoreについて紹介し、さらに両者の違いを比較します。

不均衡データ - ROC曲線欠点の実装例

前回はROC AUCの欠点に関して少し言及しましたが、今回は実装例に基づいて、ROC曲線が不均衡データ(imbalanced data)に対して簡単に0.90+上がってしまうという欠点について説明していきたいと思います。

ROC_AUC曲線の解説、実装と欠点

ROC_AUC曲線は分類モデルのパフォーマンスを評価するための重要な指標です。現場やkaggleコンペでよく使われています。実装はシンプルでグラフも見やすいので、かなりいい指標ですが、全ての場合に使えるわけではないです。今回はROC_AUC曲線について詳しく…

python foliumで時系列ヒートマップ(time series heatmap)描く

foliumはpythonの地図描画ライブラリーとしてよく知られています。foliumを使用することよりヒートマップやコロプレス図など様々なグラフを地図上に描くことが可能です。以前はfoliumを使用したことがありますけれども、ほとんどは静的なグラフです。今回は…

スポンサーリンク