ずるやすみの宿題　 - ぼくのずるやすみ 26

機械学習とスクレイピングを使いこなしたい！

仕事をおやすみし始めた7月中旬から今日までの 4 か月間はいろいろあったけど、ずっと統計学とPythonの勉強、特に機械学習とスクレイピングの分野の勉強をしていました。それは、今の会社とは別の場所でマーケティングリサーチの仕事ができるようになりたいと思っているからです。

今日までの期間で、パイソンに関する基礎知識はある程度身に着けたので、ここからは実践的な練習を重ねていきます。具体的には、下でまとめたような内容で進めることを考えました。ちなみに、このブログは、きっかけとしてはこの実践のアウトプットをする場所としてつくったものなので、進捗はここに記事として書いていく予定です。

予定している取り組みとその概要

動画の再生回数を説明する変数の分析

YouTube の API を使ってYouTube Japan の動画に関する情報を取得する。

動画の再生回数を被説明変数として、チャンネル登録者数やチャンネルの動画数、チャンネル全体の平均再生回数などを特徴量として重回帰分析を行う。

思いがけず再生される動画の条件（サムネイルの固有画像、動画タイトル、など）

重回帰分析によって導いた変数（度の変数を用いるかについては、重回帰自体のモデルを改善する度に変更する）によって予測される予測値よりも一定の基準を越えて上回ったサンプルについて、再生回数が予測よりも大きく引き延ばした要因について、検討する。

どれだけ離れているデータを条件を満たすサンプルとして使用するかの設定方法についても検討する。標準化とシェビチェフの不等式を用いて任意で設定できるのではないかと考えている。実現値と予測値の差について計算して、その差について標準偏差を計算したうえで、シェビチェフの不等式を用いて閾値を決めることにする。

標準偏差とシェビチェフの不等式を用いて閾値を決めた場合、正解データと不正解データの量に偏りがあるデータになるので、検証においてはデータ分割方法に工夫が必要になる。

YouTube Japanにある動画の主成分

YouTube Japan で公開されている動画について、自然言語分析と主成分分析を用いて特徴量の抽出と類型化を行う。

そこで得られた類型ごとに再生回数や各類型に含まれる動画の本数などを整理して、類型ごとの特徴についても検討する。

転職サイトの求人情報比較

スクレイピングとクローリングのみで完結するが、日本国内にある求人媒体について、掲載されている求人の情報をスクレイピングして内訳などを整理することで、各媒体の特色や目的に応じた媒体の使い分けについて考える。

日本人の性癖の主成分とその時系列的な変化

DMMのサイトから、動画のタイトルを取得して、タイトルについて自然言語処理と主成分分析によって、日本人の性癖の主成分を抽出する。

自分の好みにきっと当てはまる女優さんを分類する機会学習プログラム

DMMサイトの女優さんのページから画像データをスクレイピングして、その画像の幾つかについて、その顔について好みかどうかを意味するラベルを付けて正解データにする。

画像から顔を判別して抜き出すスクリプトとその顔の情報から分類ラベルを予測する機械学習のスクリプトを書く。これを用いて、自分のタイプだけど、まだ自分が知らない女優さんが出ている動画にたどり着けるようにしたい。

興味がある企業の採用ページについて、更新があったら通知を送るプログラム

機械学習はあまり関係がないが、JRECINのサイトに掲載されている求人について、特定の条件に該当する求人情報を取得するプログラムを書く。さらに、特定の条件の求人に関して情報更新があった際に通知を発火するようなプログラムも組み合わせて、新規求人の確認作業を効率化できるようにする。

がんばるぞ！