実験3（データマイニング班）最終発表

Jul 30, 2020 データマイニング班日記

今日の3限目〜4限目にかけて、データマイニング班の最終発表があります。ZoomリンクはMattermostのwelcome_random_eventに流すつもりなので、興味ある人は覗きに来てください。質問とかしてもらってもOK。

日時：2020年7月30日(木), 12:50〜16:10
　＊冒頭5分程度で進め方を説明。
　　その後は1グループあたり発表＆質疑20分＋當間指摘数分の予定。

G1
タイトル：嵐の誰に似てるか識別する
概要：有名人の誰に似ているかを元にアプリ構成を考えました。しかし、今回は学習時間の都合で、嵐のメンバー5人の誰に似ているかを第一目標としてこのツールを作成しました。
方法としては、顔や目を検出できる学習済みのファイルであるhaarcascadeを使って、嵐のメンバーと自分の顔写真の顔パーツを認識します。そのデータを用いて、自分が嵐のメンバーの誰に似てるかを数値で表すところまで完成しました。

G2
タイトル：covid19の新規感染者を予測する
概要：日本国内の新型コロナウィルスの感染データを用いて、次の日や来週の感染者数を予測した。新型コロナの新規感染者を予測する際2つのモデルを用意し、その二つのモデルの精度を挙げていき、最終的にどちらのモデルがより正確に予測できたかを判別した。どちらのモデルもある程度の予測できたが、パラメータや機械学習を行う期間はどこが最適なのか、またいきなり爆発的に感染者が増えた場合の感染者を予測することはこれからの課題である。

G3
タイトル：手書きひらがな文字の画像認識
概要：ETL文字データベースを用いて、手書きのひらがな文字の画像認識を行なった。実験の流れとしては、まずmnistを用いた手書き数字の画像認識を実装し画像認識についての理解を深め、その知識をもとに手書きひらがな文字認識の実装を行なった。手法はCNNを用い、その中のLeNetと呼ばれるネットワークを用いた。文字認識については、半濁音を濁音と誤認識する割合が高く、それがついていない文字に対しては7~9割の精度で認識できた。今回用意したデータ数は12075個と少なかったことが原因の一つと考えられる。また、入力データの前処理(画像サイズの調整など)でも予測精度に大きな影響が出たため、モデル構成の他に入力データの質の高さが精度を上げる要因となっていると考察した。

G4
タイトル：機械学習を用いた年齢確認補助ツール
概要：今回の実験では、UTKFaceの20,000以上の顔画像データセットを元に、年齢確認をする際に効率化を図るツールの開発に取り組んだ。画像認識モデルはEfficient Netを使用している。機械学習を用いて予測年齢が15歳から40歳の人に対して年齢確認を行うように促進するように工夫した。また、パラメーターの調整を行いがら予測精度の向上を測った。コンビニエンスストアやスーパーマーケットなどのお酒やタバコを取り扱う店舗で年齢確認のミスを最小限に留められることを将来の展望とする。