タイトル

開講年度 開講学部等
2025 工学部
開講学期 曜日時限 授業形態 AL(アクティブ・ラーニング)ポイント
前期後半 金5~8 講義 10.0
時間割番号 科目名[英文名] 使用言語 単位数
1061520770 データサイエンス技術演習[Practice in Data Science Technology] 日本語 2
担当教員(責任)[ローマ字表記] メディア授業
藤田 悠介[FUJITA Yusuke]
担当教員[ローマ字表記]
藤田 悠介 [FUJITA Yusuke]
特定科目区分   対象学生 知能 対象年次 2~
ディプロマ・ポリシーに関わる項目 カリキュラムマップ(授業科目とDPとの対応関係はこちらから閲覧できます)
授業の目的と概要
Pythonを使ったより実践的な演習により,データサイエンス技術の理解を深める。Pythonを使った基本的なプログラムの書き方,データの取得,読み込み,データ操作について習得する。Pythonのライブラリを使用して,確率統計の手法,特に,機械学習(教師あり学習,教師なし学習)の手法の使い方を習得する。グループワークでは,自ら課題を設定し,データの分析やモデルの構築ができる。課題の取り組みの成果を報告する。
授業の到達目標
・データサイエンスの基本的な概念を理解し,データ処理,確率統計,機械学習(教師あり学習,教師なし学習)の基本的な手法について説明できる。
・Pythonのライブラリを使用して,データ取得,読み込み,データ操作をすることができ,確率統計,機械学習(教師あり学習,教師なし学習)の手法を使うことができる。
・実社会のデータに興味を持ち,その活用について考えることができる。
・自ら課題を設定し,データの分析やモデルの構築ができる。
・課題への取り組みの成果をわかりやすく報告することができる。
授業計画
【全体】
第1週に,演習全体に関する説明を行う。第1週~第5週に,個人で各テーマの演習に取り組む。第6週,第7週では,グループで実データを使用した課題に取り組む。第8週に,グループワークでの成果を発表する。実社会のデータを分析し,活用するためのデータサイエンス技術を応用するための基礎を養う。
項目 内容 授業時間外学習 備考
第1回 概要説明とパターン認識系,データ表現(画像データ) 本演習の概要を説明する。パターン認識の処理系(観測系,前処理系,特徴抽出系,識別系)について説明する。
画像データ(データ表現)について説明する。カラー画像,グレースケール画像の形式と扱い方について説明する。プログラミングの基礎を復習する。
演習全体の計画を確認する。今回の内容を復習し,演習のレポートを作成する(4時間)。次回の内容を予習(4時間)する。
第2回 データ分布の可視化(次元圧縮,クラスタリング)と特徴抽出) 主成分分析やクラスタリングにより,画像データの分布を可視化する。
画像から特徴抽出を行い,特徴抽出によりデータ分布が変わることを確認する。
今回の内容を復習し,演習のレポートを作成する(4時間)。次回の内容を予習(4時間)する。
第3回 モデル設計 教師あり学習の代表的なモデルを設計する。決定木,ランダムフォレスト,SVMなどのモデルについて説明する。
パラメータを変えて識別境界が変わる様子を可視化して確認する。
今回の内容を復習し,演習のレポートを作成する(4時間)。次回の内容を予習(4時間)する。
第4回 モデルの性能評価とパラメータチューニング モデルの設計と性能評価の流れを理解する。混同行列,Accuracy,Precision,Recall,ROC曲線,AUCなどを計算し確認する。
データの特性に応じて評価指標を使い分けることを理解する。
今回の内容を復習し,演習のレポートを作成する(4時間)。次回の内容を予習(4時間)する。
第5回 データクレンジング データクレンジング(外れ値・異常値の検出)を行う。
モデルの再構築・評価を行う。
今回の内容を復習し,演習のレポートを作成する(4時間)。次回のグループワークでの課題について準備(4時間)する。
第6回 グループワーク1 オープンデータを使った演習を行う。グループで課題を設定し,計画,分担を決める。課題について取り組む。 グループワークでの課題の取り組みについて,報告会の資料と報告書を作成する(8時間)。
第7回 グループワーク2 オープンデータを使った演習を行う。グループで課題にり組む。課題の取り組みについて資料を作成する。 グループワークでの課題の取り組みについて,報告会の資料と報告書にまとめる(8時間)。
第8回 成果報告会,総括 グループで取り組んだ課題の成果を発表する。 演習全体の内容について復習する(8時間)。
※AL(アクティブ・ラーニング)欄に関する注
・授業全体で、AL(アクティブ・ラーニング)が占める時間の割合を、それぞれの項目ごとに示しています。
・A〜Dのアルファベットは、以下の学修形態を指しています。
【A:グループワーク】、【B:ディスカッション・ディベート】、【C:フィールドワーク(実験・実習、演習を含む)】、【D:プレゼンテーション】
A: 20% B: 20% C: 50% D: 10%
成績評価法
演習の課題レポートと,グループワークのプレゼン,最終レポートにより総合的に判断する。
演習(実験)を含む科目であるため,原則として欠席したものに対しては,単位を認めない。
すべて出席(公休・病欠(医師の診断書付)を除く)したことを前提に,受理したレポートを採点する。
最終成績が60%以上を合格とする。なお,評価基準は以下の通りとする。

1.授業への積極的な参加(10%)

2.各課題の計画的実施と報告(60%)
(1) 計画的な課題実施と報告
(2) 報告内容の適切さ

3.プレゼン・最終報告書(30%)
(1) 適切なフォーマットでの報告
(2) 報告内容の適切さ
教科書にかかわる情報
備考
講義等で連絡します。
参考書にかかわる情報
参考書 書名 東京大学のデータサイエンティスト育成講座 : Pythonで手を動かして学ぶデータ分析 ISBN 4839965250
著者名 塚本邦尊, 山田典一, 大澤文孝著 出版社 マイナビ出版 出版年 2019
参考書 書名 データサイエンス技術 ISBN 9784780609592
著者名 相田紗織著 出版社 学術図書出版社 出版年 2021
備考
メッセージ
毎回,ノートパソコンを使用して演習を行うため,必ず持参してください。
キーワード
データサイエンス,データ分析,可視化,統計,確率,検定,人工知能,AI,機械学習,回帰,分類,クラスタリング,Python
持続可能な開発目標(SDGs)

  • 産業と技術革新の基盤をつくろう
(インフラ、産業化、イノベーション)強靱(レジリエント)なインフラ構築、包摂的かつ持続可能な産業化の促進及びイノベーションの推進を図る。
関連科目
データ科学と社会I・II,確率統計,データサイエンス技術,データサイエンス実践,人工知能,ソフトコンピューティング,応用線形代数
履修条件
連絡先
藤田 悠介(y-fujita@yamaguchi-u.ac.jp)
知能情報棟4階403号室
オフィスアワー
質問や相談は,授業の後に適宜受け付けます。電⼦メールでも受け付けます。

ページの先頭へ