開講年度
開講学部等
2025
工学部
開講学期
曜日時限
授業形態
AL(アクティブ・ラーニング)ポイント
前期後半
金5~8
講義
10.0
時間割番号
科目名[英文名]
使用言語
単位数
1061520770
データサイエンス技術演習[Practice in Data Science Technology]
日本語
2
担当教員(責任)[ローマ字表記]
メディア授業
藤田 悠介[FUJITA Yusuke]
ー
担当教員[ローマ字表記]
藤田 悠介 [FUJITA Yusuke]
特定科目区分
対象学生
知能
対象年次
2~
ディプロマ・ポリシーに関わる項目
カリキュラムマップ(授業科目とDPとの対応関係はこちらから閲覧できます)
メディア授業
×
メディア授業とは,メディアを利用して遠隔方式により実施する授業の授業時数が,総授業時数の半数を超える授業をいいます。
メディア授業により取得した単位は,卒業要件として修得すべき単位のうち60単位を超えないものとされています。
授業の目的と概要
Pythonを使ったより実践的な演習により,データサイエンス技術の理解を深める。Pythonを使った基本的なプログラムの書き方,データの取得,読み込み,データ操作について習得する。Pythonのライブラリを使用して,確率統計の手法,特に,機械学習(教師あり学習,教師なし学習)の手法の使い方を習得する。グループワークでは,自ら課題を設定し,データの分析やモデルの構築ができる。課題の取り組みの成果を報告する。
授業の到達目標
・データサイエンスの基本的な概念を理解し,データ処理,確率統計,機械学習(教師あり学習,教師なし学習)の基本的な手法について説明できる。
・Pythonのライブラリを使用して,データ取得,読み込み,データ操作をすることができ,確率統計,機械学習(教師あり学習,教師なし学習)の手法を使うことができる。
・実社会のデータに興味を持ち,その活用について考えることができる。
・自ら課題を設定し,データの分析やモデルの構築ができる。
・課題への取り組みの成果をわかりやすく報告することができる。
授業計画
【全体】
第1週に,演習全体に関する説明を行う。第1週~第5週に,個人で各テーマの演習に取り組む。第6週,第7週では,グループで実データを使用した課題に取り組む。第8週に,グループワークでの成果を発表する。実社会のデータを分析し,活用するためのデータサイエンス技術を応用するための基礎を養う。
項目
内容
授業時間外学習
備考
第1回
概要説明とパターン認識系,データ表現(画像データ)
本演習の概要を説明する。パターン認識の処理系(観測系,前処理系,特徴抽出系,識別系)について説明する。
画像データ(データ表現)について説明する。カラー画像,グレースケール画像の形式と扱い方について説明する。プログラミングの基礎を復習する。
演習全体の計画を確認する。今回の内容を復習し,演習のレポートを作成する(4時間)。次回の内容を予習(4時間)する。
第2回
データ分布の可視化(次元圧縮,クラスタリング)と特徴抽出)
主成分分析やクラスタリングにより,画像データの分布を可視化する。
画像から特徴抽出を行い,特徴抽出によりデータ分布が変わることを確認する。
今回の内容を復習し,演習のレポートを作成する(4時間)。次回の内容を予習(4時間)する。
第3回
モデル設計
教師あり学習の代表的なモデルを設計する。決定木,ランダムフォレスト,SVMなどのモデルについて説明する。
パラメータを変えて識別境界が変わる様子を可視化して確認する。
今回の内容を復習し,演習のレポートを作成する(4時間)。次回の内容を予習(4時間)する。
第4回
モデルの性能評価とパラメータチューニング
モデルの設計と性能評価の流れを理解する。混同行列,Accuracy,Precision,Recall,ROC曲線,AUCなどを計算し確認する。
データの特性に応じて評価指標を使い分けることを理解する。
今回の内容を復習し,演習のレポートを作成する(4時間)。次回の内容を予習(4時間)する。
第5回
データクレンジング
データクレンジング(外れ値・異常値の検出)を行う。
モデルの再構築・評価を行う。
今回の内容を復習し,演習のレポートを作成する(4時間)。次回のグループワークでの課題について準備(4時間)する。
第6回
グループワーク1
オープンデータを使った演習を行う。グループで課題を設定し,計画,分担を決める。課題について取り組む。
グループワークでの課題の取り組みについて,報告会の資料と報告書を作成する(8時間)。
第7回
グループワーク2
オープンデータを使った演習を行う。グループで課題にり組む。課題の取り組みについて資料を作成する。
グループワークでの課題の取り組みについて,報告会の資料と報告書にまとめる(8時間)。
第8回
成果報告会,総括
グループで取り組んだ課題の成果を発表する。
演習全体の内容について復習する(8時間)。
※AL(アクティブ・ラーニング)欄に関する注
・授業全体で、AL(アクティブ・ラーニング)が占める時間の割合を、それぞれの項目ごとに示しています。
・A〜Dのアルファベットは、以下の学修形態を指しています。
【A:グループワーク】、【B:ディスカッション・ディベート】、【C:フィールドワーク(実験・実習、演習を含む)】、【D:プレゼンテーション】
A: 20% B: 20% C: 50% D: 10%
成績評価法
演習の課題レポートと,グループワークのプレゼン,最終レポートにより総合的に判断する。
演習(実験)を含む科目であるため,原則として欠席したものに対しては,単位を認めない。
すべて出席(公休・病欠(医師の診断書付)を除く)したことを前提に,受理したレポートを採点する。
最終成績が60%以上を合格とする。なお,評価基準は以下の通りとする。
1.授業への積極的な参加(10%)
2.各課題の計画的実施と報告(60%)
(1) 計画的な課題実施と報告
(2) 報告内容の適切さ
3.プレゼン・最終報告書(30%)
(1) 適切なフォーマットでの報告
(2) 報告内容の適切さ
教科書にかかわる情報
備考
講義等で連絡します。
参考書にかかわる情報
参考書
書名
東京大学のデータサイエンティスト育成講座 : Pythonで手を動かして学ぶデータ分析
ISBN
4839965250
著者名
塚本邦尊, 山田典一, 大澤文孝著
出版社
マイナビ出版
出版年
2019
参考書
書名
データサイエンス技術
ISBN
9784780609592
著者名
相田紗織著
出版社
学術図書出版社
出版年
2021
備考
メッセージ
毎回,ノートパソコンを使用して演習を行うため,必ず持参してください。
キーワード
データサイエンス,データ分析,可視化,統計,確率,検定,人工知能,AI,機械学習,回帰,分類,クラスタリング,Python
持続可能な開発目標(SDGs)
(インフラ、産業化、イノベーション)強靱(レジリエント)なインフラ構築、包摂的かつ持続可能な産業化の促進及びイノベーションの推進を図る。
関連科目
データ科学と社会I・II,確率統計,データサイエンス技術,データサイエンス実践,人工知能,ソフトコンピューティング,応用線形代数
履修条件
連絡先
藤田 悠介(y-fujita@yamaguchi-u.ac.jp)
知能情報棟4階403号室
オフィスアワー
質問や相談は,授業の後に適宜受け付けます。電⼦メールでも受け付けます。
ページの先頭へ