統計検定 DS発展　勉強メモ

自分用の勉強メモです。少しずつ足していきます。
試験情報LINK

社会におけるデータ・AI利活用

社会で起きている変化

社会で起きている変化を知り、数理・データサイエンス・AIを学ぶことの意義を理解する

ビッグデータ

2000年代に入ってデータ量が顕著に増えて莫大な量になった。ビッグデータの代表的な特徴は3Vと呼ばれる。
Volumu（量）：データの量が大きいこと
下記３つの主な理由により安い値段で大量のデータを格納することが可能となった。
・計算機の処理性の大幅な向上
・ハードディスクの容量の大規模化
・インターネット回線の高速化
ムーアの法則：計算機の処理性能は１年半から２年ごとに２倍となる。15年で約1000倍性能が向上する。例：地球シミュレータ⇒20年後の富岳で計算速度が1万倍になった。
Velocity（速度）：データが計測され、記録されるスピードが速いこと
スマートスピーカーと呼ばれる製品群は、世界中の各家庭の生活者の質問を秒単位で集積し解析している。
Variety（種類）：データの種類がさまざまであること
従来はデータの使用目的を厳密に決めてルール（数値の桁数、コード、DBへの格納の仕方等）に正確に従って取得、蓄積していたが、ITの著しい向上により、センサがとらえる情報が工場のみならず生活空間に広く浸透し、人々が生み出す生活上の情報ビックデータとして蓄積されている。その代表例が、文書、画像、音声、動画である。

IoT

IoTとは：Internet of Things さまざまなものをインターネットにつなげる技術。データ駆動型の有用性が高まる。
インダストリー4.0 ：2011年にドイツが提案した「ものづくり」におけるデジタル革命を目指した動き
IoTセンサ：工作機械の機械の動きや電磁気、熱、音などの物理情報をとらえる様々なセンサで計測された情報をIoTにより集中管理を行う部署へ常時送る。

AI
ロボット

20世紀半ばの日本の行動成長を支えた、製造業における少品種大量生産方式の確立、一方現代においては多品種少量生産が主流となり、その実現のために製造現場に多くの関節を備えた工作用ロボットが大規模に導入されている。また、これらのロボットにもIoTセンサが付いており、データ分析により製造業の効率化を目指した合理的な作業の流れを提案することがインダストリー4.0の大きな目標である。

データ量の増加
計算機の処理性能の向上
AIの非連続的進化

人工ニューラルネットワークと呼ばれる計算技術の非連続的進化と同期している。 ①1960年代 ②1980年代　中間層が１～２の単純なニューラルネットワークが研究された ③2006年　深層学習（深層ニューラルネットワーク）が提案されたのが起点人口ニューラルネットワーク：人の脳神経西行同士のつながりをきわめて単純化し、数式で表現した非線形の関数

第4次産業革命

第1次産業革命　18世紀から19世紀にわたって起きた蒸気機関の発明により、の高社会から工業社会に産業構造が大きく変わるとともに、人々の暮らしの場も地方から都市へと移った時代
第2次産業革命　19世紀後半　電話機・電球・蓄音機など電気の発明とその産業への応用による産業革命
第3次産業革命　1970年代以降のパソコン、インターネットの発明と整備により、情報の伝達の様式がアナログからデジタルへ変化し、国境を越えた情報の転送が大幅に容易になった情報化社会の発達
第4次産業革命　デジタル化・AI ECなど小売りに限らず、あらゆるビジネスの進め方や、新しい産業の創生がデータ駆動型にシフトし、社会の営みにかかわる情報が時々刻々とビッグデータとして蓄えられている。このビッグデータを本格的に活用して、産業界も大きな変革が起こりつつある。・徹底したデジタル化・人工知能の驚異的発達に牽引され、産業界における徹底したデジタル化のことをデジタルトランスフォーメーション（DX）と呼ぶ。

Society 5.0

Society1.0:狩猟社会 Society2.0:農耕社会 Society3.0:工業社会 Society4.0:情報社会 Society5.0:上記に続く新しい未来社会の姿を目指すために提案された IoTですべての人とモノがつながり、さまざまな知識や情報が共有される基盤の上で、AIを積極的に活用し新たな価値を生み出すことを目的としている。これにより少子高齢化、地方の過疎化、貧富の格差などの課題や困難を克服することに挑戦している。

データ駆動型社会

ビッグデータのパターン分類を基礎とする解決法。標準的なモデルを先に構築し、状況に応じてそのモデルを変化させるのではなく、まず豊富に用意された行動の変容に関係する条件とその結果のペアをビッグデータから大量に得る。次に、それらを整理することで対応関係を作成し、その対応関係から未来の行動を予想する。今は上記を拡大解釈し、まずはビッグデータを集め、そのデータに基づいて意思決定を行う方式のこととしている。

複数技術を組み合わせたAIサービス

顔認証技術　深層学習の他、その他AIツールを複数組み合わせて実現されたAIサービス。入出国審査自動運転

人間の知的活動とAIの関係性
データを起点としたものの見方

膨大な数のペアを分類し、パターンを見つけ、そのパターンに基づいたルールを作成し、新しいデータが来た時に予測や判断を行う推論法。
帰納法：過去の事例に基づき意思決定のルールを作る推論法（経験論）過去に一度も起きていない事象に対する予測能力が著しく乏しいことが弱点。それまで起こったことが一度もない大災害でも、将来起きないとは言えない。「ないという事実を証明することができない」＝「悪魔の証明」
演繹法：代表格は数学や物理で、仮定と原理が与えられれば、厳格な論理でもって結果が導かれれる。演繹法による結果はゆるぎないが、最初に想定した仮定と原理が成り立たない場合は、その結果は正当化できない。

人間の知的活動を起点としたものの見方

人間は演繹法と帰納法の推論の仕方を上手に混ぜたり切り分けたりしてつかっている。意思決定の結果が人間社会に全く関係ない応用場面ならば、理解できなくとも予測がうまくいけばよいという割り切った考えたかもあるが、社会応用となると、法律、規則、倫理、慣習、文化的受容度など、人が理解できる整理の仕方でないと、社会には受け入れられない、人の施行はこの点も優れているた、人間の知的活動を起点とするものの見方の有用性がなくなることはない。
演繹法：数学の定理の証明など、論理の進め方を極限にまで単純化した体系にするなど思考を整理する。
帰納法：AIは予測や判別の性能ではすばらしいが、人間は整理の仕方に必ず自分が理解できるやり方を優先する。

社会で活用されているデータ

社会でどのようなデータが集められ、どう活用されているかを知る。

調査データ

アンケート調査のように調査を行う前に、その実施する目的を決め、その目的を達成するために収集されたデータ。いかにデータを得るのか、誰からデータを得るのかという２つの課題がある。国勢調査は全数調査
サンプリング　対象となる集団の構成メンバー全てからデータを得ることはできないため、データを得るメンバーを選別する。サンプリングの偏りから誤った結論を導く危険性は大きい
デジタルデバイド　ITに対する理解度や利用環境のち外から生じる格差

実験データ

実験を目的としたセンサにより得られる情報近年はセンサの性能が劇的に向上し、ビッグデータ化が進んでいる。

人の行動ログデータ

SNSアプリの広告のクリックや携帯基地局のユーザ所在・移動記録データなど

機械の稼働ログデータ

ログデータとして重要性を増している。IoTセンサによって集まれられるデータ。スマートメーターにより電気量を自動的に収集したり、コピー機の状況を逐一収集したり等してログデータを活用したs業の効率化に著しく貢献している。機械の稼動ログとビッグデータの有効活用により、世界中でインダストリー4.0を目指した競争が激しい。

1 次データ

(primary data)自社の業務や研究開発、また調査目的のために集めたデータ

2 次データ

(secondary data)外部データ、官公庁や国の研究機関、他社が保有している１次データ、一部気象庁等定期的に公開したりしているオープンデータもある

データのメタ化

メタデータとはデータが得られた状況を説明したデータ（例：撮影日時や場所の情報）。データは単独だと他人がデータの読み方に大変苦労するため、さまざまなメタデータをデータに付属するデータのメタ化の習慣が大切。

構造化データ

データの処理を事後的にやりやすくするため、あるて特定の目的のために収集されたデータの並べ方を予め厳格に定めている。わかり易い例として、データベースという表計算用のデータにして構造化されたデータ等がある。

非構造化データ（テキスト、画像/動画、音声/音楽）

データの並べ方にルールがないデータのことの総称。文書、画像、音声、音楽、動画等。

データ作成（ビッグデータとアノテーション）

2006年時点ではウェブ空間に十分な画像データが無かったが、スマホとSNSの広がりとともに、相当な数の画像データが自動的にウェブに蓄積された。これらの元画像にセグメンテーションとアノテーションを施した新たなデータの作成作業を深層学習により自動で行うことで、画像認識の性能向上に大きく貢献し、2012年の画像認識のコンペで圧倒できた。
特定物体認識　画像から言葉を認識する課題。自動運転の安全走行のために画像から何の交通標識かを認識する。
一般物体認識　特定物体認識に対して、ありとあらゆる言葉に対応した画像を取り扱うため格段に難しい。
セグメンテーション　複数の物体が入っている画像の中から物体の境界を切り出す作業。人間は子供でも簡単だが、深層学習の登場前まではAIにとってかなり難しい作業だった。
アノテーション　セグメンテーションされた部分に名前をつける作業。タグ付け、ラベル付けとも呼ばれる。

データ・AIの活用領域

さまざまな領域でデータ・AIが活用されていることを知る。

データ・AI利活用のための技術

データ・AIを活用するために使われている技術の概要を知る。

・データ解析

データ・AI利活用の現場

データ・AIを活用することによって、どのような価値が生まれているかを知る。

・データサイエンスのサイクル

・流通、製造、金融、サービス、インフラ、公共、ヘルスケア等におけるデータ・AI利活用

データAI利活用の最新動向

データ・AI利活用における最新動向（ビジネスモデル、活用例）を知る。

・AI等を活用した新しいビジネスモデル

シェアリングエコノミー
商品のレコメンデーション

・AI最新技術の活用例

深層生成モデル
敵対的生成ネットワーク
強化学習
転移学習

データ・AI 利活用における留意事項

データリテラシー

数理基礎

線形代数

データ分析に必要なベクトルや行列の扱いや n 次元ユークリッド空間の基本事項を理解する。

微分積分

データ分析に必要な初等関数や微分積分の意味と操作を理解する。

指数関数

指数：非常に大きな数や小さなを扱うのに便利な考え方
例：地球の直径　$12700000m = 1.27^{7}m$
　　太陽の直径　$13920000000m = 1.39^{10}m$
　　原子の直径　$0.0000000001m = 10^{-10}m$
指数法則：
①$a^m \times a^n = a^{m+n}$
②$(a^m)^n = a^mn$
③$(ab)^n = a^{n}b^n$
指数の拡張：
$a^0 = 1$
$a^{-1} = \frac{1}{a^n}$

指数関数： $f(x)=2^x$のような形で関数の入力が別の数字の肩に乗る関数のこと
この関数の２は底と呼ぶ
※$f(x)=0$　⇒　関数の値は１になる
指数関数の値は急激に増加する特徴がある。例：感染者の増加、紙を42回折ると月に到達する、など

指数関数 $f(x)=e^x$
底が1より大きな数であればグラフの形はほとんど同じ、特に$x=0$の時は、底の値にかかわらず、関数の値は1になります。xが大きくなると、関数の値は急激に増大し、小さくなると限りなく0に近づきます。

Image title

import numpy as np
import matplotlib.pyplot as plt

fig, ax = plt.subplots()

# xの値（-2から5、0.1間隔配列の生成）
x=np.arange(-2, 5, 0.1)

#　ネイピア数を底とする関数
y = np.exp(x)

# グラフの設定
ax.plot(x, y) # プロット
ax.set_title('exponential function', fontsize = 12)
ax.set_xlabel('x', fontsize = 12)
ax.set_ylabel('f(x)', fontsize = 12)
ax.grid() # グリッド描画
plt.show()

シグモイド関数 $f(x)=\frac{1}{1+e^{-x}}$
深層学習の基本的な技術であるニューラルネットワークでよく使われる関数 Image title

import numpy as np
import matplotlib.pyplot as plt

fig, ax = plt.subplots()

# xの値（-8から8、0.1間隔で配列の生成）
x = np.arange(-8, 8, 0.1)

#　シグモイド関数
y = 1 / (1 + np.exp(-x) )

# グラフの設定
ax.plot(x, y) # プロット
ax.set_title('Sigmoid function', fontsize = 12)
ax.set_xlabel('x', fontsize = 12)
ax.set_ylabel('f(x)', fontsize = 12)
ax.grid() # グリッド描画
plt.show()

ネイピア数（自然対数の底） e =　2.71828182845904523536……
だいたい2.718くらい　無理数、超越数。
最も基本的な微分方程式$\frac{dy}{dx} = y$の解である$e^x$を微分しても積分しても$e^x$のまま変わらない
$$ 微分　(e^x)^{'} = e^x　　積分　\int e^{x}dx = e^x + C　※Cは積分定数 $$ ネイピア数の定義 $$ e = \sum_{n=0}^{\infty} \frac{1}{n!}　　 e = \lim_{n\to \infty} \bigg(1 + \frac{1}{n} \bigg) ^n $$ $n!$ はnの階乗（1からnまでの整数をすべて掛け算した数
例：$3!=3\times2\times1=6$ ） $0!=1$ は決められている。ほぼ1である数を∞乗した数

対数関数

対数：人間の間隔は対数的、とても幅が広い範囲を人間の感覚的に表すときに使う。
例：地震の大きさ　M（マグニチュード） $log_{10}E=4.8+1.5M$マグニチュードが１違うと32倍違う。

$log_{2}8 = 3$　2を底、8を真数という
2を3乗すると真数の8になるか、答えは３となる。
対数法則：
①$log_{a}MN = log_{a}M + log_{a}N$
②$log \frac{M}{N} = log_a{M} - log_a{N}$
③$log_{a}{M}^p = {p}log_{a}{M}$

import math
import numpy as np

print(math.log(8,2))
print(np.log2(8)) #numpyの場合

自然対数：底がネイピア数の対数関数　$f(x)=log_ex=lnx$
常用対数：底が10の対数関数　$f(x)=log_{10}x$

三角関数
ベクトルの内積の定義 $$ \overrightarrow{a}・\overrightarrow{b}=|\overrightarrow{a}||\overrightarrow{b}|cos\theta $$ 正弦波（Sin波）基本的な波形の一つ
$f(x)=sin(x)$　$f(x)=cos(x)$
三角比
$\sin$　サイン　正弦
$\cos$　コサイン　余弦
$\tan$　タンジェント　正接

傾きを表現する関数がtan、sinとcosを使って次のように定義する。
$tan\theta=\frac{sin\theta}{cos\theta}$

三平方の定理　直角三角形の３辺の長さ（ピタゴラスの定理）　 $a^2+b^2=c^2$

数列

数列の基本的な事項を理解する。

数列の和
Σ記号

足し算の繰り返し $$ \sum_{k=1}^n k $$ k=1からnまでの整数をすべて足すという意味 k=10の場合

sigma = []
k=1
n=10
for i in range(k,n+1):
    sigma.append(i)
print(sum(sigma))

= 55

極限

デジタル情報とコンピュータの仕組み

デジタル情報

デジタル情報の表し方を理解する。

数と表現（2進数の表現、論理値）
情報量の単位（ビット、バイト、接頭語（k,M,G,T,m,μ,n,p など）を使った表現）
文字の表現（ASCIIコード、シングルバイト文字、ダブルバイト文字）
デジタル化（連続値、離散値）、画像・動画（ラスタデータ、ベクタデータ、コーデック）

コンピュータの仕組み

論理演算や計算の上の誤差について理解する。

集合、命題、真/偽、否定、論理和、論理積
有効数字、浮動小数点、仮数部、指数部、丸め誤差

アルゴリズム基礎

アルゴリズムの表現

アルゴリズムの表現方法を理解する。

フローチャート、アクティビティ図、端子、処理、判断、矢印

アルゴリズムの構造

分岐、繰り返しなどのアルゴリズムの構造の基礎を理解する。

代入、順次構造、選択構造、繰り返し構造

基本的なアルゴリズムの例

いくつかの基本的なアルゴリズムを理解する。

並べ替え（ソート）、探索（サーチ）、合計、併合

データ構造とプログラミング基礎（主にPython）

データ構造

配列などのデータ構造について理解する。

配列とリスト（メモリ、ベクトル、行列、アドレス）
連想配列（キー、バリュー、連想、辞書、ハッシュ）

プログラミング基礎

インタープリタ言語を用いて簡単なプログラミングができる。

インタープリタ言語（ソースコード、機械語、実行）
文（変数、代入、計算、分岐、繰り返し）、演算（オブジェクト、四則演算）
関数（引数、返り値）、制御文（for, while, if文）、入出力（print文）

データハンドリング

代表的なデータ形式

代表的なデータ形式を理解する。

csv、XML、JSON

その他のデータ形式

その他のデータ形式を理解する。

離散グラフ、キー・バリュー形式である隣接リスト、NoSQL

データベース

データベースの基礎概念を理解する。

データベース管理システム（DBMS）、リレーショナルデータベース、正規化、選択、射影、結合、SQL

データクレンジング

データクレンジング作業を理解する。

表記の揺れの吸収（文字列、数字、日付、時刻）、名寄せ

データ加工

データの加工法を理解する。

部分集合の抽出、行の並べ替え、新しい列の追加、プログラミング（Python、R）

データ取得とオープンデータ

日本や世界のオープンデータ

オープンデータの普及に向けた国内及び国際的な動きを理解する。

二次利用可能なルール、機械判読への適性、オープンデータ憲章

オープンデータの取得

オープンデータの取得法について理解する。

e-Stat、DATA.GO.JP、データカタログサイト、Open Knowledge International、Web API

統計法

統計法の意義について理解する。

基幹統計調査、調査票情報の二次的利用

確立と確率分布

順列と組み合わせ

場合の数の考え方を理解する。

階乗（n!）、順列（mPn）、組合せ（mCn）

確率分布の概念

確率変数の分布の基本を理解する。

確率変数、確率関数、確率密度関数、母平均、母分散、同時分布、周辺分布、共分散と相関、独立

主要な確率分布

主な確率分布と確率計算を理解する。

ポアソン分布、指数分布、一様分布、正規分布、2変量正規分布

統計的推測

統計的モデル

統計的モデルの考え方を理解する。

統計的モデル、母数、パラメータ

標本分布

標本分布の基本を理解する。

独立同一分布、標本平均、標本分散

点推定

点推定について理解する。

モーメント法、最尤法、バイアス、不偏推定量、平均二乗誤差、バイアス分散分解

仮説検定の考え方

仮説検定の考え方を理解する。

帰無仮説、対立仮説、2種の誤り、有意水準、検出力、p値、検定統計量

種々のデータ解析

時系列データ解析

時系列データの扱いを理解する。

時系列データ（トレンド、周期、ノイズ）、季節調整、移動平均

テキスト解析

テキスト処理の基礎を理解する。

形態素解析、単語分割、ユーザ定義辞書、n-gram、文章間類似度、かな漢字変換の概要

画像解析

画像解析の基礎を理解する。

画像データの処理、画像認識、画像分類、物体検出

データ活用実践

教師あり学習

教師あり学習の実践例を理解する。

教師あり学習による予測 (例: 売上予測、罹患予測、成約予測、離反予測)
データの収集、加工、分析
データ分析結果の共有、課題解決に向けた提案

教師なし学習

教師なし学習の実践例を理解する。

教師なし学習によるグルーピング（例：顧客セグメンテーション、店舗クラスタリング）
データの収集、加工、分析
データ分析結果の共有、課題解決に向けた提案
予備

xxx

aaaaaaaaaaaaaaaaaaaaa bbbbbbbbbbbbbbbbbbb ccccccccccccccccccccc

統計検定 DS発展 勉強メモ