統計検定 DS発展 勉強メモ
- 自分用の勉強メモです。少しずつ足していきます。
試験情報LINK
社会におけるデータ・AI利活用
社会で起きている変化
- 社会で起きている変化を知り、数理・データサイエンス・AIを学ぶことの意義を理解する
- ビッグデータ
- 2000年代に入ってデータ量が顕著に増えて莫大な量になった。ビッグデータの代表的な特徴は3Vと呼ばれる。
Volumu(量):データの量が大きいこと
下記3つの主な理由により安い値段で大量のデータを格納することが可能となった。
・計算機の処理性の大幅な向上
・ハードディスクの容量の大規模化
・インターネット回線の高速化
ムーアの法則:計算機の処理性能は1年半から2年ごとに2倍となる。15年で約1000倍性能が向上する。 例:地球シミュレータ⇒20年後の富岳で計算速度が1万倍になった。
Velocity(速度):データが計測され、記録されるスピードが速いこと
スマートスピーカーと呼ばれる製品群は、世界中の各家庭の生活者の質問を秒単位で集積し解析している。
Variety(種類):データの種類がさまざまであること
従来はデータの使用目的を厳密に決めてルール(数値の桁数、コード、DBへの格納の仕方等)に正確に従って取得、蓄積していたが、ITの著しい向上により、センサがとらえる情報が工場のみならず生活空間に広く浸透し、人々が生み出す生活上の情報ビックデータとして蓄積されている。その代表例が、文書、画像、音声、動画である。
- IoT
- IoTとは:Internet of Things さまざまなものをインターネットにつなげる技術。データ駆動型の有用性が高まる。
インダストリー4.0 :2011年にドイツが提案した「ものづくり」におけるデジタル革命を目指した動き
IoTセンサ:工作機械の機械の動きや電磁気、熱、音などの物理情報をとらえる様々なセンサで計測された情報をIoTにより集中管理を行う部署へ常時送る。
- AI
- ロボット
- 20世紀半ばの日本の行動成長を支えた、製造業における少品種大量生産方式の確立、一方現代においては多品種少量生産が主流となり、その実現のために製造現場に多くの関節を備えた工作用ロボットが大規模に導入されている。また、これらのロボットにもIoTセンサが付いており、データ分析により製造業の効率化を目指した合理的な作業の流れを提案することがインダストリー4.0の大きな目標である。
- データ量の増加
- 計算機の処理性能の向上
- AIの非連続的進化
- 人工ニューラルネットワークと呼ばれる計算技術の非連続的進化と同期している。 ①1960年代 ②1980年代 中間層が1~2の単純なニューラルネットワークが研究された ③2006年 深層学習(深層ニューラルネットワーク)が提案されたのが起点 人口ニューラルネットワーク:人の脳神経西行同士のつながりをきわめて単純化し、数式で表現した非線形の関数
- 第4次産業革命
- 第1次産業革命 18世紀から19世紀にわたって起きた蒸気機関の発明により、の高社会から工業社会に産業構造が大きく変わるとともに、人々の暮らしの場も地方から都市へと移った時代
第2次産業革命 19世紀後半 電話機・電球・蓄音機など電気の発明とその産業への応用による産業革命
第3次産業革命 1970年代以降のパソコン、インターネットの発明と整備により、情報の伝達の様式がアナログからデジタルへ変化し、国境を越えた情報の転送が大幅に容易になった情報化社会の発達
第4次産業革命 デジタル化・AI ECなど小売りに限らず、あらゆるビジネスの進め方や、新しい産業の創生がデータ駆動型にシフトし、社会の営みにかかわる情報が時々刻々とビッグデータとして蓄えられている。このビッグデータを本格的に活用して、産業界も大きな変革が起こりつつある。 ・徹底したデジタル化 ・人工知能の驚異的発達 に牽引され、産業界における徹底したデジタル化のことをデジタルトランスフォーメーション(DX)と呼ぶ。
- Society 5.0
- Society1.0:狩猟社会 Society2.0:農耕社会 Society3.0:工業社会 Society4.0:情報社会 Society5.0:上記に続く新しい未来社会の姿を目指すために提案された IoTですべての人とモノがつながり、さまざまな知識や情報が共有される基盤の上で、AIを積極的に活用し新たな価値を生み出すことを目的としている。これにより少子高齢化、地方の過疎化、貧富の格差などの課題や困難を克服することに挑戦している。
- データ駆動型社会
- ビッグデータのパターン分類を基礎とする解決法。標準的なモデルを先に構築し、状況に応じてそのモデルを変化させるのではなく、まず豊富に用意された行動の変容に関係する条件とその結果のペアをビッグデータから大量に得る。次に、それらを整理することで対応関係を作成し、その対応関係から未来の行動を予想する。今は上記を拡大解釈し、まずはビッグデータを集め、そのデータに基づいて意思決定を行う方式のこととしている。
- 複数技術を組み合わせたAIサービス
- 顔認証技術 深層学習の他、その他AIツールを複数組み合わせて実現されたAIサービス。入出国審査 自動運転
- 人間の知的活動とAIの関係性
- データを起点としたものの見方
- 膨大な数のペアを分類し、パターンを見つけ、そのパターンに基づいたルールを作成し、新しいデータが来た時に予測や判断を行う推論法。
帰納法:過去の事例に基づき意思決定のルールを作る推論法(経験論)過去に一度も起きていない事象に対する予測能力が著しく乏しいことが弱点。それまで起こったことが一度もない大災害でも、将来起きないとは言えない。「ないという事実を証明することができない」=「悪魔の証明」
演繹法:代表格は数学や物理で、仮定と原理が与えられれば、厳格な論理でもって結果が導かれれる。演繹法による結果はゆるぎないが、最初に想定した仮定と原理が成り立たない場合は、その結果は正当化できない。
- 人間の知的活動を起点としたものの見方
- 人間は演繹法と帰納法の推論の仕方を上手に混ぜたり切り分けたりしてつかっている。
意思決定の結果が人間社会に全く関係ない応用場面ならば、理解できなくとも予測がうまくいけばよいという割り切った考えたかもあるが、社会応用となると、法律、規則、倫理、慣習、文化的受容度など、人が理解できる整理の仕方でないと、社会には受け入れられない、人の施行はこの点も優れているた、人間の知的活動を起点とするものの見方の有用性がなくなることはない。
演繹法:数学の定理の証明など、論理の進め方を極限にまで単純化した体系にするなど思考を整理する。
帰納法:AIは予測や判別の性能ではすばらしいが、人間は整理の仕方に必ず自分が理解できるやり方を優先する。
社会で活用されているデータ
- 社会でどのようなデータが集められ、どう活用されているかを知る。
- 調査データ
- アンケート調査のように調査を行う前に、その実施する目的を決め、その目的を達成するために収集されたデータ。いかにデータを得るのか、誰からデータを得るのかという2つの課題がある。 国勢調査は全数調査
サンプリング 対象となる集団の構成メンバー全てからデータを得ることはできないため、データを得るメンバーを選別する。サンプリングの偏りから誤った結論を導く危険性は大きい
デジタルデバイド ITに対する理解度や利用環境のち外から生じる格差
- 実験データ
- 実験を目的としたセンサにより得られる情報 近年はセンサの性能が劇的に向上し、ビッグデータ化が進んでいる。
- 人の行動ログデータ
- SNSアプリの広告のクリックや携帯基地局のユーザ所在・移動記録データなど
- 機械の稼働ログデータ
- ログデータとして重要性を増している。IoTセンサによって集まれられるデータ。スマートメーターにより電気量を自動的に収集したり、コピー機の状況を逐一収集したり等してログデータを活用したs業の効率化に著しく貢献している。機械の稼動ログとビッグデータの有効活用により、世界中でインダストリー4.0を目指した競争が激しい。
- 1 次データ
- (primary data)自社の業務や研究開発、また調査目的のために集めたデータ
- 2 次データ
- (secondary data)外部データ、官公庁や国の研究機関、他社が保有している1次データ、一部気象庁等定期的に公開したりしているオープンデータもある
- データのメタ化
- メタデータとはデータが得られた状況を説明したデータ(例:撮影日時や場所の情報)。データは単独だと他人がデータの読み方に大変苦労するため、さまざまなメタデータをデータに付属するデータのメタ化の習慣が大切。
- 構造化データ
- データの処理を事後的にやりやすくするため、あるて特定の目的のために収集されたデータの並べ方を予め厳格に定めている。わかり易い例として、データベースという表計算用のデータにして構造化されたデータ等がある。
- 非構造化データ(テキスト、画像/動画、音声/音楽)
- データの並べ方にルールがないデータのことの総称。文書、画像、音声、音楽、動画等。
- データ作成(ビッグデータとアノテーション)
- 2006年時点ではウェブ空間に十分な画像データが無かったが、スマホとSNSの広がりとともに、相当な数の画像データが自動的にウェブに蓄積された。これらの元画像にセグメンテーションとアノテーションを施した新たなデータの作成作業を深層学習により自動で行うことで、画像認識の性能向上に大きく貢献し、2012年の画像認識のコンペで圧倒できた。
特定物体認識 画像から言葉を認識する課題。自動運転の安全走行のために画像から何の交通標識かを認識する。
一般物体認識 特定物体認識に対して、ありとあらゆる言葉に対応した画像を取り扱うため格段に難しい。
セグメンテーション 複数の物体が入っている画像の中から物体の境界を切り出す作業。人間は子供でも簡単だが、深層学習の登場前まではAIにとってかなり難しい作業だった。
アノテーション セグメンテーションされた部分に名前をつける作業。タグ付け、ラベル付けとも呼ばれる。
データ・AIの活用領域
- さまざまな領域でデータ・AIが活用されていることを知る。
- データ・AI 活用領域の広がり(生産、消費、文化活動)
生産:製造業や農業などの領域では品質管理や歩留まり改善に生産データや設備データが活用されている。また、画像認識技術やロボット制御技術を活用した農作物の自動選別や自動収穫への取り組みも始まっている。
消費:流通業やサービス業などの領域では、販売業務を効率化するために、無人店舗やレジなし店舗の導入が進んでいる。次世代型店舗では決済自動化や商品推薦に、画像認識技術やセンシング技術が活用されている。
文化活動:芸術やスポーツなどの利用域では、有名画家の作風をまねた絵画の生成や、音楽の作曲、原稿・記事の自動生成などに深層学習が活用されている。また、野球やサッカー、バレーボール、バスケットボールでは、戦術立案や采配にAIを活用する取り組みも進められている。 - 研究開発
自動車開発:自動運転に向けた技術開発が行われている。自動車の位置情報や地図情報、画像認識技術やセンシング技術を活用し、人の運転操作なしに走行できる自動車の開発を目指している。
素材開発:過去のっ実験データやシミュレーションデータから新素材を探索する取り組みが始まっている。この新素材に関する取り組みはマテリアルズ・インフォマティクスと呼ばれ、素材開発機関の短縮や未知の素材発見につながる可能性があると期待されている。
医薬品開発:創薬や臨床試験にデータとAIが活用されている。創薬標的候補となる化合物の探索や化合物の最適化に関する取り組みが行われている。
商品企画:消費者の嗜好や価値観、購入以降を把握するために、インタビュー調査やアンケート調査が行われている。市場の動向や消費者のニーズを踏まえ、新たな商品の企画・開発が行われている。 - 購買物流・調達
在庫適正化:製造する製品の需要予測を部品や原材料の発注量を適切化する取り組みがAIで行われている。納品までのリードタイムを考慮し、適切なタイミングで発注することによって、過剰在庫を防ぐことができる。
調達コスト削減:原材料の生産量や調達価格が変動する場合、市場の動向を踏まえ適切なタイミングで取引する必要がある。原材料の価格を予測し、適切なタイミングで取引を行うことにAIを活用し、調達コストを削減する。 - 製造
品質管理・歩留まり改善:原材料の投入量から期待される生産量と、不良品の発生により現象する実際の生産量の比率は歩留まり率が悪い場合は、不良品が製造されてしまう原因をデータやAIで分析し、改善活動を行う。
検査工程の省力化・生産計画の最適化:画像認識技術を用いて、これまで目視で行っていた検査工程をカメラで撮影した製品画像から、良品と不良品を判別し、自動的に不良品を検出する。また、これまで熟練者が実施していた生産計画をデータによる需要予測の結果をもとに、生産能力やリードタイムを考慮し、最適な生産計画の作成をAIで自動化する。 - 出荷物流
輸送業務の効率化:需要予測を行うことで必要な輸送量を把握し、適切な数のトラックやドライバーを手配する。また輸送効率を上げるために、トラックへの積載量や輸送ルートを最適化する。
倉庫内作業の効率化倉庫内の棚配置を最適化する事により、作業員のピッキング業務を効率化する。画像認識技術を活用し、倉庫内の商品を自動的に仕分けする。 - 販売
販売管理・予算管理:流通業ではPOSシステムを導入し、レジでバーコードをスキャンすることにより販売実績を蓄積している。蓄積された販売実績は、週次月次で実施する売上分析に利用され、販売実績の増減傾向や予算達成状況などを確認する。販売実績を日別や商品別、店舗別などに細分化し比較することによって、課題となっていることを見つけ出すことができる。
営業活動の効率化:日々の営業活動が記録された営業日報はテキスト(文書)で記録されているため、自然言語処理技術を用いて分析し、営業担当者ごとの営業成績や営業方法を分析し、各担当者の得意・不得意を把握する。また営業日報から提案の進捗状況を把握し、最適な訪問計画を作成する。 - マーケティング
商品推薦:ECサイトでは、商品の購入履歴やサイト閲覧履歴から、興味・関心がありそうな商品を推薦するレコメンデーションが行われている。
価格設定:収益の最大化を目的に、需要と供給に応じて価格を変動させるダイナミックプライシングに関する取り組みが行われている。
顧客獲得:従来からあるマスメディアに加え、検索連動型広告などのインターネット広告の活用が進んでいる。検索連動型広告では、検索エンジンでユーザが検索したキーワードに関連する広告が表示される。
顧客育成:売上への貢献度が高い優良顧客を維持するため、優良顧客を対象としたポイントプログラム(流通業)やマイレージプログラム(航空会社)などのロイヤリティプログラムを導入し、ロイヤリティプログラムで集めた顧客データを分析し、優良顧客の育成や顧客離反の防止に繋げている。 - サービス
修理:自動車や工作機械の安定的稼働ために稼働記録やセンサデータをもとに異常を検知し、故障している箇所を特定する。また、道路や鉄道、ライフライン設備の劣化を予測し、故障前に修理交換を行う予防的メンテナンスに関する取り組みも進められている。
顧客対応の高度化や効率化:コールセンターでは、オペレータの業務を効率化するために、音声認識技術や検索技術の活用が進んでいる。顧客との会話をテキスト変換し、問い合わせに対する回答候補をおpレータの画面に提示することで、応答速度や対応品質の向上につなげている。また、顧客からの問い合わせ対応をチャットボットによって自動化する。 - 仮説検証
製造業の研究開発:さまざまな仮説を立てながら実験が行われている。仮説に基づき実験を行い、実験データを分析することで仮説が正しかったかを検証する。複数の要因を同時に検証する場合は、実験計画法などを利用し効率的な実験となるように工夫する。
製造業・流通業:仮説をもとにキャンペーンを企画し、販売促進活動を行う。過去のキャンペーン結果をもとに、売上向上につながる販売促進施策の仮説を立て、特売やクーポン配布などのキャンペーンを実施する。キャンペーンごとの販売促進効果を検証し、次回のキャンペーン企画に反映させる。
金融業:仮説をもとにターゲット企業を設定し、営業活動を行っている。自社の商品およびサービスを購入する可能性が高い企業の仮説を立て、ターゲットとなった企業を中心に営業活動を行う。営業活動の結果をもとに成約率を検証する。
マーケティングリサーチ:仮説をもとにアンケート設計が行われている。マーケティングリサーチで調査したい仮説を検討し、アンケート項目に反映させる。アンケート結果を分析することで、設計時に立てた仮説が正しかったか検証する。 - 知識発見
流通業:売上を向上するために、顧客の購買パターンを分析する。コンビニやスーパー顧客単価を増やす販売促進活動で顧客がよく一緒に購入する商品の組合せを購買データの中から見つけ出し、クロスセルにつなげる取り組みが行われている。海外のスーパーで、ビールと紙おむつがよく同時に購入されていることを発見した例が有名。
製造業:顧客ニーズを把握するために、顧客の声を分析する。コールセンターやSNSで集めた顧客の声を分析することで、顕在化していなかった顧客ニーズや商品・サービスの改善箇所を見つけ出すことができる。 - 原因究明
製造業:生産性を向上させるために流行品を減らすための原因分析が行われている。不良品が製造されてしまう条件や手順を明らかにし、改善活動を実施する。市場投入後に不良品が見つかった場合は、不良の遠因を特定し、影響範囲を調査する必要がある。同じ条件で製造したロットを追跡し、回収や修理を行う。また生産設備が故障した場合は、稼働記録やセンサデータをもとに、設備故障の原因を分析し、故障の原因となっt部品を修理・交換する。
通信業:顧客の離反を防止するために、解約につながる要因を分析する取り組み、チャーン分析が行われている。過去に離反してしまった顧客の利用実績や対応履歴をもとに、顧客が解約を決めてしまう状況や要因を見つけ出し、離反防止施策を検討する。解約する可能性が高い顧客に対して、適切なフィードバックを行うことで、解約してしまう顧客を減らすとともに、サービス内容の改善につなげる。
マーケティングを目的としたウェブサイト:成約率を上げるためにウェブサイトの離脱原因を分析する取り組みが行われている。ウェブサイトは、商品購入やサービス申込、会員登録などの目標を設定し運用されている。顧客が離脱しているウェブページを特定し、離脱要因を分析することでウェブサイトの改善につなげている。 - 計画策定
流通業:従業員のシフト管理を最適化する取り組み、業務に必要な人員数と、従業員の勤務形態や休暇希望を踏まえ、最適なシフト管理表を作成する。
製造業:設備を継続的かつ安定的に稼働するために、設備の点検時期及びメンテナンス時期を最適化する取り組みが行われている。設備の稼働状況を踏まえ、設備の劣化予測や部品の寿命予測をもとに、設備点検計画を作成する。
物流業:配送効率を上げるために、配送ルートを最適化する取り組みが行われている。配送ルート最適化することによって、輸送量を増やし、物流コストを削減することができる。また配送時間が短縮することで、トラックドライバーの負担軽減にもつながる。
警備業務:警備員の配置や巡回ルートを最適化する取り組みが行われている。商業施設やスポーツ施設、観光施設では、混雑状況を予測し、予測結果に基づいて警備計画を作成する。警備を行う際は、適切なルートで施設内を巡回することで、くまなく施設を見回ることができる。 - 判断支援
流通業:新規店舗出店や既存店舗再構成の判断に、商圏分析の結果を活用する。新規店舗を出店する場合、商圏分析によって各エリアの地域特性や競合情報を把握し、フックス運候補エリアの中から出店するエリアを決定している。商圏分析では、地理情報システム(GIS)が利用される。
医療:画像診断に画像認識技術を活用する。l画像認識技術を用いて、医用画像から病巣や病変を認識することで、画像診断にかかわる専門医の判断を支援する。 公共における防災:避難誘導の判断に河川推移予測や土砂災害予測、被害シミュレーションの結果を活用することができる。台風や集中豪雨による河川の雑炊や氾濫を、センサデータや画像監視データをもとに把握し、避難勧告や避難指示に活用している。また、事前に被害シミュレーションを行うことで、災害時の避難エリアの検討に役立てる。
スポーツ:試合の采配に過去の試合データを分析した結果を活用することができる。過去の試合データを分析し、自チームおよび対戦相手の強み・弱みを把握することで、試合の勝率を高めることができる。野球やサッカー、バレーボールなどで、統計データを戦術立案に活用する取り組みが進んでいる。その中でも野球におけるセイバーメトリクスが有名である。 - 活動代替
自動運転:自動車における運転操作を自動化する取り組み。現在は、運転者が一部またはすべての運転タスクを実行しているが、最終的にはすべての運転タスクを自動運転システムに実行させることを目指している。また自動運転技術を活用し、後続車を無人にして走行するトラック隊列走行に関する取り組みも始まっている。
流通業:販売業務を効率化するため、無人店舗やレジなし店舗の導入が進められている。画像認識技術やセンシング技術を活用することで、来店した顧客は店員と接することなく商品を購入することができる。
農業:画像認識技術やロボット制御技術を活用し、農作物の自動選別や自動収穫を行うことで、従来は人が行っていた収穫時期の判断や、出荷できない農作物の仕分けをロボットに任せることができる。
金融業:株式売買を自動化する取り組みが行われている。株価や出来高などに応じて、自動的に売買注文を行うアルゴリズム取引が利用されている。あらかじめ設定しておいた条件にそって、自動的に売買注文が繰り返される。 - 新規生成
データとAIを活用することによって、これまで存在していなかった新たなデータを生成することができる。たとえば深層学習を活用し、架空の画像を生成する取り組みが始まっている。敵対的生成ネットワーク(GAN)を活用することで、有名画家の作風をまねた絵画を作成することができる。また、有名音楽家の楽曲を大量に学習されることによって、類似した曲を生成できる。
テキスト(文章)を要約し新たな文章を生成する取り組みも進められている。ニュース原稿や新聞記事を自動生成することで、執筆作業を効率化できる。また、動画の中から特徴的なシーンを抽出し、ダイジェスト映像を生成する取り組みも始まっている。映画やドラマ、スポーツなどのダイジェスト映像を自動生成することで、編集作業を効率化できる。
データ・AI利活用のための技術
- データ・AIを活用するために使われている技術の概要を知る。
・データ解析
- 予測
天気予報:地球規模で過去数十年分の天気変化のデータや、最近1週間分のデータを用いて、明日以降の大気状態を推定する。予測精度は極めて高い。
株価の予測:膨大な過去のデータを使って、値段が上がると予測される株を買って、一番上ったと予測すされるときに売る。
予測の方法:①これまでのデータから何らかの法則を見出して、その法則が今後も続くと仮定して、未来を予測する方法。例えば過去10年の給料の増加から今後も増え方は一定と予測し、直線を法則として5年後を予測する。②似たデータを用いる方法。例えば、さまざまな人々の給料の変化をデータとして蓄積しておき、その中から似た人を探し、その人の給料変化データを用いて、未来を予測する。
予測の難しさ:給料で一定の増加を法則として予測しても、予測後に景気変動が起これば、この法則は成り立たなくなる。またそもそも似た人のデータがあるのかといった問題や、似ていても未来が同じという保証はない。さらにサイコロの目のようにそもそも予測不可能な問題もある。このような理由により、最新の理論や予測は依然として困難だが、未来の範囲を予測する、短期予測とする等困難な未来予測を用意にする方法もある。
未来を予測するー補完:折れ線グラフなどのように、データの欠損部分に予測値を与える。この「間を予測する技術」は補完と呼ばれる。 - グルーピング
グループがあらかじめ決まっている場合:アンケートを取り、グループの割合を把握したり、人口を年代別に把握するなど、全体の傾向を用意に把握できる。階層的グルーピングが便利な場合もある。麺類(ラーメン、、、)、肉類(焼肉、、)、魚類(刺し身、、)
グループがあらかじめ決まっていない場合ークラスタリング:データの類似度を用いて、似ているデータを同じグループに属させる考え方で、グループ自体を自動的に決めながら、事物それぞれをグループに分けていくことを、クラスタリングと呼ぶ。クラスターとはぶどうの房のような塊を意味する。ビッグデータを扱う場合、それらがどういう性質を持っているのか、すべてを見ていくことは難しい。しかし、クラスタリングを行って、各グループの代表例だけを観察すれば、それら全データがおよそどのような種類で構成されているかを把握できる。クラスタリングには「絶対的な正解」が存在しないことが多いため、分析者が試行錯誤しつつ、指標などを調整する必要がある。 - パターン発見
相関分析:2種類のデータ間の関係の強弱。正の相関、負の相関、無相関がある。また、相関係数によって相関の強弱を測ることができる。最も強い正の相関は1,最も強い負の相関は-1、無相関は0の値をとる。 疑似相関:直接的な相関がないにも関わらず、背後に共通した要因があるため、相関があるように見えてしまうこと。擬似相関は悪用されるケースもあるので、注意すべきである。
相関と因果関係:相関があっても、そこからただちに因果関係があると結論づけるのは危険である。因果関係を正しく把握するためには、因果推論という手法をつかう必要がある。
頻出パターン発見:よく見かけるパターン(データの組)を見つける方法。バスケット分析により、よく同時に購入される商品の組み合わせを発見し、購入の推薦をするなど。アンケート結果の解析にも利用できる。頻出パターン発見は、3つ以上の組み合わせが頻出し、データが大規模になると組合せ爆発により、全部の組み合わせをすべてチェックすることが計算機を用いても不可能となる。このため、工夫したアルゴリズムを用いて、効率的に各組み合わせの出現回数を求める必要がある。 - 最適化
データ解析や機械学習と密接する数学の一分野で、特に意思決定や選択のときに登場する。制御変数(例:選ぶ料理)、目的変数(例:料理中の野菜)、制約条件(例:メニュー内、昨日と違うもの、500円以内)の三要素からなる。クラスタリングでは、制御変数:各データをそれぞれどのグループに入れるか、目的変数:各グループに属する出たの似ている程度、制約条件:グループは2つという最適化の問題になる。予測や頻出パターン、パターン認識なども、最適化問題になる。 - シミュレーション・データ同化
シミュレーション:「模倣」もしくは「模擬」、過去になり大雨、地震被害やウイルスの拡散等実際に起こらない状況や起こせない状況に似たよううな状況を作り出し、観察する。大地震や心臓の一部破壊等のように実データを集めることが不可能もしくは困難な場合にはシミュレーションで生成したデータはデータ解析に役立ち貴重である。またある理論により作られたシミュレーションの結果が実際のデータとどの程度合致しているかを検証することで、間接的にろの理論の妥当性を示すことができる。
データ同化:シミュレーションと実データのズレを補正することで、シミュレーションの精度を改善する方法。実際の現象から得られた実データやその解析結果を利用することで、より高精度なシミュレーションを実現できる。
・データ可視化 - 複合グラフ
棒グラフと折れ線グラフを組み合わせたもの - 2軸グラフ
複合グラフで棒グラフと折れ線グラフの横軸は同じだが、縦軸の意味が異なり、異なるテテ軸を左右に表示したもの - 多次元の可視化
次元:組になっている数値の個数
散布図:大人数の身長、体重データなどの2次元データの傾向を見るには散布図が有効
分布:数多くのデータのデータの広がりは分布と呼ばれそれを可視化して観察することで、相関などの把握が可能になる。
3次元以上のデータの可視化
散布図行列:3次元以上でも(身長、体重)(体重、胸囲)(身長、胸囲)など2つずつに分けて複数の散布図を作成することで色々な方向からデータの分布を眺める。
平行座標プロット:横方向に次元、縦軸に値を取って、1つの折れ線グラフで表現する3次元以上のデータを表現するグラフ
主成分分析、多次元尺度構成法、分布型確率的近傍埋め込み法:データの完全な表現はあきらめ、データ間の近い・遠いが「なるべく」保たれるような位置に点をおいた2次元の散布図を作る方法。高次元データ郡のいち関係を、無理やり2次元に押しつぶすような形式 - 関係性の可視化
世の中の事物の間にはさまざまな関係性があり、こうした関係性を可視化する場合は、ネットワークによる可視化が用いられる。ネットワークを表す点のことを節点、線のことを辺と呼ぶ。多くの辺が出ている節点のことをハブと呼ぶ。 - 地図上の可視化
世界地図の国々を人口数で色分けして人口の多い国の地域を把握する。鉄道路線ネットワークを地図とみなし、節点の駅を乗降者数に応じて色分けする等 - 挙動・軌跡の可視化
地図上で、人々や車などが動いた経路を軌跡として可視化する。渡り鳥やウミガメにセンサを付けて世界をどのように移動しているかを可視化するバイオロギング等がある。 - リアルタイム可視化
現在の道路渋滞状況や、降雨量・落雷数を地図上に表すなど「今の状況を目で見て理解する」可視化 - 非構造化データ処理:言語処理、画像/動画処理、音声/音楽処理
- 特化型 AI と汎用 AI、今の AI で出来ることと出来ないこと、AI とビッグデータ
- 認識技術
- ルールベース
- 自動化技術
データ・AI利活用の現場
- データ・AIを活用することによって、どのような価値が生まれているかを知る。
・データサイエンスのサイクル
- 課題抽出と定式化
- データの取得・管理・加工
- 探索的データ解析
- データ解析と推論
- 結果の共有・伝達
- 課題解決に向けた提案
・流通、製造、金融、サービス、インフラ、公共、ヘルスケア等におけるデータ・AI利活用
データAI利活用の最新動向
- データ・AI利活用における最新動向(ビジネスモデル、活用例)を知る。
・AI等を活用した新しいビジネスモデル
- シェアリングエコノミー
- 商品のレコメンデーション
・AI最新技術の活用例
- 深層生成モデル
- 敵対的生成ネットワーク
- 強化学習
- 転移学習
データ・AI 利活用における留意事項
データリテラシー
数理基礎
線形代数
- データ分析に必要なベクトルや行列の扱いや n 次元ユークリッド空間の基本事項を理解する。
- 平面ベクトル
向きと長さを持った矢印として表現することができる要素が2つのベクトル、2次元ベクトル $$ \begin{pmatrix} x \\ y \end{pmatrix} $$ - 空間ベクトル 3次元ベクトル $$ \begin{pmatrix} x \\ y \\ z \end{pmatrix} $$
- n 次元ベクトル
$ x = \begin{pmatrix} x_1\\ x_2\\ ...\\ x_n \end{pmatrix} $ のようにn個の成分からなるベクトル - ベクトルの和
要素同士の数の足し算、同じ次元数のベクトルの間のみで計算できる $$(x,y)= \begin{pmatrix} x_1+y_1\\ x_2+y_2\\ ...\\ x_n+y_n \end{pmatrix} $$ - 内積 2つのn次元ベクトルxとyに対して、 \((x,y)=x_1y_1+x_2y_2+・・・+x_ny_n\)で定まるスカラーをx,yの内積と呼ぶ
-
直交性
2つのn次元ベクトルx,yの内積(x,y)が0であるとき、xとyは直行するという -
ノルム ベクトルの大きさをスカラーで表現すること ベクトルの各要素を2乗して合計し、その平方根を計算する。 \(||x||=\sqrt{x^2_1+x^2_2+...+x^2_n}\\\) ベクトルの各要素の絶対値を足し合わせても計算できる。
\(||x||=|x_1|+|x_2|+...|x_n|\)
xを位置ベクトルと考えると、原点からベクトルの終点までの直線距離であり、ユークリッド距離と同じこととなる。 - 正方行列
行と列のサイズが同じ行列。 - 単位行列
正方行列のうち、左上から右下への対角線上にのる成分(対角成分)がすべて1で、残りの要素が0の行列。 $$ I_n=\begin{pmatrix} 1 & 0 & ... & 0\\ 0 & 1 & ... & 0\\ . & . & ... & .\\ 0 & 0 & ... & 1 \end{pmatrix} $$ - 転置行列
行列の行と列を入れ替える操作を転置と呼ぶ。 - 対称行列 転置行列と元の行列が一致する行列 $$ \begin{pmatrix} 1 & 3\\ 3 & 1 \end{pmatrix} $$
- 行列の積
\(m \times s\)の行列に\(s \times n\)の行列を掛けると\(m \times n\)の行列になる。 $$ \begin{pmatrix} 1 & 2\\ 3 & 4 \end{pmatrix} \begin{pmatrix} 5 & 7\\ 6 & 8 \end{pmatrix}= \begin{pmatrix} 1 \times 5 + 2 \times 6 & 1 \times 7 + 2 \times 8\\ 3 \times 5 + 4 \times 6 & 3 \times 7 + 4 \times 8 \end{pmatrix}= \begin{pmatrix} 17 & 23\\ 39 & 53 \end{pmatrix} $$ - 逆行列
行列における逆数(例えば2の逆数は\(\frac{1}{2}\))のようなもの。行列\(A\)の逆行列は\(A^-1\)という記号で表す。逆数は元の数字と掛け合わせると1になるが、逆行列は元の行列とかけ合わせると単位行列になる。\(A\)の行列が存在するとき、\(A\)は正則であるという。 - 行列式
正方行列に対して定義される量(スカラー)。 - 線形独立
一次独立とも言う。いくつかのベクトルがあり、そのどれをとっても平行(定数倍)なものがないこと。線形独立でないものは線形従属であると言う。 - 部分空間
ベクトル空間の空でない部分集合で、かつ、ベクトル空間であるものを部分空間という。
微分積分
- データ分析に必要な初等関数や 微分積分の意味と操作を理解する。
- 指数関数
指数:非常に大きな数や小さなを扱うのに便利な考え方
例:地球の直径 \(12700000m = 1.27^{7}m\)
太陽の直径 \(13920000000m = 1.39^{10}m\)
原子の直径 \(0.0000000001m = 10^{-10}m\)
指数法則:
①\(a^m \times a^n = a^{m+n}\)
②\((a^m)^n = a^mn\)
③\((ab)^n = a^{n}b^n\)
指数の拡張:
\(a^0 = 1\)
\(a^{-1} = \frac{1}{a^n}\)
指数関数:
\(f(x)=2^x\)のような形で関数の入力が別の数字の肩に乗る関数のこと
この関数の2は底と呼ぶ
※\(f(x)=0\) ⇒ 関数の値は1になる
指数関数の値は急激に増加する特徴がある。例:感染者の増加、紙を42回折ると月に到達する、など
指数関数 \(f(x)=e^x\)
底が1より大きな数であればグラフの形はほとんど同じ、特に\(x=0\)の時は、底の値にかかわらず、関数の値は1になります。xが大きくなると、関数の値は急激に増大し、小さくなると限りなく0に近づきます。
シグモイド関数 \(f(x)=\frac{1}{1+e^{-x}}\)
深層学習の基本的な技術であるニューラルネットワークでよく使われる関数
ネイピア数(自然対数の底)
e = 2.71828182845904523536……
だいたい2.718くらい 無理数、超越数。
最も基本的な微分方程式\(\frac{dy}{dx} = y\)の解である\(e^x\)を微分しても積分しても\(e^x\)のまま変わらない
$$
微分 (e^x)^{'} = e^x 積分 \int e^{x}dx = e^x + C ※Cは積分定数
$$
ネイピア数の定義
$$
e = \sum_{n=0}^{\infty} \frac{1}{n!}
e = \lim_{n\to \infty} \bigg(1 + \frac{1}{n} \bigg) ^n
$$
\(n!\) はnの階乗(1からnまでの整数をすべて掛け算した数
例:\(3!=3\times2\times1=6\) )
\(0!=1\) は決められている。
ほぼ1である数を∞乗した数
- 対数関数
対数:
人間の間隔は対数的、とても幅が広い範囲を人間の感覚的に表すときに使う。
例:地震の大きさ M(マグニチュード) \(log_{10}E=4.8+1.5M\)マグニチュードが1違うと32倍違う。
\(log_{2}8 = 3\) 2を底、8を真数という
2を3乗すると真数の8になるか、答えは3となる。
対数法則:
①\(log_{a}MN = log_{a}M + log_{a}N\)
②\(log \frac{M}{N} = log_a{M} - log_a{N}\)
③\(log_{a}{M}^p = {p}log_{a}{M}\)
自然対数:底がネイピア数の対数関数 \(f(x)=log_ex=lnx\)
常用対数:底が10の対数関数 \(f(x)=log_{10}x\)
- 三角関数
ベクトルの内積の定義 $$ \overrightarrow{a}・\overrightarrow{b}=|\overrightarrow{a}||\overrightarrow{b}|cos\theta $$ 正弦波(Sin波)基本的な波形の一つ
\(f(x)=sin(x)\) \(f(x)=cos(x)\)
三角比
\(\sin\) サイン 正弦
\(\cos\) コサイン 余弦
\(\tan\) タンジェント 正接
傾きを表現する関数がtan、sinとcosを使って次のように定義する。
\(tan\theta=\frac{sin\theta}{cos\theta}\)
三平方の定理 直角三角形の3辺の長さ(ピタゴラスの定理) \(a^2+b^2=c^2\)
-
積の微分
(前の微分)×(後ろそのまま)+(前そのまま)×(後ろ微分)
公式\((f(x)g(x))'=f'(x)g(x)+f(x)g'(x)\)
\(y=(2x+1)^2\)の微分は\(y'=2 \times (2x+1)+(2x+1)\times 2\)となる -
合成関数の微分
合成関数:関数\(f\)が\(x\)を\(y\)に対応させて、関数\(g\)が\(y\)を\(z\)に対応されるとき、\(x\)を\(z\)に対応させる関数を\(f\)と\(g\)の合成関数と呼び、\(g(f(x))\)と書く。
例\(f(x)=x^2+1,g(x)=x^2\)であるとき、\(g(f(x))=g(x^2+1)=(x^2+1)^2\)
合成関数の微分:箱の微分に中身を代入したものX中身の微分
公式\((g(f(x)))'=f'(x)g'(f(x))\)
例:\(f(x)=x^2+1,g(x)=x^2\)のときに\(g(f(x))=(x^2+1)^2\)の微分
箱の微分に中身を代入したもの\(g'(x)=2x\)に\(f'(x)=x^2+1\)を代入したもの→\(2(x^2+1)\) 中身の微分は\(f'(x)=2x\)のことを指し、 \(2(x^2+1) \times 2x=4x(x^2+1)\)が答えとなる。 - 関数の最大最小
関数の接戦の傾きを微分で求め、傾きが0であることで関数の最小値(もしくは最大値)となる点を求めることができる。機械学習で損失関数がもっとも小さくなるパラメータを求めるときに微分により傾き0を利用する。
$$ 傾き:a= \lim_{h\to 0} \frac{f(x+h)-f(x)}{h} $$ - 線形近似
一般の関数を数学的に扱いやすい一次関数に置き換えて近似すること - 原始関数
微分するとf(x) になるような関数 F(x) をf(x) の原始関数と言う。(つまり微分する前の関数のこと、微分したあとの関数は導関数という)
例:\(x^3\)を微分すると\(3x^2\)なので\(F(x)=x^3\)は\(f(x)=3x^2\)の原始関数の一つ。 - 積分と微分の関係
積分と微分は逆演算の関係
積分:瞬間の小さな変化を積み上げて全体量を求める計算
微分:全体量を極限まで細かく分割して「値の変化量(傾き)」を求める計算。
x^3を微分。 \((x^3)'=3x^2\)
3x^2を積分 \(\int3x^2dx=3 \times \frac {1}{2+1}x^3+C=x^3+C\) - 偏微分
複数の変数がある関数(多変数変数)を微分するときに、1つの変数にだけ注目し、それいがは定数として扱うこと
例 \(f(x)=x^2+xy\)を
\(x\)に関する偏微分 \(fx=2x+y\)
\(y\)に関する偏微分 \(fy=x\) - 接平面 局面上の一点、この局面に引いた接線をすべて含む平面のこと。 偏微分を用いて法線ベクトルを求めることによって計算する
-
重積分
多変数の関数の多変数の範囲にわたる積分のこと
そもそも積分とは 微分で求めた予測値がどのくらいの確率で当たるのかを求めるのが微分。Xの値を定数でやるのが定積分、xの値を変数でやるのが不定積分。積分を使うと、aの値が決まったときにbの値が定まる範囲=面積が求められる。 -
累次積分
繰り返し積分を行うこと、逐次積分ともいう。
数列
- 数列の基本的な事項を理解する。
- 数列の和
- Σ記号
足し算の繰り返し $$ \sum_{k=1}^n k $$ k=1からnまでの整数をすべて足すという意味 k=10の場合
= 55- 極限
デジタル情報とコンピュータの仕組み
デジタル情報
- デジタル情報の表し方を理解する。
- 数と表現(2進数の表現、論理値)
- 情報量の単位(ビット、バイト、接頭語(k,M,G,T,m,μ,n,p など)を使った表現)
- 文字の表現(ASCIIコード、シングルバイト文字、ダブルバイト文字)
- デジタル化(連続値、離散値)、画像・動画(ラスタデータ、ベクタデータ、コーデック)
コンピュータの仕組み
- 論理演算や計算の上の誤差について理解する。
- 集合、命題、真/偽、否定、論理和、論理積
- 有効数字、浮動小数点、仮数部、指数部、丸め誤差
アルゴリズム基礎
アルゴリズムの表現
- アルゴリズムの表現方法を理解する。
- フローチャート、アクティビティ図、端子、処理、判断、矢印
アルゴリズムの構造
- 分岐、繰り返しなどのアルゴリズムの構造の基礎を理解する。
- 代入、順次構造、選択構造、繰り返し構造
基本的なアルゴリズムの例
- いくつかの基本的なアルゴリズムを理解する。
- 並べ替え(ソート)、探索(サーチ)、合計、併合
データ構造とプログラミング基礎(主にPython)
データ構造
- 配列などのデータ構造について理解する。
- 配列とリスト(メモリ、ベクトル、行列、アドレス)
- 連想配列(キー、バリュー、連想、辞書、ハッシュ)
プログラミング基礎
- インタープリタ言語を用いて簡単なプログラミングができる。
- インタープリタ言語(ソースコード、機械語、実行)
- 文(変数、代入、計算、分岐、繰り返し)、演算(オブジェクト、四則演算)
- 関数(引数、返り値)、制御文(for, while, if文)、入出力(print文)
データハンドリング
代表的なデータ形式
- 代表的なデータ形式を理解する。
- csv、XML、JSON
その他のデータ形式
- その他のデータ形式を理解する。
- 離散グラフ、キー・バリュー形式である隣接リスト、NoSQL
データベース
- データベースの基礎概念を理解する。
- データベース管理システム(DBMS)、リレーショナルデータベース、正規化、選択、射影、結合、SQL
データクレンジング
- データクレンジング作業を理解する。
- 表記の揺れの吸収(文字列、数字、日付、時刻)、名寄せ
データ加工
- データの加工法を理解する。
- 部分集合の抽出、行の並べ替え、新しい列の追加、プログラミング(Python、R)
データ取得とオープンデータ
日本や世界のオープンデータ
- オープンデータの普及に向けた国内及び国際的な動きを理解する。
- 二次利用可能なルール、機械判読への適性、オープンデータ憲章
オープンデータの取得
- オープンデータの取得法について理解する。
- e-Stat、DATA.GO.JP、データカタログサイト、Open Knowledge International、Web API
統計法
- 統計法の意義について理解する。
- 基幹統計調査、調査票情報の二次的利用
確立と確率分布
順列と組み合わせ
- 場合の数の考え方を理解する。
- 階乗(n!)、順列(mPn)、組合せ(mCn)
確率分布の概念
- 確率変数の分布の基本を理解する。
- 確率変数、確率関数、確率密度関数、母平均、母分散、同時分布、周辺分布、共分散と相関、独立
主要な確率分布
- 主な確率分布と確率計算を理解する。
- ポアソン分布、指数分布、一様分布、正規分布、2変量正規分布
統計的推測
統計的モデル
- 統計的モデルの考え方を理解する。
- 統計的モデル、母数、パラメータ
標本分布
- 標本分布の基本を理解する。
- 独立同一分布、標本平均、標本分散
点推定
- 点推定について理解する。
- モーメント法、最尤法、バイアス、不偏推定量、平均二乗誤差、バイアス分散分解
仮説検定の考え方
- 仮説検定の考え方を理解する。
- 帰無仮説、対立仮説、2種の誤り、有意水準、検出力、p値、検定統計量
種々のデータ解析
時系列データ解析
- 時系列データの扱いを理解する。
- 時系列データ(トレンド、周期、ノイズ)、季節調整、移動平均
テキスト解析
- テキスト処理の基礎を理解する。
- 形態素解析、単語分割、ユーザ定義辞書、n-gram、文章間類似度、かな漢字変換の概要
画像解析
- 画像解析の基礎を理解する。
- 画像データの処理、画像認識、画像分類、物体検出
データ活用実践
教師あり学習
- 教師あり学習の実践例を理解する。
- 教師あり学習による予測 (例: 売上予測、罹患予測、成約予測、離反予測)
- データの収集、加工、分析
- データ分析結果の共有、課題解決に向けた提案
教師なし学習
- 教師なし学習の実践例を理解する。
- 教師なし学習によるグルーピング (例:顧客セグメンテーション、店舗クラスタリング)
- データの収集、加工、分析
-
データ分析結果の共有、課題解決に向けた提案
-
予備