Concept

ベルーフのデータサイエンス事業が目指しているのは「街のデータサイエンス屋さん」です。

日曜日にビールを購入する男性はおむつも購入する可能性が高い、というのはデータサイエンスによるニーズの発見です。
情報の活用の仕方が分からないというのが多くの中小企業の悩みです。
街のデータサイエンンス屋さんはこの悩みをニーズの発見でお役に立ちます。

About us

私たちの考えるデータサイエンスとは

データサイエンスは、企業が保有する情報をデータ化して分析し、業務上のイノベーション課題を発見し課題実行によって経営成果を高めるものです。

データ分析は統計学を基とする理論から行われますが、ITの発展と共にプログラミングにより分析技術が超速で進歩しています。処理データ量拡大と処理時間短縮です。統計学とプログラミングの組み合わせで生まれたのがデータサイエンスです。

データサイエンスの構成要素

データサイエンスは統計学とプログラミングが基礎です。統計学は記述統計学と推測統計学の2分野で構成されます。記述統計学は、データの扱い方の基礎となります。推測統計学は、分析対象データをランダムに抽出されたサンプルと比較して変化の動向を推測します。推測の結果は経営やビジネスの判断に役立てます。

統計学は数学よりも後発の学問で、独自の理論構築がされています。初学者の多くは、統計学の発想に慣れるところから出発です。使用するプログラミング言語は、Python(パイソン)が主流と成りつつあります。データ分析のためのツールが豊富なためです。Pythonは既存のプログラミング言語と基本文法はほぼ同じで、簡潔さが特徴です。

データサイエンスの仕事のコンセプトは、日本ではまだ発展途上です。基礎技術は統計とプログラミングですが、それによって何をするかは多くの企業が模索し開発しているのが現況です。この技術を基にして経営上のイノベーション課題を発見するのがデータサイエンティストの役割です。課題はマネジメント、マーケティング、現場課題など多様です。

Social firm とは?

私たちの運営元は、就労移行支援事業所ベルーフという障害者の職業教育と就労支援を行う公的事業所で、sehrschoenは、SF(ソーシャルファーム)という位置づけです。

SFはsocial firm ソーシャルファームの略です。SFは精神病院の廃止と入院ベッド廃絶をルーツとして1980年代にヨーロッパで生み出され、2020年代の現在に至る40年間で生成発展を続けている企業形態です。CEFEC*¹がソーシャルファームヨーロッパ(SFE)として精神障害者の就労の場を創造してきたのです。CEFECによるソーシャルファームの定義の要件は次の4項目です。一項目一項目に障害者就労への戦いの歴史が刻まれています。

  1. 働く社員の25%から50%を障害者で構成する事
  2. 雇用契約を結んでいる事
  3. 給与を普通賃金レベルとする事
  4. 売上収入の90%以上を一般市場から産出する事

*¹CEFEC (Confederation of European Firm, Employment initiatives and Co-operatives for people with mental health problem)は1987年にドイツ・イタリア・イギリスの精神障害者支援組織によって作られたNGOで、現在19か国が参加しています。毎年事業戦略をメインにした会議の主催でSFを推進し、EUによる支援で世界的活動を展開しています。ベルーフはアジアでのサポート会員として認定されています。2020年度からはオンラインで開催しています。

サービス・事業内容

分析例・実績

実績1

★Jリーグの観客動員数予測

Jリーグ公式戦2014年シーズン後半戦全試合の観客動員数

分析の流れ

①データインポート,内容確認

②データ前処理(EDA,データフレーム整形,欠損確認,重複確認,ダミー変数化)

③学習アルゴリズムの決定&学習

④ Jリーグ公式戦2014年シーズン後半戦全試合の観客動員数の予測人数を出力

⑤予測観客者数と実際の観客者数で評価関数(RMSE)の値を確認&評価

拘ったポイント

特徴量が多かったが、次元削減は行わなかった。その代わり特徴量はすべて使用し(質的データはすべてダミー変数化した)過学習を避けるためリッジ回帰モデルを選択し学習させた。またJ1とJ2で観客動員数が異なることがEDAより明らかになったため分けて分析した。結果的にRMSEは3423となり、どうしても対象が観客という大きい規模なため大きくなったが、今回の分析では許容範囲と言える。

総評

今回観客動員数の予測を行ったが、この分析はとても応用が効くものだと私は思う。たとえば飲食店で仕入れを行う場合、明日の来店客数を今回のように検証していたとしたら、多く仕入れすぎた少なすぎたという事がなくなりコストが抑えられ機会損失を防ぐという利点がある。このようにデータから評価できることは多々あるため興味がある方は是非ベルーフにお問い合わせください。

分析者 ベルーフ研修生 北條

Source ここをクリック

実績2

★衛星画像分析コンテスト

衛星画像データを使用し、各画像に対してゴルフ場が含まれているか否かを判別

分析の流れ

①データインポート,内容確認

②学習前のデータ前処理(画像加工,データ正規化,etc),

③機械学習モデル,データ検証法,最適化手法,損失関数の選定

④学習アルゴリズム作成と学習の実行

⑤テストデータでアルゴリズムの精度評価,改善作業

悩んだ点

多数ある画像処理用の機械学習モデルでどれが一番データに合っているか探し出す点。公開されている機械学習モデルもGitHub上にあり、英語で書かれているため、辞書を片手に実装方法を確認しなければならなかった。また高精度の予測ができず、データ加工方法に問題があるのか、選択したモデルがデータに合っていないのか、答えが見つけられず悩みに悩んだ。

総評

まず第一に実力不足。アルゴリズム実装力もそうであるが、GitHubに公開されている内容を詳細に理解できる英語力、論文内容を読み解く数学力、どれをとっても中途半端である。悔しさだけが込み上げてくる。ただこの悔しさがモチベーションになるので、次につなげられると思う。少なくとも現時点での自分の実力と目標地点までのギャップが理解できたので、良いコンペであったと思う。

分析者 ベルーフ研修生 佐藤

Source ここをクリック

実績3

★絵巻物・絵本の顔画像分類コンペ

日本絵画に描かれた人物の顔分類に機械学習で挑戦!

分析の流れ

①データインポート,内容確認

②前処理(画像リサイズ,部分消し,左右反転)

③転移学習モデル,データ検証法,最適化手法,損失関数を選ぶ

④学習アルゴリズムのパラメータ作成

⑤テストデータによるアルゴリズムの精度評価

学んだこと

初めての機械学習だったため、参考書などを読みディープラーニングの仕組みやアルゴリズムから学んだ。時間はかかったが、内容を理解できたため基礎の基礎は学べた。その一方、最適化手法は種類も多く、ネットでわかりやすい記事を読んでもあまり理解は進まなかった。力不足のため転移学習を採用した。その際、モデルの変更も大事だが、データ前処理の重要さを終えてから痛感した。

総評

新しいことを学ぶのは楽しかった。絵の場合、どのようなデータ前処理を施せばよいのかわからなかった。Google Colabを使用して機械学習に取り組んだが、その関係で動かせないモデルも多くあった。画像を解析する機械学習は高性能PCや課金が必要なためハードルが高いと感じた。絵巻物の顔画像分類は応用が効きそうになく、実在の人物ではプライバシーの問題もあるため中々難しい。

分析者 ベルーフ研修生 田畑

Source ここをクリック

お問い合わせフォーム

■企業名(団体名)
■お名前(必須)

 ■連絡先

メールアドレス(必須)
電話番号(必須)
■お問い合わせ内容(複数回答可)

備考

運営元

就労移行支援事業所ベルーフ

[住所] 文京区小石川5-4-1瑞穂第一ビル9F
[電話] 03-5803-2424
[HP] http://beruf.xyz/