研究用データの解説

研究用データの解説

ベンチマークデータとマルウェア情報の2種類を用意しております。



ベンチマークデータ

NII-SOCS参加機関のトラフィックデータの一部を抽出してランダム化したベンチマークと、NII-SOCS攻撃検知システムの警報データのセット。

トラフィックデータは、通信の内容であるペイロードを含まないKyotoData2016フォーマット[1][2]に準拠した形に整形されております。

 

  ベンチマークデータは、以下のファイルで構成されます

ファイル名

説明

更新

ファイル名

説明

更新

KYOTODATA-X_yyyyMMdd.txt

ベンチマークデータ本体。通信の内容であるペイロードを含まないKyotoData2016フォーマット[1][2]に準拠した形に整形し、元データに関連した参加機関側の機器が特定され難いよう、ランダム化したファイル。

翌日1回のみ

DETECTION-SUMMARY-X_yyyyMMdd.txt

検出サマリファイル。

NII-SOCSの検知システムで検知した警報(PaloaltoのThreat ID/Cisco FirepowerのGID_SID_REV)と括弧書きでセッションごとの検知回数を表記。

 

AUDITDATA-SNORT-X_yyyyMMdd.txt

Snort事後検証ファイル。

SnortのGID-SID-REV、および、1セッションで2回以上の検知があった場合はその回数を括弧書きで表記。

翌日~50日後まで1週間おき

ZERODAY-SNORT-X_yyyyMMdd.txt

Snortゼロデイファイル。

ベンチマーク全体で初めて検知した検知ルール:GID-SID-REV 0

翌日の検査では未検知かつ2または5週目に検知した検知ルール:GID-SID-REV 1

5週目の検査までは未検知かつ6週目以降の検査で検知ルール:GID-SID-REV 2

と表記。(無償版snortでは検知ルールの提供が30日程度遅れることがあるため。)

該当レコードがあれば更新

ZERODAY_COUNT-SNORT-X_yyyyMMdd.txt

Snort件数ファイル。

ベンチマーク全体で初めて検知した件数(snort_new)、翌日の検査では未検知かつ2または5週目の検査で検知した件数(snort_2_5)、5週目の検査までは未検知かつ6週目以降の検査で検知した件数(snort_6_8)を表記。

該当レコードがあれば更新

AUDITDATA-CLAMAV-X_yyyyMMdd.txt

ClamAVの事後検証ファイル。

ClamAVで検知したマルウェアの名称、および、1セッションで2回以上の検知があった場合はその回数を括弧書きで表記。

翌日~50日後まで1週間おき

ZERODAY-CLAMAV-X_yyyyMMdd.txt

ClamAVゼロデイファイル。

ベンチマーク全体で初めて検知したマルウェア:マルウェア名称 0

翌日の検査では未検知かつ2週目以降に検知したマルウェア:マルウェア名称 1

該当レコードがあれば更新

ZERODAY_COUNT-CLAMAV-X_yyyyMMdd.txt

ClamAV件数ファイル。

ベンチマーク全体で初めて検知した件数(ClamAV_new)、翌日の検査では未検知かつ2週目以降の検査で検知した件数(ClamAV_2_8)を表記。

該当レコードがあれば更新

AUDITDATA-SHELLCODE-X_yyyyMMdd.txt

Shellcode事後検証ファイル。ShellocdeのID、および、1セッションで2回以上の検知があった場合はその回数を括弧書きで表記。

翌日1回のみ

※ X:元データを取得した拠点のコード yyyyMMdd:元データの通信日

ランダム化処理方法

  1. 毎日、以下の条件でトラフィックデータを抽出(pcapファイルの生成)

    1. 参加機関のIPアドレス領域から/24(IPv4)または/64(IPv6)のブロックをランダムに複数選択。(IPv4、IPv6ともに10ブロック程度、このセットを7日間使用する。)

    2. 00時00分00秒から23時00分00秒の間からランダムに30分間の枠を二つ選択。

  2. 観測対象時刻のトラフィックデータのタイムスタンプを当該日の0時0分0秒から0時29分59秒と12時0分0秒から12時29分59秒に振り直す。

  3. 送信元IPアドレス/受信先IPアドレスをIPv6形式のランダムなIPアドレス領域に振り直す。

    1. IPv4は第3オクテット、IPv6は第4フィールドの同一性を維持する。

    2. ランダム化処理に使用するseedは定期的に変更する。

  4. ポート番号についてはwell-known port(1024未満)はそのままとし、それ以外をランダムな値に振り直す。

    1. ランダム化処理に使用するseedは7日おきに変更する。

  5. 他はKyotoData2016[1][2]に準拠した統計データとし、ペイロードやDNS名は含まない。

更新時系列について

通信データ(KYOTODATA-X_yyyyMMdd.txt)と、その通信を各種検知システムで検証した結果ファイルを1セットとして提供します。

Shellcodeは検知後1回のみ、ClamAVとSnortは、通信日から50日後まで1週間おきに繰り返し検証を行い、検知結果を経過も含めて提供します。


kyoto_data

KYOTODATA-X_yyyyMMdd.txt

項目の説明

Session ID

セッションID

Duration

セッションの継続時間

Service

サービスの種類

Source_Bytes

送信バイト数

Destionation_Bytes

受信バイト数

Count

過去2 秒間のセッションのうち現在のセッションと宛先IPアドレスが同じ数

Same_srv_rate

Count特徴で該当したセッションのうち現在のセッションとサービスの種類が同じ割合

Serror_rate

Count特徴で該当したセッションのうちSYNエラーが起こった割合

Srv_serror_rate

過去2 秒間のセッションで現在のセッションとサービス種類が同じセッションのうち,”SYN"エラーが起こった割合

Dst_host_count

宛先ポートが同じ過去の100 セッションのうち,現在のセッションと送信元IP アドレスと宛先IP アドレスが同じ数 

Dst_host_srv_count

宛先ポートが同じ過去の100 セッションのうち,現在のセッションと宛先IP アドレスとサービス種類が同じ数

Dst_host_same_src_port_rate

Dst_host_count特徴で該当したセッションのうち現在のセッションと送信元ポートが同じ割合:

Dst_host_serror_rate

Dst_host_count特徴で該当したセッションのうち”SYN"エラーが起こった割合

Dst_host_srv_serror_rate

Dst_host_srv_count特徴で該当したセッションのうち”SYN"エラーが起こった割合

Flag

セッション終了時の接続の状態

Source_IP_Address

送信元IPアドレス※ランダム化処理済

Source_Port_Number

送信元ポート番号 ※well-known port(1024未満)はそのままとし、それ以外はランダム化処理済

Destination_IP_Address

宛先IPアドレス ※ランダム化処理済

Destination_Port_Number

宛先ポート番号 ※well-known port(1024未満)はそのままとし、それ以外はランダム化処理済

Start_Time

セッション開始時刻 ※開始時間変更済

Protocol

プロトコル種別

 

データ例

Session ID

 

Duration

Service

Source_Bytes

Destionation_Bytes

Count

Same_srv_rate

Serror_rate

Srv_serror_rate

Dst_host_count

Dst_host_srv_count

Dst_host_same_src_port_rate

Dst_host_serror_rate

Dst_host_srv_serror_rate

Flag

Source_IP_Address
(ランダム化済)

Source_Port_Number
(1024以上のポートをランダム化済)

Destination_IP_Address
(ランダム化済)

Destination_Port_Number
(1024以上のポートをランダム化済)

Start_Time
(開始時刻変更済)

Protocol

Session ID

 

Duration

Service

Source_Bytes

Destionation_Bytes

Count

Same_srv_rate

Serror_rate

Srv_serror_rate

Dst_host_count

Dst_host_srv_count

Dst_host_same_src_port_rate

Dst_host_serror_rate

Dst_host_srv_serror_rate

Flag

Source_IP_Address
(ランダム化済)

Source_Port_Number
(1024以上のポートをランダム化済)

Destination_IP_Address
(ランダム化済)

Destination_Port_Number
(1024以上のポートをランダム化済)

Start_Time
(開始時刻変更済)

Protocol

18922621717

0

-

0

0

0

0

0

0.980403

0

0

0

0

0

S0

0:0:0:7efe:23d9:fefe:a00:e2d4

36807

0:0:0:cf00:23e8:7171:1008:e1e8

62761

2020/3/1  12:00:00.00246

udp

18922621718

0

-

0

0

0

0

0

0.980403

0

0

0

0

0

S0

0:0:0:80:2de7:fe88:9d88:fe32

62633

0:0:0:f01:e3e7:b6f1:86ff:15c

23

2020/3/1  12:00:00.00251

tcp

18922621719

0

-

0

0

0

0

0

0.980403

0

0

0

0

0

S0

0:0:0:4100:1226:3902:93cf:fdbd

15394

0:0:0:f082:33d9:c900:e687:fdd3

13623

2020/3/1  12:00:00.00314

tcp

18922621720

0

-

0

0

0

0

0

0.980402

0

0

0

0

0

S0

0:0:0:e83:ece7:8605:1c30:e134

6393

0:0:0:ff7e:3329:c68f:9b0:e1b7

2323

2020/3/1  12:00:00.00342

tcp

18922621721

0

-

0

0

1

1

1

0.980402

0

0

0

0

0

S0

0:0:0:cf7f:ec27:c1fd:91b0:fdd8

22938

0:0:0:bf7c:23d8:179:e9b7:e15b

25

2020/3/1  12:00:00.00380

tcp

18922621722

0

-

0

0

0

0

0

0.980402

0

0

0

0

0

S0

0:0:0:cf03:dd27:be8b:8f77:106

58854

0:0:0:3f02:2d6:3e03:e400:1e27

7750

2020/3/1  12:00:00.00434

tcp

18922621723

0

-

0

0

0

0

0

0.980419

0

0

0

0

0

S0

0:0:0:f080:319:89f9:b87:fe3f

31794

0:0:0:30fd:c3e6:3e09:13f7:1dd

5696

2020/3/1  12:00:00.00380

tcp

18922621724

0

-

0

0

0

0

0

0.980436

0

0

0

0

0

S0

0:0:0:cf7f:ec27:c1fd:91b0:fdd8

22938

0:0:0:8e81:e217:f68a:68c7:e1e2

55993

2020/3/1  12:00:00.00434

tcp

18922621725

0

-

0

0

0

0

0

0.980436

0

0

0

0