研究用データの解説
ベンチマークデータとマルウェア情報の2種類を用意しております。
- 1 ベンチマークデータ
- 1.1 ランダム化処理方法
- 1.2 更新時系列について
- 1.3 kyoto_data
- 1.3.1 KYOTODATA-X_yyyyMMdd.txt
- 1.4 検出サマリ
- 1.5 Snort
- 1.6 ClamAV
- 1.6.1 AUDITDATA-CLAMAV-X_yyyyMMdd.txt
- 1.6.2 ZERODAY-CLAMAV-X_yyyyMMdd.txt
- 1.6.3
- 1.6.4 ZERODAY_COUNT-CLAMAV-X_yyyyMMdd.txt
- 1.7 Shellcode
- 2 マルウェア情報
ベンチマークデータ
NII-SOCS参加機関のトラフィックデータの一部を抽出してランダム化したベンチマークと、NII-SOCS攻撃検知システムの警報データのセット。
ベンチマークデータは、以下のファイルで構成されます
ファイル名 | 説明 | 更新 |
|---|---|---|
ベンチマークデータ本体。通信の内容であるペイロードを含まないKyotoData2016フォーマット[1][2]に準拠した形に整形し、元データに関連した参加機関側の機器が特定され難いよう、ランダム化したファイル。 | 翌日1回のみ | |
検出サマリファイル。 NII-SOCSの検知システムで検知した警報(PaloaltoのThreat ID/Cisco FirepowerのGID_SID_REV)と括弧書きでセッションごとの検知回数を表記。 |
| |
Snort事後検証ファイル。 SnortのGID-SID-REV、および、1セッションで2回以上の検知があった場合はその回数を括弧書きで表記。 | 翌日~50日後まで1週間おき | |
Snortゼロデイファイル。 ベンチマーク全体で初めて検知した検知ルール:GID-SID-REV 0 翌日の検査では未検知かつ2または5週目に検知した検知ルール:GID-SID-REV 1 5週目の検査までは未検知かつ6週目以降の検査で検知ルール:GID-SID-REV 2 と表記。(無償版snortでは検知ルールの提供が30日程度遅れることがあるため。) | 該当レコードがあれば更新 | |
Snort件数ファイル。 ベンチマーク全体で初めて検知した件数(snort_new)、翌日の検査では未検知かつ2または5週目の検査で検知した件数(snort_2_5)、5週目の検査までは未検知かつ6週目以降の検査で検知した件数(snort_6_8)を表記。 | 該当レコードがあれば更新 | |
ClamAVの事後検証ファイル。 ClamAVで検知したマルウェアの名称、および、1セッションで2回以上の検知があった場合はその回数を括弧書きで表記。 | 翌日~50日後まで1週間おき | |
ClamAVゼロデイファイル。 ベンチマーク全体で初めて検知したマルウェア:マルウェア名称 0 翌日の検査では未検知かつ2週目以降に検知したマルウェア:マルウェア名称 1 | 該当レコードがあれば更新 | |
ClamAV件数ファイル。 ベンチマーク全体で初めて検知した件数(ClamAV_new)、翌日の検査では未検知かつ2週目以降の検査で検知した件数(ClamAV_2_8)を表記。 | 該当レコードがあれば更新 | |
Shellcode事後検証ファイル。ShellocdeのID、および、1セッションで2回以上の検知があった場合はその回数を括弧書きで表記。 | 翌日1回のみ |
※ X:元データを取得した拠点のコード yyyyMMdd:元データの通信日
ランダム化処理方法
毎日、以下の条件でトラフィックデータを抽出(pcapファイルの生成)
参加機関のIPアドレス領域から/24(IPv4)または/64(IPv6)のブロックをランダムに複数選択。(IPv4、IPv6ともに10ブロック程度、このセットを7日間使用する。)
00時00分00秒から23時00分00秒の間からランダムに30分間の枠を二つ選択。
観測対象時刻のトラフィックデータのタイムスタンプを当該日の0時0分0秒から0時29分59秒と12時0分0秒から12時29分59秒に振り直す。
送信元IPアドレス/受信先IPアドレスをIPv6形式のランダムなIPアドレス領域に振り直す。
IPv4は第3オクテット、IPv6は第4フィールドの同一性を維持する。
ランダム化処理に使用するseedは定期的に変更する。
ポート番号についてはwell-known port(1024未満)はそのままとし、それ以外をランダムな値に振り直す。
ランダム化処理に使用するseedは7日おきに変更する。
更新時系列について
通信データ(KYOTODATA-X_yyyyMMdd.txt)と、その通信を各種検知システムで検証した結果ファイルを1セットとして提供します。
Shellcodeは検知後1回のみ、ClamAVとSnortは、通信日から50日後まで1週間おきに繰り返し検証を行い、検知結果を経過も含めて提供します。
kyoto_data
KYOTODATA-X_yyyyMMdd.txt
項目の説明
Session ID | セッションID |
|---|---|
Duration | セッションの継続時間 |
Service | サービスの種類 |
Source_Bytes | 送信バイト数 |
Destionation_Bytes | 受信バイト数 |
Count | 過去2 秒間のセッションのうち現在のセッションと宛先IPアドレスが同じ数 |
Same_srv_rate | Count特徴で該当したセッションのうち現在のセッションとサービスの種類が同じ割合 |
Serror_rate | Count特徴で該当したセッションのうちSYNエラーが起こった割合 |
Srv_serror_rate | 過去2 秒間のセッションで現在のセッションとサービス種類が同じセッションのうち,”SYN"エラーが起こった割合 |
Dst_host_count | 宛先ポートが同じ過去の100 セッションのうち,現在のセッションと送信元IP アドレスと宛先IP アドレスが同じ数 |
Dst_host_srv_count | 宛先ポートが同じ過去の100 セッションのうち,現在のセッションと宛先IP アドレスとサービス種類が同じ数 |
Dst_host_same_src_port_rate | Dst_host_count特徴で該当したセッションのうち現在のセッションと送信元ポートが同じ割合: |
Dst_host_serror_rate | Dst_host_count特徴で該当したセッションのうち”SYN"エラーが起こった割合 |
Dst_host_srv_serror_rate | Dst_host_srv_count特徴で該当したセッションのうち”SYN"エラーが起こった割合 |
Flag | セッション終了時の接続の状態 |
Source_IP_Address | 送信元IPアドレス※ランダム化処理済 |
Source_Port_Number | 送信元ポート番号 ※well-known port(1024未満)はそのままとし、それ以外はランダム化処理済 |
Destination_IP_Address | 宛先IPアドレス ※ランダム化処理済 |
Destination_Port_Number | 宛先ポート番号 ※well-known port(1024未満)はそのままとし、それ以外はランダム化処理済 |
Start_Time | セッション開始時刻 ※開始時間変更済 |
Protocol | プロトコル種別 |
データ例
Session ID
| Duration | Service | Source_Bytes | Destionation_Bytes | Count | Same_srv_rate | Serror_rate | Srv_serror_rate | Dst_host_count | Dst_host_srv_count | Dst_host_same_src_port_rate | Dst_host_serror_rate | Dst_host_srv_serror_rate | Flag | Source_IP_Address | Source_Port_Number | Destination_IP_Address | Destination_Port_Number | Start_Time | Protocol |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
18922621717 | 0 | - | 0 | 0 | 0 | 0 | 0 | 0.980403 | 0 | 0 | 0 | 0 | 0 | S0 | 0:0:0:7efe:23d9:fefe:a00:e2d4 | 36807 | 0:0:0:cf00:23e8:7171:1008:e1e8 | 62761 | 2020/3/1 12:00:00.00246 | udp |
18922621718 | 0 | - | 0 | 0 | 0 | 0 | 0 | 0.980403 | 0 | 0 | 0 | 0 | 0 | S0 | 0:0:0:80:2de7:fe88:9d88:fe32 | 62633 | 0:0:0:f01:e3e7:b6f1:86ff:15c | 23 | 2020/3/1 12:00:00.00251 | tcp |
18922621719 | 0 | - | 0 | 0 | 0 | 0 | 0 | 0.980403 | 0 | 0 | 0 | 0 | 0 | S0 | 0:0:0:4100:1226:3902:93cf:fdbd | 15394 | 0:0:0:f082:33d9:c900:e687:fdd3 | 13623 | 2020/3/1 12:00:00.00314 | tcp |
18922621720 | 0 | - | 0 | 0 | 0 | 0 | 0 | 0.980402 | 0 | 0 | 0 | 0 | 0 | S0 | 0:0:0:e83:ece7:8605:1c30:e134 | 6393 | 0:0:0:ff7e:3329:c68f:9b0:e1b7 | 2323 | 2020/3/1 12:00:00.00342 | tcp |
18922621721 | 0 | - | 0 | 0 | 1 | 1 | 1 | 0.980402 | 0 | 0 | 0 | 0 | 0 | S0 | 0:0:0:cf7f:ec27:c1fd:91b0:fdd8 | 22938 | 0:0:0:bf7c:23d8:179:e9b7:e15b | 25 | 2020/3/1 12:00:00.00380 | tcp |
18922621722 | 0 | - | 0 | 0 | 0 | 0 | 0 | 0.980402 | 0 | 0 | 0 | 0 | 0 | S0 | 0:0:0:cf03:dd27:be8b:8f77:106 | 58854 | 0:0:0:3f02:2d6:3e03:e400:1e27 | 7750 | 2020/3/1 12:00:00.00434 | tcp |
18922621723 | 0 | - | 0 | 0 | 0 | 0 | 0 | 0.980419 | 0 | 0 | 0 | 0 | 0 | S0 | 0:0:0:f080:319:89f9:b87:fe3f | 31794 | 0:0:0:30fd:c3e6:3e09:13f7:1dd | 5696 | 2020/3/1 12:00:00.00380 | tcp |
18922621724 | 0 | - | 0 | 0 | 0 | 0 | 0 | 0.980436 | 0 | 0 | 0 | 0 | 0 | S0 | 0:0:0:cf7f:ec27:c1fd:91b0:fdd8 | 22938 | 0:0:0:8e81:e217:f68a:68c7:e1e2 | 55993 | 2020/3/1 12:00:00.00434 | tcp |
18922621725 | 0 | - | 0 | 0 | 0 | 0 | 0 | 0.980436 | 0 | 0 | 0 | 0 |