مجموعه داده
مجموعه داده (انگلیسی: Data set) یا مجموعه دادهها، به مجموعهای از دادههای آماری یا دیتاهای رایانهای مربوط به یک پایگاه داده اطلاق میشود، که با هدف یکپارچه نمودن دادهها، محتویات آن را در قالب یک جدول پایگاه داده یا یک ماتریس دادهای، تنظیم و مرتب مینمایند، که در آن، هر ستون از پایگاه داده، نشان دهنده یک متغیر خاص است و هر ردیف نیز به یکی از اعضای مجموعه دادههای مورد نظر مرتبط میباشد. مجموعه دادهها برای هر یک از اعضا، یک متغیر مانند ارتفاع و وزن تعریف و فهرست میکند، که هر مقدار به عنوان یک پایگاه داده مجزا، شناخته میشود.
دیتاست DataSet
یک مجموعه داده (DataSet) مجموعهای از دادهها است. اغلب مجموعه دادهها مربوط به محتویات یک جدول پایگاه داده تک یا یک ماتریس دادههای یکپارچه است که هر ستون جدول یک متغیر خاص را نشان میدهد و هر ردیف مربوط به یک عضو داده شده از مجموعه دادههای مورد سؤال است. مجموعه دادهها برای هر یک از متغیرها مانند ارتفاع و وزن یک شیء برای هر یک از اعضای مجموعه دادهها فهرست میکند. هر مقدار به عنوان پایه شناخته میشود. مجموعه دادهها ممکن است شامل دادههایی برای یک یا چند عضو باشد که مربوط به تعداد ردیفها باشد.
ویژگی های دیتاست
چندین ویژگی ساختار و خواص مجموعه داده یا دیتاست را تعریف میکند که شامل تعداد و نوع مشخصهها یا متغیرها است. مقادیر ممکن است عددی ( مانند عدد حقیقی یا عدد صحیح ) باشد، مثلا نشان دهنده قد فرد بر اساس سانتی متر باشد، اما ممکن است دادههای اسمی یا سمبلیک باشد، به عنوان مثال مذهب یک شخص را نشان میدهد. بهطور کلی، مقادیر ممکن است از هر نوعی به عنوان سطح اندازهگیری تعریف شود. برای هر متغیر، مقادیر بهطور معمول همه نوع مشابه هستند. با این حال ممکن است ارزشهای گم شده نیز وجود داشته باشد که باید به نحوی نشان داده شود.
در آمار، مجموعه دادهها معمولاً از مشاهدات واقعی حاصل از نمونهگیری جمعیت آماری حاصل میشود و هر ردیف مربوط به مشاهدات بر روی یک عنصر از آن جمعیت است. با استفاده از الگوریتمها میتوان م
نمونه ای از دیتاست
به عنوان یک نمونه دیتاست مورد استفاده مجموعه داده بیماران سرطان سینه موجود در مخزن دادهٔ یادگیری ماشین دانشگاه ارواین، ایالت کالیفرنیا آمریکا (University of California at Irvine) است مثال زده میشود. در این دیتاست ویژگیها شامل ریسک فاکتورهای ضخامت انبوه، یکنواختی اندازه سلول، یکنواختی شکل سلول، چسبندگی لبهها، حجم سلول بافت اپیتلیال، هستههای عریان، کروماتین بلاند، هسته عادی و تقسیم هسته سلول به دو قسمت میباشد که در ایالت ویسکانسین ایالاتمتحده جمعآوریشدهاست. جدول زیر نشاندهنده این مجموعه از داده است. مجموعه دادهها را با هدف آزمایش انواع خاصی از نرم افزار تولید کرد.
Domain | Attribute | # |
id number | code number | 1 |
1 – 10 | Clump Thickness | 2 |
1 – 10 | Uniformity of Cell Size | 3 |
1 – 10 | Uniformity of Cell Shape | 4 |
1 – 10 | Marginal Adhesion | 5 |
1 – 10 | Single Epithelial Cell Size | 6 |
1 – 10 | Bare Nuclei | 7 |
1 – 10 | Bland Chromatin | 8 |
1 – 10 | Normal Nucleoli | 9 |
1 – 10 | Mitoses | 10 |
2 for benign, 4 for malignant | Class | 11 |
معرفی چند پایگاه دیتاست
- UCI
- Amazon
- WorldBankData
- UNData
- DataHub
- GitHub
- DataVancouver
- Medeley
جستارهای وابسته
منابع
- پی استور.[1]
- مشارکتکنندگان ویکیپدیا. «Data set». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۲۹ آوریل ۲۰۱۸.
- «دیتاست DataSet - پی استور %». پی استور. ۲۰۱۸-۰۴-۱۱. دریافتشده در ۲۰۱۹-۰۳-۳۰.