عملية ماركوف (Markov decision process)هو نموذج مؤشر ستوكاستيك الذي يحتوي على خاصية ماركوف.[1] ويمكن استخدامه في تصميم نموذج لنظام عشوائي الذي يتغير الدول وفقا لقاعدة التحول الذي يعتمد فقط على الحالة الراهنة. تستخدم عمليات ماركوف في تشخيص الأمراض وقرارات العلاج الطبي بشكل عام حيث أنه يعتبر استخدامه ضروري في حاله اتخاذ قرار يتضمن خطر مع مرور الوقت مثل زراعة الكبد والكلي. بشكل خاص، يحتاج مؤشر المعلمة الدولة الفضاء والوقت النظام على أن تكون محددة. ويوجد حالات مختلفة من عمليات ماركوف لمستويات مختلفة من الحالات عموما وللزمن المتقطع مقابل الزمن المتواصل.
تعريفه
صناعة قرارات ماركوف هي طريقة لتحليل السلوك الحالى لمتغير معين وذلك لأغراض التنبوء بالسلوك المستقبلى لهذا المتغير المعين، وتنسب سلاسل ماركوف إلى اسم مكتشفها أندريا ماركوف " العالم الروسي الذي ولد عام 1856م وتوفى عام 1922م " ، وتعتبر سلاسل ماركوف أحد أدوات "البرمجة الديناميكية" التي تعد أحد أساليب بحوث العمليات. ويهتم أسلوب ماركوف بدراسة عملية إتخاذ القرارات حيث يتعامل مع احتمالات حدوث حدث معيّن في المستقبل مستنداً إلى تحليل بعض الاحتمالات، أي أنه أسلوب علميّ لدراسة وتحليل ظاهرة الفترة الحالية من أجل التنبؤ بسلوكها في المستقبل. وهناك بعض التعاريف الأخرى لهذه السلسلة :
- هي إحدى أدوات بحوث العمليات تبحث في تحليل الاتجاهات الحالية لبعض المتغيرات للتنبؤ باتجاهاتها في المستقبل.
- هي عملية عشوائية تحمل خاصية ماركوفية، أي التكهن بالمستقبل انطلاقا من الحاضر دون الحاجة إلى معرفة الماضي.
أنواع سلاسل ماركوف
- سلاسل ماركوف- متقطعة الزمن: إذا تمت ملاحظة نظام ما في فترات منتظمة مثلا يوميا أو أسبوعيا، عندئذ يمكن توصيف إجراء التخمين العشوائي الحركي بواسطة مصفوفة تمثل احتمالات التحرك إلى كل حالة من الحالات الأخرى في فترة زمنية واحدة، بفرض أن هذه المصفوفة لا تتغير بمرور الزمن، فان هذا الإجراء يدل على أن سلسلة ماركوف متقطعة الزمن تتوافر فيها تقنيات حسابية لحساب مجموعة مختلفة من قياسات النظام التي يمكن إستخدامها في تحليل وتقييم نموذج سلاسل زمن ماركوف المتقطعة.
- سلاسل ماركوف- مستمرة الزمن: تعرف هذه السلاسل في إجراءات التخمين العشوائي الحركي ذات الزمن المستمر حيث تتوزع مدة كل حالة متغيرة على الشكل الأسي، ويكون الزمن معاملا مستمراً , يحقق الإجراء شرط ماركوف (الذي يعني أن الطريق الذي يسلكه الإجراء في المستقبل يعتمد فقط على الحالة القائمة، وليس على سلسلة الحالات التي حدثت قبل الحالة الحالية). وتعرف هذه السلسلة بسلسلة ماركوف مستمرة الزمن، وتوصف بمصفوفة تمثل معدل الانتقال من كل حالة إلى كافة الحالات الأخرى .
وتعتمد عمليات ماركوف على فرض ثبات احتمالات تحول الحالة من فترة زمنية إلى فترة زمنية أخرى وعلى وجود فترات زمنية متساوية يتم حساب التحول بينها، ويمكن أن يكون عدد حالات التحول محدوداً وهو ما يعرف بسلاسل ماركوف أو مستمر (غير محدود) وهو ما يعرف بعمليات ماركوف المستمرة.
فروض تحليل قرارات ماركوف
يستند تحليل قرارات ماركوف إلى أربعة افتراضات أساسية:
- أن هناك عدد محدود ونهائي من المواقف الممكنة.
- أن احتمالات تغير الموقف من وقت لآخر تظل كما هي ثابتة دون تغيير.
- أنه يمكننا التنبؤ بأي موقف في المستقبل من خلال مصفوفة التغير ومعرفة الموقف الحالي.
- أن الحالة التالية للموقف تعتمد على الحالة السابقة لها مباشرة دون الاعتماد على ما قبل ذلك.
أهم الأسياسيات الرياضية المتعلقة بسلاسل ماركوف مستمرة الزمن
تعريفها
- عملية قرار ماركوف تعتمد علي 5-الصفوف(tuple-5) (ϒ, R(.,.) ,P(.,.) , A , S ).
- S هي مجموعة محدودة من الدوال.
- A هي مجموعة محدودة من الدوال،( As هو مجموعة محدودة من الإجراءات المتاحة خلال S ).
- هو احتمالية حدوث a في s في وقت t وهذا يؤدي الي Ś عند وقت t+1 .
- حيث أن Ra هو الناتج المتوقع من الانتقال من S الي Ś .
- [0,1] (γ (discount factor عامل متقطّع، وهو يمثّل الفرق في الأهمية بين النواتج المستقبلية والحالية.
المشكلة الأساسية من قرارات عملية ماركوف هي الغثور علي السياسة لصانع القرار، وهي تهدف إلى اختيار السياسة التي تقوم بتعظيم بعض الدوال التراكمية للحالات العشوائية. ويمكن لقرارات عملية ماركوف أن تحل من خلال البرمجة الخطية والبرمجة الديناميكية.:)
مراجع
- "معلومات عن قرارات عملية ماركوف على موقع psh.techlib.cz". psh.techlib.cz. مؤرشف من الأصل في 12 ديسمبر 2019.
- R. Bellman. A Markovian Decision Process . Journal of Mathematics and Mechanics 6, 1957
- X. Guo and O. Hernández-Lerma. Continuous-Time Markov Decision Processes, Springer, 2009.