テストにおける新技術。 基準に基づくテスト (裁判所)。 達成度テストと基準参照テスト 基準参照テストの開発者は誰ですか

従来のテストとは異なります。伝統的なテストでは、個人の結果をグループの結果と相関させることによって評価が実行されます(統計的標準への方向付け)。基準指向のテストでは、個人の結果を特定の基準と相関させることによって評価が実行されます。 そのような基準は、スキル、能力、知識の習熟度です。

CAT は教育で使用されます。 CAT を使用したテストの目的は、スキルの習熟度を評価することです。 最終的なスコアはスキルの習熟度を表すものであり、個人差は含まれません。 弱点猫。 したがって、基礎的なスキルを評価するためにそれらを使用することが可能です。

CAT の国内の例は、精神発達の学校テスト - SHTUR (1) です。

基準に基づいたテスト– タスクの内容の論理機能分析に基づいて、ある基準に対する個人の達成レベルを決定するために設計されたテストの一種。 通常、特定のタスクを正常に完了するために必要な特定の知識、スキル、能力が基準 (または客観的な基準) とみなされます。 これが、基準指向のテストと、個人の結果とグループの結果の相関関係 (統計的規範への指向) に基づいて評価が実行される従来の心理測定テストとの主な違いです。 「基準に基づくテスト」という用語が提案されました R・グラッサーテスト項目と実際のタスクとの間の内容および構造的対応関係を確立することは、基準指向のテストの開発において最も重要な段階です。 これらの目的は、以下を含むいわゆる仕様によって実現されます。

b) 基準課題の達成を確実にする知識、スキル、能力の体系化。

c) テスト項目のサンプルとその構築のための戦略の説明。

基準参照テストには 2 つのタイプがあります。

1) タスクが同種であるテスト、つまり、同じまたは類似した内容および論理的基盤に基づいて構築されたテスト。 通常、この種の基準指向のテストは教育プログラムに基づいて開発され、関連する知識、スキル、能力の形成を監視するために使用されます。

2) タスクが異種混合であり、論理構造が著しく異なるテスト。 この場合、段階的なテスト構造が一般的であり、各ステップは行動の基準領域に関連する内容の論理機能分析によって決定される独自の難易度によって特徴付けられます。 A. Anastasi (1982) は、テスト指標の解釈の有意義な意味を基準に参照したテストに重点を置くことは、テスト全般に有益な効果をもたらす可能性があると考えています。 特に、特定のスキルや能力に関して知能テストを使用して得られた結果を説明すると、記録される指標が大幅に充実します。 基準参照テストの場合、妥当性と信頼性を判断するための通常の方法はほとんどの場合不適切です。

社会心理学的基準に基づいて、よく知られた心理測定テストを使用して得られた結果が分析されます。

チケット番号 26 の学力テスト。

達成度テストは、スキルと知識の開発の達成レベルを評価することを目的とした一連の精神診断手法です。

2つのグループの学力テスト:

1. 学習成功度テスト(教育システムで使用)

2. 専門的業績に関する試験(専門的および労働的行為を遂行するために必要な専門知識および業務技能を診断するための試験)。

学力検査は適性検査の逆です。 違い: これらのテストの間には、診断される以前の経験の均一性の程度に違いがあります。 適性テストは学生が受けるさまざまな経験の蓄積の影響を反映するのに対し、学力テストは何かを学ぶ比較的標準的なコースの影響を反映します。

適性検査・学力検査の実施目的:

能力テスト - 活動の成功の違いを予測するため

· 達成度テスト - トレーニング終了時に知識とスキルの最終評価を提供します。

適性テストも達成テストも、能力、スキル、または才能を診断するものではなく、以前の業績の成功のみを診断します。 人が何を学んだかについての評価があります。

学力テストの分類。

幅広い志向 - 知識とスキル、主な学習目標(長期間にわたって計算)の順守を評価します。 例: 科学原理を理解するための学力テスト。

高度に専門化 - 個々の原則、個人または学問的主題を習得します。 例: 数学のトピック - 素数セクションをマスターする - このセクションをどのようにマスターしたか。

達成度テストの利用目的。

先生の評価の代わりに。 教師による評価と比較した多くの利点: 客観性 - 主要なトピックを特定し、主要なトピックがどの程度習得されているかを確認できます。 各トピックの習得度のプロファイルを作成できます。

達成度テストは非常にコンパクトです。 到達度テストは集団テストなので便利です。 学習プロセス自体を評価し、改善することができます。

達成度テストをどのように設計するか?

1. 達成度テストは、コース内容の特定の領域を反映するタスクで構成されます。 まず、内容のトピックを計画し、学習過程で重要なトピックを特定する必要があります。 トピックを教えた教師は、学力テストの作成に参加する必要があります。 精神診断医は主要なテーマを知っていなければなりません。

2. 二次的な知識や重要でない詳細をタスクから除外します。 課題の完了は生徒の機械的記憶にある程度依存するのではなく、むしろ生徒の理解と批判的な評価に依存することが望ましいです。

3. 課題は学習目標を代表するものでなければなりません。 学習目標、教材の習得の成功など、評価が難しいものがある場合(たとえば、権利に関するトピックを習得するなど)、教材の習得を反映するような方法で課題を作成する必要があります。

4. 学力テストは、学習する学問分野を完全にカバーしていなければなりません。 課題は、研究対象の領域を広く代表するものである必要があります。

5. テストタスクには無関係な複雑な要素があってはならず、複雑な要素があってはならず、追加の困難があってはなりません。

6. 各タスクには回答の選択肢が付いています。

7. タスクは明確、簡潔、そして明確に定式化されなければなりません。 どのタスクも別のテスト タスクのヒントにならないようにします (コンパイル後に確認します)。

回答は、回答を思い出す可能性を排除するような方法で構成する必要があります(つまり、トピックに関係のない回答の選択肢や、被験者が推測できないように非常に簡単な回答の選択肢を与えないでください。回答の選択肢は明らかに受け入れられないものとして破棄されます) )。

8. 履行基準が設定されます。 心理学者は多数のタスクを作成しますが、そのすべてがテストに含まれるわけではありません。 まず、すべてのタスクがチェックされます。 テストには、その内容を十分に理解している人の 100% 多数が解決するタスクが含まれます。 2 番目のテストは、内容をマスターしていない人向けです。半分未満を完了する必要があります。 割り当ては最大基準に従ってコンパイルされます。 90-100% - 高レベルのトレーニング。 学力テストは静的な基準に対して評価されるのではなく、クラスに対して評価されます。 個々の結果が比較されます。

専門的な成果のテスト。

職業能力試験は、専門訓練や職業訓練の効果を評価するために行われます。 最も責任あるポジションに人を選ぶ - 専門的な選択。 従業員が別のポジションに移動する際にスキルレベルを評価するために使用されます。 目標は、専門的な知識とスキルのトレーニングのレベルを評価することです。

3 つの形式の専門能力テスト:

1.アクション実行テスト

2. 書かれた

3. 専門的な業績に関する口頭試験

1. 実行テスト。 基本的なスキルやアクションの習得を示す一連のタスクの完了。 これらのメカニズム、機器、ツールは、専門的活動の個々の要素の作業またはモデル化、個々の操作を再現する機能に使用されます。

2. 筆記による学力テスト。 ある人がどの程度の専門知識を持っているかを知る必要がある場合に使用されます。 フォーム上の割り当て。 特定の形式の回答を使用して書面で行われます。

3. 専門的な業績に関する口頭試験。 第一次世界大戦中、人材の選抜には適性検査が行われた。 専門知識を明らかにする一連の質問。 インタビュー形式で診断します。 個別に実施しております。 使いやすい。 印刷する必要はありません。 被験者は指定された形式で回答しなければなりません。

職業達成テストは、達成テストと同じように作成されます。 明らかに数倍の数のタスクが作成されます。 彼らはチェックします。 3 つのグループの労働者がテストされます。

1. 高度な資格を持つ専門家

2.初心者

3. 関連する専門職の代表者。

次の場合、タスクはテストに含まれます。

· タスクは大多数の専門家によって完了されました (これは有効性の兆候です)

· タスクを完了した初心者の割合は低かった (約 60 ~ 70%)

· そして、さらに少数の関連専門職の代表者がタスクを完了した場合。

達成度テストは、250 種類を超える専門活動に対して開発されています。 実際にはそのようなテストはありません。


チケット番号 46 専門的活動の精神診断。

専門的活動の精神診断特別な手段の使用に基づいた間接的な質問を使用して、人の職業上の関心を調査できます。 心理テスト これにより、その人の職業上の志向性をより詳しく知ることができ、その表現の程度を特定することが可能になります。

職業適性の診断: 個人の職業適性は、「特別な知識、技術、能力を備えた状態で、社会的に許容される労働効率を達成するために必要かつ十分な一連の心理的および精神生理学的特性」と定義されます。 この概念には、「仕事そのものの過程やその結果を評価する際に人が感じる満足感」も含まれます。

専門的な診断のタスク: a) 現在のプロフェッショナリズムのレベルの決定。 b) 専門職の要件に対する個人の遵守と、個人の要件に対する専門職の遵守を確立する。 c) 個人の潜在的な専門的能力を特定する。 d) 特定の従業員が実際の専門能力を活用して効果的に仕事を遂行できるよう支援すること。
したがって、専門家の専門的活動を診断することは、その時点での専門性のレベルを決定し、特定の専門職の客観的要件に対する特定の人の遵守の程度を確立することを含む、診断機能自体を実行するだけではありません。 最終的に、専門家の専門的活動を診断した結果は、専門家にとって次のことを決定することになります。 可能な方向さらなる個人的成長と専門的成長。 個人の職業に対する要件、職業上の自己実現の潜在的な機会、および実際の職業上の機会を判断することは、専門家が職業上の活動を最適化するのに大きく役立ちます。

法執行機関に選ばれた候補者の精神診断
精神診断検査 候補者に仕える 法執行機関特別に選択された一連のテストを使用して実行する必要があります。
これは、次の問題の解決策を提供します。 候補者、 ほとんど
個々の心理的性質に応じて働くのに適している
法執行機関。 独自の方法で、
知的能力が大きく影響を受ける可能性がある
職業上の不適応であり、したがって要件を満たしていない場合、
従業員に贈呈 法執行機関.
精神診断検査中 候補者指名予備金から
仕事への適性の程度を心理的に評価する
リーダーとして。 この場合、同じバッテリーが使用されます
初めて仕事に就く人の選択と同様に、テストは、
違いは、職業上重要な資質が、
管理職に任命された人。
上記の目的に従って、精神診断検査は次のことを行う必要があります。
· 候補者の知的発達の一般的なレベルを特定する。
彼の個々の心理的特性の構造、気質の特徴
そして性格、選んだ職業に対する適応能力。
· 十分な信頼性があり、電流だけでなく
(診断)だけでなく、予測の妥当性も考慮します。 機会を与える
候補者の現状を評価するだけでなく、科学的にまとめます
彼の将来に関する最も合理的で信頼できる予測
効果的な使用。
・コンパクトで集団検査に便利 候補者 V
自動処理を使用した限られた期間
試験結果;
・改善のために相互にチェックし、補完し合う
得られた結果の信頼性、精度、信頼性。
人の心理検査 選択された V 臓器検察庁も同様に、
予備役から検察庁の指導的地位に昇進した
地域的かつ平等なレベルは、これらのテストに基づいて作成される必要があります。
専門的な心理学の経験を総合的に研究した結果、
に近いいくつかの州法務部門に蓄積されている
従業員の仕事の性質と専門的活動
検察官、および特別に実施された捜査に基づいて、
研究の結果、一連のテストが完了しました。
主なものには、次の精神診断方法が含まれます。
J. Raven による行列、R.B. による 16 要素性格アンケート カテラ (16-FLO)、
標準化された性格研究方法 (SMIL) - 適応。 V
追加: M. Luscher カラーテスト、アンケート「レベル」
A.M. エトキン著「主観的コントロール」、USK アンケート、テスト「行動戦略」
紛争状況」K.トーマス著。
研究の過程で、専門家の心理的基準
選択されたテストによって明らかにされた適合性は、
検察官を評価するための客観的な基準。 個人ファイル、
並びに検察グループの指導的地位に任命された事実
昇進予備軍から労働者を除外することで、検査を受けたすべての労働者を分離することができた
職業上の適性を 4 つのグループに分類します。
1 番目のグループ - 高レベルのプロフェッショナルな効率性、完全なレベル
職務上のコンプライアンス、職業上の成功の可能性が非常に高い予測。
2 番目のグループ - 職業上の適性の平均レベル (主に
検察および捜査の専門分野の要件を満たしている)。
3番目のグループ - 候補者は検察庁の要件を部分的に満たしています
調査の専門知識(以下の場合に雇用可能) 多数
欠員);
グループ 4 - 専門的効率の低レベル、一貫性のなさ
正式な任命候補者、彼の職業上の失敗の予感。
J. Raven の漸進行列スケール (Raven のテスト)。
このテストは被験者の知能を研究し、その能力を特定するように設計されています。
論理的に考える能力、オブジェクト間の重要なつながりを見つける能力、
現象、精神的パフォーマンス、能力のレベルを判断するため
注意、知性全般を集中させます。 資質、
弁護士の活動、さらには検察や捜査の活動に必要な場合
労働者。 この方法による低い結果により、症状が軽減された人々を特定することが可能になります。
知的、認知能力が未発達
分析的思考、集中力の欠如。

テストの分類を考えるときに最初に注目する必要があるのは、現在テストで開発されている 2 つのアプローチ、つまり基準指向のテスト (基準指向) と規範指向のテスト (規範指向) です。

基準ベースこのテストにより、学生が、たとえば必須の学習成果 (教育基準) として定義される所定のレベルの知識、スキル、態度に到達した度合いを評価することができます。 この場合、特定の学生の成績は、他の学生が受けた結果には依存しません。 結果は達成レベルが適切かどうかを示します この生徒の社会文化的規範、標準要件、またはその他の基準。 このアプローチでは、結果は 2 つの方法で解釈できます。1 つ目のケースでは、テスト対象の教材がマスターされているかどうか (標準に達しているかどうか) について結論が出され、2 つ目のケースでは、レベルまたはパーセンテージが判断されます。テスト対象の内容の習得度が示されます (標準がどのレベルで習得されているか、または標準のすべての要件の何パーセントが習得されているか)。

規制指向このテストは、特定の生徒集団に対して決定された統計的基準に焦点を当てています。 個々の生徒の教育成績は、生徒全体の成績、つまり平均を上回るか下回るかに応じて解釈されます。 学生はランク別に配置されます。 どのスケールが使用されるかに関係なく、これらのスケールはすべて、学生の特定の知識とスキルの体系の習得、または特定の学習目標の達成に関する情報を提供するものではありません。 このアプローチは学習プロセスの内容とは相関しません。

基準指向のテストと規範指向のテストの違いは、V. S. Avanesov によって提案された図によく示されています。 基準指向の解釈の場合、結論は論理的な連鎖に沿って構築されます。 課題→回答→被験者が所定の基準に準拠しているかどうかの結論。

規範指向の場合、結論は次の評価で完成します。 タスク→回答→被験者の知識に関する結論→評価。被験者の地位またはランクに関する結論として理解されます。

現代の規範指向のテストでは、通常、タスクは特定のグループ (クラスター) に組み合わされており、その実装により、学習の特定の目標またはトピック (基準) に関連した生徒の成果を記述することが可能になります。 完了したタスクの結果により、異なるグループを相互に比較し、同じグループ内で類推することができます。

基準に基づいたテストは、各受験者が教育的または専門的なタスクを実行するために必要な知識とスキルをどの程度持っているかを決定します。 一部のテストは、特定の資質、能力、スキルの発達を診断するのに適していますが、標準化して定量的に測定するのがより困難です。

「規範的」(規範指向)テストや「基準ベース」(基準指向)テストという用語は厳密には正しくないと指摘する A. N. マヨロフ氏の意見に同意せざるを得ません。 各規範的テストは以下に基づいています。 特定の基準答えの正しさを評価し、その結果、各基準テストは、特定の指標を使用して、最低限必要な目標が達成されているかどうかという質問に答える必要があります (トレーニングのこの段階、これらの特定の条件下で)。 しかし、現代の海外および国内の教育学および心理学におけるこの用語はすでに一般に受け入れられており、テストの目的を満たしています。

基準テストの開発に携わっている心理学者は、課題の基準としての定義は 2 つの要素によって決定されることに注目しています。 1 つ目は、タスクで提示される資料により、教育または専門活動の内部的に完全な領域に関連する一般化された知識とスキルのセットを提供できるということです。 2 番目の要素は、その実行を確実にするための精神的行動の体系的なリストを提示できることです。 規範的テストも基準参照テストも完璧ではありません。 規範的テストは、主に検証サンプルの代表性の欠如とテスト項目の策定の社会文化的側面によって批判されています。 多くの場合、この批判は正当ですが、現在、教育学における多くの診断問題を解決する場合、規範的なテストなしでは解決できませんが、教育学における基準に基づくテストの困難のほとんどは、すべての学問的主題が標準的なテストを持っているわけではないという事実によるものです。テストが焦点を当てている主題領域に関連するあらゆるタイプの活動における専門家と同等です。

最近教育成果を評価し、基準指向のテストと基準指向のテストの両方の特性を 1 つのツールキット (テストなど) で使用する場合、2 つのアプローチ (基準指向と規範指向) を組み合わせて使用​​する傾向があります。

ツール開発への 2 つのアプローチを組み合わせたいという要望は、次の例で説明できます。 古典的なスキームに従って、最終管理のテストは規範指向のアプローチの枠組み内で開発される必要があります。 ただし、基準の達成度を評価する最終テストは、基準指向のアプローチの枠組み内で開発することが提案されています。 世界の有力な専門家(R. ウッド、V. アンゴフ)によれば、基準指向のテストの主な特徴は、合格基準(合格 - 不合格、達成 - 不合格)が存在することではなく、徹底的な説明の中にあるということです。テスト対象のコンテンツの説明、このコンテンツに厳密に準拠したテストの開発、およびテスト対象のコンテンツから得られた内容に関するテスト結果の説明。 現在、「基準指向のアプローチ」または「テスト」の概念は、「内容指向」(「コンテンツ指向」)および「トレーニングのレベルの目標または要件への指向」(「目的指向」)の概念に置き換えられています。 -gefegenced」)。

例。

テストの信頼性は高くても、妥当性が低い場合があります。 妥当性の高いテストは必然的に信頼性も高くなります。 たとえ信頼性が高くても、妥当性が低いテストは使用できません。

教育テストの信頼性と妥当性の概念は、テストを測定手段として特徴付けるため、非常に重要です。 信頼性や妥当性が不明なテストは測定には適していません。 テストを作成した教師がテストを実施する場合、新しく作成されたテストの信頼性と有効性が不明であるため、得られた結果は (たとえば、科目のランク付けなどに) 非常に慎重に解釈される必要があります。

教育テストは、さまざまな目的で生徒の知識を監視するために広く使用されています。 教育テストを使用する目的に応じて、規範指向と基準指向の 2 つの大きなクラスに分類できます。

規制指向のテストでは、知識のレベルに応じて受験者をランク付けできます。 このテストでは、科目の教育成果を相互に比較することができます。

規範指向のテストの目的は、準備のレベルに応じて被験者をランク付けすることです。 その結果、すべての被験者のテストの成績が悪く、個人スコアが低いことが判明する可能性があります。 ただし、この場合でも、被験者をランク付けすることは可能です。誰かが低いスコアを獲得し、誰かがさらに低いスコアを獲得する可能性があります。 タスクによっては、課題が簡単で全員が正常に回答したなど、主題が区別されない場合があります。 逆もまた同様で、非常に難しい課題であり、誰もがそれに答えることができませんでした。 このようなタスクではランク付けができないため、テストから削除する必要があります。 すべての被験者がどのタスクにも回答しなかった場合、またはすべてのタスクに正しく回答した場合、設定された目標を達成することができず、さらなる処理の対象となるため、規範指向のテストは機能しません。 このテストは、基準に基づいたテストとして機能する可能性があることに注意してください。

基準志向のテストでは、受験者の同化の程度を特定できます。 特定のセクション特定の主題分野で。 これらのテストは前世紀の 60 年代に登場しました。つまり、標準的なテストよりもずっと後です。 基準指向のテストは、次の点に焦点を当てたテストに分類されます。 対象分野、および資格試験。

基準指向のテストの目的は、受験者が標準的な教材 (主題、セクション、トピック) を知っているかどうかを判断することです。 テストの結果、すべての被験者がすべてのタスクを正常に完了したことが判明する場合があります。 これは、トレーニング教材を習得したことを意味します。 すべての被験者がテスト課題を完了できなかった場合、これは教材が習得されていないことを意味します。 どちらの場合も、テストはタスクを完了しました。



以下では、次の定義が必要になります。

基準指向の教育テストは、学生が習得すべき知識、スキル、能力の全範囲に対する教育成果のレベルを測定できるタスクのシステムです。

次に、規範指向のテストと基準指向のテストの比較に移りましょう。

外見上、両方のタイプのテストには多くの共通点があります。つまり、形式が似たテスト タスクが使用され、これらのタスクには同様の指示が伴い、タスクは同じ方法で実行されます。 ただし、外観の類似性にもかかわらず、これらはまったく異なるテストです。 それらには次のような違いがあります。

1. テスト作成の目的。 規範指向のテストは、テストの対象となる内容領域で受験者を比較するために特別に設計されています。 これらのテストは、たとえば大学への入学志願者の選抜に使用できます。 1 つの場所を複数人で争う場合、最も優れた者を選択するために被験者を順位付けするという問題が生じます。

特定のコンテンツ分野で受験者を認定するには、基準に基づいたテストが必要です。 このようなテストは、中等教育機関での訓練終了時などの最終テストに使用されます。 ここで重要なのは、学校のカリキュラムが適切な範囲まで習得されているかどうかを確認することです。 ここではランキングの問題は大きな役割を果たしません。

基準指向のテストが標準的なテストとして使用される場合、テスト結果のばらつきが小さいため、これらの結果の信頼性は低くなります。 逆もまた真で、基準指向のテストで規範指向のテストを使用すると、信頼性の低い結果が得られます。 これは、標準テストの難易度に関してテスト項目のばらつきが大きいためです。

2. コンテンツ領域の詳細レベル。

テスト開発は仕様の作成から始まりますが、両方のタイプのテストの仕様は大きく異なります。 基準参照テストの仕様には、テスト結果の適切な解釈が可能になるため、コンテンツ領域の要素がより詳細に記述されています。 規範指向のテストの場合、コンテンツ領域の詳細レベルははるかに低くなります。 これらのテストでは、可変のテスト項目を取得することがはるかに重要です。

3. テスト結果の統計処理。 基準参照テストのスケールスコアは、「標準化サンプル」から得られたテスト基準に基づいています。 基準参照テストでは、テストのスコアは受験者のいかなる規範的なグループにも関連付けられません。 いつもの テストの点数正しく完了したタスクの割合を反映し、パーセンテージで表されます。

4. テストタスクの分析と選択。

規範指向のテストでは、タスクの難易度、差別化能力などの統計的特性が非常に重要です。 タスクの難易度が平均的で、差別化能力が高い場合、それは規範的なテストに適していると考えられます。

これらの統計的特性には、 非常に重要な基準参照テストの場合。 ここで、テストにタスクを含める主な基準は、コンテンツ領域の詳細と要素に準拠しているかどうかです。

5. 個人のスコアに応じたテストの配分は、両方のタイプのテストで異なります。 規範指向のテストの場合、分布曲線は対称であり、ガウス曲線に近くなります。 基準参照テストの場合、この曲線は非対称であり、通常は個人のスコアが高い領域に向かってシフトします。


6. テスト結果の解釈。

規範指向のテストと基準指向のテストでは目的が異なるため、得られるデータの解釈も異なります。

規範的テストの結果は、統計に基づいたテスト規範に基づいて解釈されます。 この場合、規範集団に対する被験者の位置を決定することができる。 規範指向のテストでは、コンテンツ領域の特定のセクションまたは要素がどのように習得されているかについてほとんど情報が得られません。

基準を参照したテストの結果は、テストの詳細な仕様に従って、コンテンツ領域の習得の完全性という観点から解釈されます。

以下の表は、両方のタイプのテストの特性を比較したものです。

テーブル。 比較特性規範指向および基準指向のテスト

規制指向のテスト 基準指向のテスト
1. テストの目的: テストの対象となるコンテンツの分野において、受験者のトレーニングのレベルを相互に比較する機能。 使用例: トレーニング候補者の競争的選抜。 1. テストの目的: コンテンツの特定分野の習熟度に応じてテスト対象者を認定する能力。 使用例: 学生の訓練レベル、職員の専門訓練レベルの最終認証。
2. 使用するスケール: 規範的な (または標準的な) スケール。 選択したスケールの平均と標準偏差を示す必要があります。 2. 使用されるスケールは、基本的に 1 つ (または複数) の基準スコアが選択されたパーセンテージ スケールです。 特別な注意基準スコア (複数可) を最適に選択するための方法論に焦点を当てています。
3. 個人スコアの分布: 正常に近く、ほとんどの場合、対称的な外観を持ちます。 3. 個々の点の分布: 任意ですが、ほとんどの場合は非対称であり、非対称の外観を持ちます。
4. コンテンツ領域の詳細レベルは重要ではありません。 テスト作成者は、最も重要なコンテンツ要素を選択します。 4. コンテンツ領域の詳細レベルが詳細になります。 テスト作成者は、すべてのコンテンツ要素を含むテスト仕様 (計画) を作成します。 次に、この仕様に従ってタスクが開発されます。
5. 規範的な被験者グループが必要です。 規範的テストの結果に基づいて処理された (またはスケールされた) スコアは、規範的グループ、つまり特定のかなり大規模な被験者のサンプルからの統計データに基づいています。 ほとんどの場合、特別な規範テーブルが使用され、特定のテストの個々のスコアが、規範グループで決定されたパーセンタイル相当値と 1 対 1 で対応します。 5. 規範的な被験者グループは必要ありません。 被験者の個人スコアは割合に関連して解釈されます。 教材彼によって見事にマスターされました。 ほとんどの場合、学生のスコアは正しく完了したタスクの割合を反映し、パーセンテージ スケールで表されます。
6. 統計分析と検査項目の選択。 試験項目の選択には、試験項目の統計的指標(主に難易度や識別力)が重要な役割を果たします。 平均的な難易度 (0.3 ~ 0.7) と高い識別能力 (0.3 以上) のタスクが選択されます。 割り当ての品質を示す重要な統計指標は他にも多数あります。 6. 統計分析と検査項目の選択。 難易度や課題の識別能力は、テストに含めたり、逆にテストから除外したりするための重要な要素ではありません。 タスクを選択するための主な条件は、仕様およびコンテンツ要素への準拠 (一致) です。 テスト タスクの統計的特性は、テストの並列形式 (バリアント) をコンパイルし、最適な基準スコアを選択するために使用されます。
7. 信頼性をテストします。 2 つのテストの結果間の相関関係を見つけることによって、または 1 つのテストでテストを 2 つに分割することによって評価されます。 7. 信頼性をテストします。 二重テストにおける合否判定の一貫性の度合いによって評価されます。
8. 有効性。 競争力のある学生選抜テストの内容の妥当性とともに、高レベルの予測の妥当性にも特別な注意が払われます。 8. 有効性。 コンテンツの有効性には特に注意が払われます。 テスト結果に基づいて重要な決定が行われる場合、基準と構成概念の妥当性が検査されます。

要約すると、規範指向のテストと基準指向のテストは互いに大きく異なることに注意します。 テストを使用するときは、次の規則に従う必要があります。

1) 基準指向のテストを基準指向のテストとして使用することはできず、その逆も同様です。

2) まったく同じテストを、規範指向と基準指向の両方として使用することはできません。

これらの規則に違反すると、テスト結果の信頼性が低く、測定誤差が大きくなります。

精神診断資料の解釈

結果の解釈は、原則として、以前に得られたすべての実験データと臨床データが一般化され説明される精神診断の最終段階に関連しており、実際、それは研究のすべての段階に影響を与える継続的なプロセスです。 「推移的診断」の概念を拡張して、I. Shvantsara et al. (1978) は、解釈には研究中の個々の診断上重要な事実の説明が含まれると指摘しています。 これにより、心理学者は精神診断の問題に柔軟に対処し、研究プログラムを変更する機会が得られます。 著者らは、部分的な結果に基づいて仮説を立て、さらなる研究プログラムの変更につながるアドホック解釈と、心理学者が全体的な精神診断で得られた個々の事実の意味を確立するポストホック解釈を区別している。ケースの写真。

精神診断研究のデータを解釈するとき、心理学者は精神現象の複数の決定と各精神診断結果の曖昧さに関するアイデアに依存します。 したがって、解釈の正確性と適切性は、診断データ間の考えられる関連性、診断データの状況的条件、および診断データの考えられる個人的な意味を考慮する心理学者の能力に依存します。

データを解釈し、精神診断の結論に反映する際に考慮しなければならないもう 1 つの重要な側面は、特定された心理的特徴 (障害) が状況に応じたものであるか、本質的に一時的なものであるか、それとも被験者の性格、行動、知性の一定の特徴に関連しているかどうかです。

心理カウンセリング、矯正、教育など、どのような種類の仕事に従事しているとしても、心理診断は実践心理学者の専門的活動の基礎です。

精神診断資料: 論文、書籍、会議要約、診断ツールを習得するための教育プログラムの発表、子供向けのクラスのビデオ、精神診断の科学と実践の分野のニュース。

精神診断の飛躍はコンピューターテストの使用のおかげで起こりました。これにより、テストによってモデル化された活動の手順的な側面を研究することが可能になり、課題を解決する際の個人の戦略を特定するのに役立ち、課題を実行するときに人が経験する困難を分析することができます。提案されたタスク。 コンピュータテストでは、被験者とコンピュータ間の対話形式でテスト情報を収集します。 ただし、フォーム上で収集された情報をコンピューターで処理するテストはコンピューターテストではありません。 コンピューターテストを使用すると、テストの信頼性を維持する機会が増えます。 意識的な改ざん(嘘、対象者の不誠実)や意図しない動機の歪みから結果を保護することを保証します。 テストの信頼性も向上します - テスト結果の安定性、さまざまな干渉源 (ノイズ、ランダムな検査要因) に対するテストの安定性。



コンピュータテスト中に隠された人間の能力を改善し、より完全に明らかにすることができます。 このようなテストでは、学習または発達のプロセスがシミュレートされ、学習に費やされた努力が分析され、成功が評価されるため、被験者の知的能力についての結論を導き出すことができます。

基準指向のテスト (英語では criterion-referenced) では、受験者が必要な教材をどの程度習得しているかを評価できます。 を指します 学力テスト。 こちらも参照 規制指向のテスト
それらは、米国では 60 ~ 70 年代に教育制度で発生し、我が国では 80 年代に発生しました(精神診断の新しい傾向)。 これまでは、2 種類のテストが使用されていました。

· - 知能検査

· - 教育システムにおける成果のテスト

知能検査:知能検査の特徴は、内容や課題がカリキュラムと直接関係していないことである。 知能検査と教育課題との間に対応関係がなく、検査結果に基づく教育活動の成功の結論には問題があった。 0.5 – 知能テストの成功と、それらの間のトレーニングの成功との間の相関関係。 教育活動を行う上で生徒の具体的な困難の原因を特定し、内容を決定することができない 矯正作業この生徒たちと一緒に。

知能テストでは、特定の要件を満たす生徒の能力を評価することはできません。 カリキュラム、統計的規範に焦点を当てているためです。

達成度テストは、特定の教育知識とスキルの習得の成功を監視するために使用されます。 その結果に基づいて、教師が学校のカリキュラムの要件をどの程度満たしているのか、どこまで進歩しているのか、どのような支援が必要なのかという結論を導き出すことができます。 ガイドラインは統計的な基準ではなく、習熟度の基準に基づいています。 欠点: 行動学習モデルが構築され、同化の最終成果物が制御されました。 しかし、同化の方法は評価されない。 この点に関しては、知能検査によりさらなる情報が得られました。

1963 年に、グラッサーは基準参照測定という用語を初めて使用しました。

1968 年に、基準に基づくテストを構築する方法が説明されました。 アメリカの教育制度に登場しました。

70 年代初頭、基準に基づいた測定の実践に関心が集まりました。 CORTS は、プログラムされた学習の過程で何がどのように学習されたかを反映しました。 CORT の助けを借りて、人が何らかのアクティビティを実行する準備ができているか、特定のアクティビティに対処できるか、特定のアクティビティをどのレベルで実行できるかを評価できます。 CORTS は教育システムだけでなく、専門的な活動にも役立ちます。

CORT を使用する目的:

1. 精神機能の発達の監視、教材の同化の監視。 CORT の助けを借りて、その人の同化と発達がどの程度進んだかを評価できます。
2. 開発の程度を評価する 特定の機能マスタリーは、特定のポジションの特定の要件を満たします。 人が特定の活動に対処できるかどうかを予測します。
したがって、CORT の主な特徴は、テストが開発または同化の基準 (パフォーマンス基準) で表される外部要件に焦点を当てていることです。

CORT 基準。

「基準」という概念。 最初の段階では、2 つの基準の概念が考慮されます。

1. 基準は、スキルのレベル、特定のアクティビティの特定のレベルでのパフォーマンスです。
2. 基準は、活動の特定の実質的および運用的側面です。 特定の活動に対処するための一連の知識、スキル、行動。
アクティビティの実行と、特定のレベルのスキルに対応する特定のレベルの知識とスキルという 2 つの概念が 1 つに統合されました。

この基準の理解は、テストに混乱をもたらすため拒否されました。 したがって、テスト解釈の段階で熟練度レベル (テストのパフォーマンスのレベル) を導入することで、あらゆるテストを CORT に変えることができると考える人もいるかもしれません。 この基準は、所定の外部要件を満たすために実行する必要がある活動の実質的および運用上の要素を反映しています。 個人が特定のアクティビティにどれだけ熟練しているかを反映するには、CORT はそのユーザーが何を知っていて、何ができるかを反映する必要があります。 CORT は特別な診断方法です。 最初の段階の違い: 従来のテストとは対照的に、目標を明確にします。

CORT の 2 番目の特徴は、その結果が条件付きのポイントではなく、特定の知識、スキル、能力の同化と発展を示す具体的な指標として提示されることです。 重要なのは、完了したタスクの数ではなく、人が何を知っているか、どのような操作ができるかです。

CORT の 3 番目の特徴は、パフォーマンス指標が標準との比較ではなく、CORT と基準 (外部指定基準) との比較によって評価されることです。 特定の活動で成功を期待するために人は正確に何を知っていますか?


基準指向のテストと統計的標準に焦点を当てたテストがあります。

規範はサンプルまたは母集団を特徴づけます, しかし、人に対する実際の要件は明らかにしません。

^ 社会心理学的基準 (SPN) - 社会が各構成員に課す要求の体系 。 既存のコミュニティから拒否されないためには、提示された要件を習得する必要があり、このプロセスがアクティブになります。 - 誰もが社会的コミュニティの中で特定の場所を占めようと努力し、クラスやグループに参加するこのプロセスを意識的に実行します。 これらの要件はコンテンツを形成することができます SPN、個人にとっての社会的コミュニティの要件の理想的なモデルとして機能します。

したがって、テスト結果を評価するときは、学歴や年齢の境界内で区別される SPN への近さの程度に従って結果を合計する必要があります。 そのような要件は、規則、規制、個人の要件の形で明記され、精神的発達、道徳的、身体的などのさまざまな側面が含まれます。さらに、これらの要件は、コンテンツを構成します SPN、非常に現実的であり、存在します。 教育プログラム

^ SPN開発の基準として使用 考慮する必要がある生地の定性的な加工方法を強調します。 : 一般性の観点から、どの用語や概念がよりよく理解されていますか?, そしてどちらが悪いのか; どれの 論理演算より多くのことをマスターし、どれがあまり成功していないのか;どの範囲の概念や用語に学生はあまり興味を持たず、どの範囲に自信を持っていますか?。 したがって、統計的標準とは異なり、 SPN人間開発の内容面を質的に異なる方法で考察します。

外観 基準に基づくテスト (CORT)特別なトレーニングコース後の子供と大人の両方の成績と学業の成功をテストすることに関連しています。 非伝統的な形式のテストの「独立した本質」を特定し、それを統計的規範に焦点を当てたテストから分離した最初の人物は、R. Glaser (1963) でした。 彼も紹介してくれました 学期基準に基づく測定」 - 基準を参照した測定 。 基準指向のアプローチと基準指向のアプローチの違いは記録されていますが、診断の実践では 2 つのアプローチの違いは明らかになっていません。 これは、基準に基づいたテスト モデルを使用することの実際的な影響を分析するのに十分ではなかったという事実によるものと考えられます。 もう 1 つ重要なことは、テストを構築およびテストするための基準指向の方法を開発することです。

CORT解析の対象となるのは、 活動内容個人: 教育プログラムが個人に課す特定の要件に関して個人が知っていること、またはできること。 KORTにおけるテキスト分析は、単に統計的な指標だけでなく、テスト項目の内容や比較特徴に着目した特徴に応じたチェックを行う必要があります。 テストと実際の教育課題との間に有意義な対応関係を確立することは、CORT の開発における決定的な段階です。 CORT に関して言えば、教育課題は「外部基準」ではなく、その現実であり、この CORT がモデル化する本質的な側面です。

^ KORT の基準の種類。 の上 初期基準指向のアプローチの確立が提唱された パフォーマンスのレベルとしての基準の概念 。 CORTS は、学生が学習していないことに関する情報を提供します。 学生は、注意を払う必要がある教材の断片に戻されます(テストにより、知識と未熟なスキルの問題が明らかになります)。

基準 スキルレベルとして - 特定の知識を構成するすべてのコンポーネントのリファレンス セット。 このような特性により、教師や研究者は生徒の行動と生徒ができるべきことを比較することができます。 CORTS の特徴は、習得レベルの向上を目的としており、習得した内容の量を明らかにするだけでなく、新しくより複雑な内容を習得する際に習得した知識を積極的に使用する生徒の能力を示すことです。 パフォーマンスのレベルに焦点を当てた CORTS が、生徒がトレーニングの次の段階に進む十分な準備ができていることを確立できれば、CORTS は習熟度のレベルに焦点を当て、主に標準とパターンによって決定される要件を具体化します。教育の理論と方法論で確立された習得度(それらは学習目標として記録されます)。

段階的な原則に従って、スキルレベルに応じたコートを構築することをお勧めします。 各レベルは独自の難易度によって特徴付けられます。 ここでの複雑さは、教育課題の要素間のプロパティと関係の数と性質によって決定される客観的なカテゴリとして理解されます。 段階的な構造は、学生が特定のスキルについて十分な知識を持っているかどうかを確認するだけでなく、このスキルの実装の成功が教材の内容の特徴によってどの程度左右されるかを特定する機会も提供します。
^

3.5. 精神診断技術のコンピュータ化


コンピューターは、人間の精神の直観と創造的な活動、その偏り性と選択性、認識の完全性、そして予測の賜物を置き換えることはできません。

しかし、コンピュータの使用により、心理学研究に幅広い展望が開かれます。 心理診断のタスクに関連して、実験者がコンピュータなしでは取得することがほとんど不可能なデータを分析のためにコンピュータの助けを借りて受け取ることが非常に重要です。つまり、個々のテストタスクを完了する時間、正しいデータを受け取るまでの時間です。答えの数、不正解の数、決定を拒否して助けを求めた回数、決定を拒否する際に被験者が答えを考えるのに費やした時間、答え(複雑な場合)をコンピューターに入力する時間など。 被験者のこれらの特徴は、テストプロセス中の被験者の活動の詳細な心理分析に使用できます。

コンピューターは、テストの作成からその適用、主要指標の計算、記録と解釈に至るまで、テストのほぼすべての段階を変え、データを柔軟かつ迅速に処理する方法を提供しました。

精神診断におけるコンピューターの使用以来、この分野ではいくつかの方向性を区別することができます。

そのうちの 1 つはテスト データの収集と処理であり、最新の手法のほとんどがそれに適用されます。

コンピューターを使用してテスト手順の標準化を自動化すると、これらの問題を解決する大きなチャンスが広がります。 コンピューターの使用により、広範囲にわたるテストが確保され、被験者に対する実験者の性格の影響や一部のテスト条件のばらつきなどが軽減され、テストの客観性と信頼性が向上します。

さらに高いレベルでこれが実行されます 定性分析診断結果とテスト指標の機械解釈。 このテスト構成では、特定の一連の回答が、コンピューターのメモリに保存されている特定の言語表現に関連付けられます。 必要に応じて、グラフ、表、図、プロファイルの形式で情報を取得できます。

コンピューターは、新しいテストの開発やその開発のためのアルゴリズムの作成に直接関連する多くの問題を解決する上でも重要な役割を果たします。

特に重要なのは方法論の開発の問題です 適応された(個別化された)テスト、ほとんどの外国人作家が好むものです。 このアプローチでは、各被験者は自分に合った難易度の課題を受け取ります。 適応型検査により、検査時間が大幅に短縮され、ほぼ個別のペースで検査を実行できるようになり、被験者の特性を診断する精度が向上します。 課題の難易度が被験者の能力に適していると、被験者のモチベーションが高まります。

コンピュータを使用してテストを行う場合、研究者は、生徒のグループによる特定のタスクのパフォーマンスの特性 (テストの特性) だけでなく、生徒の個人データ (被験者の特性) についても客観的な情報を得ることができます。 。 これは、精神的発達の指標、対象者の活動の速度特性(テンポ)、対象者のパフォーマンスのダイナミクス、言語的および非言語的サブテストの実行の特徴などを指します。

^ 結論


  • 精神診断の最大の特徴は、 測定する-テストの焦点、これにより、研究対象の現象の定量的および定性的評価が達成されます。

  • ハイライト 3 つの主要な精神診断アプローチ、利用可能なさまざまな診断技術をすべてカバーしています。 「客観」「主観」「投影」.

  • テクニックには主に 4 つのタイプがあります。 テスト; アンケートとアンケート。 投影法と精神生理学的方法.

  • テストが科学的に有効であるとみなされるには、4 つの特定の基準を満たさなければなりません。 これら 基準:標準化、規範、信頼性、有効性。

  • 標準化- これ テストの実施と評価の手順の均一性 。 したがって、標準化は次のように考慮されます。 計画: 1) 実験手順の統一要件をどのように作成するかおよび 2) 診断テストの結果を評価するための単一基準の定義として。

  • テストの信頼性– テスト結果の一貫性と安定性。

  • テストの有効性– 測定対象の特性を測定するためのテストの適合性。

  • テストの有効性を示す単一の指標はありません。 テストの有効性をチェックするときは、どのテストが有効であるかを示すことが重要です。 有効性の種類.

  • 基準指向のテストと規範指向のテストがあります。